|
2006年8月21日
?tss中文:開源面向?qū)ο蟮臄?shù)據(jù)庫db4o 5.5版發(fā)布了
近日db4objects發(fā)布了開源面向?qū)ο髷?shù)據(jù)庫
db4o 5.5 版本. 這個(gè)版本的焦點(diǎn)是提高了性能降低了內(nèi)存耗用,特別針對資源緊張的嵌入式開發(fā)提供了支持。
具體的改進(jìn)特性: - 類索引使用新BTree架構(gòu),極大減少了事務(wù)提交的時(shí)間,對象個(gè)數(shù)在10萬之1千萬的索引時(shí)表現(xiàn)極為明顯。 -通過更好的群集插槽方式,改進(jìn)字符串和數(shù)組的序列化方式,在插入和修改時(shí)提高了效率。
-提供了診斷工具包,幫助程序員更容易開發(fā)出高效程序。
-本次改進(jìn)效率的提升可以讓內(nèi)存耗用更低。
伴隨著?這次發(fā)布,db4objects 還提供了用戶交流社區(qū):
這里
。??
原文: db4o open source object database v 5.5 released
2005年11月28日
一種面向搜索引擎的網(wǎng)頁分塊、切片的原理,實(shí)現(xiàn)和演示
最近看到 2005 年的 全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會(huì) 上 華南木棉信息檢索的隊(duì)長 歐健文 的 華南木棉信息檢索 的ppt。很有啟發(fā)。
于是自己也根據(jù)自己的理解準(zhǔn)備做一個(gè)實(shí)現(xiàn)。 實(shí)現(xiàn)前提假設(shè): 1、網(wǎng)頁分塊切分的基本單位是html中的table , div 等標(biāo)簽(目前版本只支持:table ,div 標(biāo)簽)。 2、網(wǎng)頁分塊切片識(shí)別依賴于相似url的對比。比如:我們認(rèn)為一下兩個(gè)url的網(wǎng)頁html文本結(jié)構(gòu)相似: http://news.soufun.com/2005-11-26/580107.htm http://news.soufun.com/2005-11-26/580175.htm 而下面兩個(gè)url的網(wǎng)頁結(jié)構(gòu)不相似: http://news.soufun.com/subject/weekly051121/index.html http://news.soufun.com/2005-11-26/580175.htm
用途: 1、根據(jù)分析網(wǎng)頁結(jié)構(gòu)區(qū)分網(wǎng)頁是 主題型網(wǎng)頁 還是 目錄型網(wǎng)頁; 2、根據(jù)分析網(wǎng)頁結(jié)構(gòu) 找出 網(wǎng)頁的 主題內(nèi)容,相關(guān)內(nèi)容和噪音內(nèi)容;
實(shí)現(xiàn)的3個(gè)階段: 1、對網(wǎng)頁結(jié)構(gòu)進(jìn)行合理切片; 2、比較相似網(wǎng)頁的切片結(jié)構(gòu); 3、分析切片數(shù)據(jù),得出結(jié)論。 演示地址: http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp
2005年10月12日
一種快速的未登陸詞識(shí)別方法(原理和實(shí)現(xiàn))
最近網(wǎng)絡(luò)上關(guān)于分詞的算法已經(jīng)很多了,在實(shí)際應(yīng)用中每個(gè)人根據(jù)對分詞的不同理解寫了不同的中文分詞算法,可謂百花齊放. 但現(xiàn)在似乎還沒有針對未登陸詞的識(shí)別算法,有鑒于此,我特地寫了一個(gè),拋磚引玉.
算法的假設(shè): 1. 未登陸詞是由單字組成的; 2. 如果一個(gè)字同時(shí)屬于2個(gè)未登陸詞,那么只選擇第一被識(shí)別的詞;
測試文章: 最近電視劇大長今很火,我就選取了介紹大長今的文章, 地址:http://www.360doc.com/showWeb/0/0/18183.aspx 識(shí)別結(jié)果如下: PDH : initialize phrase dictionary QuerySpliter reInitialize dictionary. 長今,職場,閔政浩,韓劇,鄭云白,連生,主簿,冷廟高香,義字,醫(yī)女,張德,剩者,濟(jì)州,選撥,文秘
算法原理: 首先找出已經(jīng)分詞后的單字,然后查看單字的下一個(gè)是否還是單字,如果是,判斷這種情況出現(xiàn)的次數(shù),如果超過預(yù)訂的閥值,那么就確認(rèn)這是一個(gè)新詞. 下面是一個(gè)算法的計(jì)算過程展示: PDH : initialize phrase dictionary QuerySpliter reInitialize dictionary. >>>8,9;9,10 長今 >>>237,238;238,239 職場 >>>595,596;596,597;597,598 閔政浩 >>>189,190;190,191 韓劇 >>>1111,1112;1112,1113;1113,1114 鄭云白 >>>599,600;600,601 連生 >>>610,611;611,612 主簿 >>>975,976;976,977;977,978;978,979 冷廟高香 >>>1233,1234;1234,1235 義字 >>>559,560;560,561 醫(yī)女 >>>561,562;562,563 張德 >>>3114,3115;3115,3116 剩者 >>>534,535;535,536 濟(jì)州 >>>580,581;581,582 選撥 >>>2071,2072;2072,2073 文秘 本算法是在:小叮咚分詞的基礎(chǔ)上進(jìn)行的. 歡迎大家一起交流,改進(jìn)這個(gè)算法.  相關(guān)連接: 基于最長詞匹配算法變形的分詞系統(tǒng)( 文舫工作室貢獻(xiàn) )
小叮咚中文分詞在處理大量數(shù)據(jù)的時(shí)候碰到了內(nèi)存泄漏的問題
Lucene使用者沙龍
原帖地址
2005年8月29日
什么是垂直搜索引擎(之二)
垂直搜索引擎的三個(gè)特點(diǎn):
1、垂直搜索引擎抓取的數(shù)據(jù)來源于垂直搜索引擎關(guān)注的行業(yè)站點(diǎn): 比如:找工作的搜索引擎 www.deepdo.com 的數(shù)據(jù)來源于:www.51job.com , www.zhaoping.com , www.chinahr.com 等等; 股票搜索引擎 www.macd.cn 的數(shù)據(jù)來源于: www.jrj.com.cn , www.gutx.com 等股票站點(diǎn); 2、垂直搜索引擎抓取的數(shù)據(jù)傾向于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù): 比如:我們找工作關(guān)注的: 職位信息: 軟件工程師; 公司名稱,行業(yè)名稱:軟件公司,外包行業(yè)等; 地點(diǎn):北京,海淀; 3、垂直搜索引擎的搜索行為是基于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)的結(jié)構(gòu)化搜索: 比如: 找:海淀 軟件工程師 的工作等。
垂直搜索引擎站點(diǎn)的8條準(zhǔn)則:
1、選擇一個(gè)好的垂直搜索方向。俗話說男怕選錯(cuò)行,這一點(diǎn)對于搜索引擎來說也是一樣的,除了選擇的這個(gè)行業(yè)有垂直搜索的大量需求外,這個(gè)行業(yè)的數(shù)據(jù)屬性最好不要和 Yahoo,Google等通用搜索的的抓取方向重疊。 目前熱門的垂直搜索行業(yè)有:購物,旅游,汽車,工作,房產(chǎn),交友等行業(yè)。搜索引擎對動(dòng)態(tài)url數(shù)據(jù)不敏感也是眾所周知的,這些可以作為垂直搜索引擎的切入點(diǎn);
2、評(píng)價(jià)所選垂直搜索行業(yè)的網(wǎng)站、垂直搜索內(nèi)容、行業(yè)構(gòu)成等情況: 我們都知道垂直搜索引擎并不提供內(nèi)容來源,它的數(shù)據(jù)依賴爬蟲搜集,并做了深度加工而來的。因此考慮垂直搜索引擎的所處的大環(huán)境和定位至關(guān)重要。 3、深入分析垂直搜索引擎的索引數(shù)據(jù)特點(diǎn): 垂直搜索引擎的索引數(shù)據(jù)過于結(jié)構(gòu)化,那么進(jìn)入的門檻比較低,行業(yè)競爭會(huì)形成一窩蜂的局面;如果搜索數(shù)據(jù)特點(diǎn)是非結(jié)構(gòu)化的,抓取,分析這樣的數(shù)據(jù)很困難,進(jìn)入壁 壘太高,很可能出師未杰身先死。 4、垂直搜索引擎的索引數(shù)據(jù)傾向于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù),這個(gè)特點(diǎn)是區(qū)別于yahoo,google等通用搜索引擎的,這是垂直搜索引擎的立足點(diǎn)。而垂直搜索引擎是根植于某一個(gè)行業(yè) ,因此行業(yè)知識(shí),行業(yè)專家這些也是通用搜索引擎不具備的。也就是說進(jìn)入垂直搜索是有門檻的。 5、垂直搜索引擎的搜索結(jié)果要覆蓋整個(gè)行業(yè),搜索相關(guān)性要高于通用搜索引擎,貼近用戶搜索意圖,搜索結(jié)果要及時(shí)。 6、垂直搜索引擎的web 2.0 需求: 垂直搜索引擎的搜索數(shù)據(jù)由于帶有結(jié)構(gòu)化的天性,相對于通用搜索引擎的全文索引而言,更顯的少而精。因此,設(shè)計(jì)的時(shí)候要提供收集用戶數(shù)據(jù)的接口,同時(shí)提供tag,積 分等機(jī)制,使搜索結(jié)果更加“垂直”。 7、垂直搜索引擎的目標(biāo)是幫助用戶解決問題,而不只是向通用搜索引擎一樣發(fā)現(xiàn)信息: 這一點(diǎn)是垂直搜索引擎的終極目標(biāo)。 在做垂直搜索引擎的時(shí)候你需要考慮:什么問題是這個(gè)行業(yè)內(nèi)的特殊性問題,什么問題是一般性問題。keso多次提到google的目標(biāo)是 讓
用戶盡快離開google,而垂直搜索引擎應(yīng)該粘住用戶。一般來說,使用垂直搜索引擎的用戶都是和用戶的利益需求密切相關(guān)的。所謂利益需求是我自己獨(dú)創(chuàng)
的,大意是和用戶工作密切相關(guān),生活中必不可少的需求,而求有持續(xù)性。比如:學(xué)生找論文,業(yè)主找裝修信息等等這樣的需求。因此粘住用戶,讓用戶有反饋的途
徑是一個(gè)關(guān)鍵部分。 8、垂直搜索引擎的社區(qū)化特征: 這一條和第9條是相關(guān)的。 俗話說物以類聚,人以群分,垂直搜索引擎定位于一個(gè)行業(yè),服務(wù)于一群特定需求的人群,這個(gè)特點(diǎn)決定了垂直搜索的社區(qū)化行為。人們利用垂直搜索引擎解決問題,分享回饋。現(xiàn)在做網(wǎng)站都講求社區(qū)化,所以垂直搜索引擎本質(zhì)上還是:對垂直門戶信息提供方式的一次簡化性的整合。
相關(guān)連接:什么是垂直搜索引擎
原帖地址
2005年6月23日
Boyer-moor 字符串搜索算法
最近因?yàn)樾枰獜拇罅康奈谋局袡z索字符串,于是想比較一下java jdk提供的 indexof 算法,和其他字符串搜索算法的效率。字符串搜索算法有多種,其中比較有名的是boyer-moore算法。在Moore 先生的主頁上有關(guān)于 boyer-moore算法的詳細(xì)介紹。 moore先生介紹的通俗易懂,相信大家都能看明白。
同時(shí)還看到:Boyer-Moore串查找JAVA算法這篇文章 ,可惜是安徽工業(yè)大學(xué)的內(nèi)部刊物,無法看到文章的詳情,真是遺憾。
相關(guān)連接: boyer-moore 算法文檔中心 多么樂
2005年6月22日
多么樂alexa網(wǎng)站流量數(shù)據(jù)報(bào)告助手
為了您方便的獲取您所關(guān)心網(wǎng)站的alexa網(wǎng)站流量數(shù)據(jù),多么樂特的為您制作了這款工具,使用方法很簡單,只要按照要求輸入網(wǎng)站地址和您的郵件地址并制定郵件發(fā)送的時(shí)間,我們就會(huì)定期給您
發(fā)送alaxe統(tǒng)計(jì)數(shù)據(jù)。
在以后我們還會(huì)對數(shù)據(jù)進(jìn)行進(jìn)一步分析,提供更加滿意的服務(wù)!
相關(guān)連接: Alaxe 網(wǎng)站數(shù)據(jù)助手
2005年6月19日
多么樂 搜索引擎索引量報(bào)告--實(shí)現(xiàn)了自動(dòng)發(fā)送周報(bào)功能
自從 多么樂 搜索引擎 索引量 統(tǒng)計(jì)報(bào)告發(fā)布一來已經(jīng)有100多位站長登陸使用;為了把這部分?jǐn)?shù)據(jù)主動(dòng)送到各位站長手中,我特地制作了 這個(gè)周報(bào)功能,他將會(huì)在沒周六下午3點(diǎn)10分,給您提供貴站在google,baidu,yisou,msn等主流搜索引擎上的索引量數(shù)據(jù)。
如果您想也使用這項(xiàng)功能,您可以在: 搜索引擎統(tǒng)計(jì) 上登陸您的網(wǎng)址,(注意按照要求填寫。)
并提供您的Email地址。
如果有意見和建議請發(fā)信到: xiaodingdong@gmail.com
下面是一個(gè)郵件例子:
網(wǎng)址 |
日期 |
搜索引擎 |
平均索引量 |
blogchina.com |
2005-06-12 |
baidu |
8,770,000.0 |
blogchina.com |
2005-06-12 |
google |
2,520,000.0 |
blogchina.com |
2005-06-12 |
msn |
212,088.00 |
blogchina.com |
2005-06-12 |
yisou |
5,632,696.0 |
blogchina.com |
2005-06-13 |
baidu |
8,740,000.0 |
blogchina.com |
2005-06-13 |
google |
1,210,000.0 |
blogchina.com |
2005-06-13 |
msn |
224,448.00 |
blogchina.com |
2005-06-13 |
yisou |
5,788,532.0 |
blogchina.com |
2005-06-14 |
baidu |
9,320,000.0 |
blogchina.com |
2005-06-14 |
google |
1,110,000.0 |
blogchina.com |
2005-06-14 |
msn |
212,176.00 |
blogchina.com |
2005-06-14 |
yisou |
5,904,606.0 |
blogchina.com |
2005-06-16 |
baidu |
41,670,000. |
blogchina.com |
2005-06-16 |
msn |
1,068,831.0 |
blogchina.com |
2005-06-16 |
yisou |
27,161,082. |
blogchina.com |
2005-06-17 |
baidu |
42,030,000. |
blogchina.com |
2005-06-17 |
msn |
109,929.00 |
blogchina.com |
2005-06-17 |
yisou |
27,369,993. |
blogchina.com |
2005-06-18 |
baidu |
46,900,000. |
blogchina.com |
2005-06-18 |
google |
9,310,000.0 |
blogchina.com |
2005-06-18 |
yisou |
30,492,025. |
itpub.net |
2005-06-12 |
baidu |
862,000.00 |
itpub.net |
2005-06-12 |
google |
261,000.00 |
itpub.net |
2005-06-12 |
msn |
14,070.00 |
itpub.net |
2005-06-12 |
yisou |
42,090.00 |
itpub.net |
2005-06-13 |
baidu |
857,000.00 |
itpub.net |
2005-06-13 |
google |
132,000.00 |
itpub.net |
2005-06-13 |
msn |
13,538.00 |
itpub.net |
2005-06-13 |
yisou |
42,100.00 |
itpub.net |
2005-06-14 |
baidu |
866,000.00 |
itpub.net |
2005-06-14 |
google |
132,000.00 |
itpub.net |
2005-06-14 |
msn |
12,994.00 |
itpub.net |
2005-06-14 |
yisou |
41,274.00 |
itpub.net |
2005-06-16 |
baidu |
3,861,000.0 |
itpub.net |
2005-06-16 |
msn |
57,906.00 |
itpub.net |
2005-06-16 |
yisou |
180,648.00 |
itpub.net |
2005-06-17 |
baidu |
3,906,000.0 |
itpub.net |
2005-06-17 |
yisou |
178,585.00 |
itpub.net |
2005-06-18 |
baidu |
4,360,000.0 |
itpub.net |
2005-06-18 |
google |
1,040,000.0 |
itpub.net |
2005-06-18 |
yisou |
198,450.00 |
2005年5月29日
關(guān)于 小叮咚中文分詞 .net版本發(fā)布的變化
現(xiàn)在幾乎每天都有朋友給我寫信,要求交流小叮咚中文分詞的實(shí)現(xiàn)。我現(xiàn)在實(shí)現(xiàn)的有java和C#兩個(gè)版本。同樣的算法邏輯,用
java 和 C#寫兩邊可不是有趣的事情 。于是自然而然想起了
關(guān)于lucene發(fā)展和多語言實(shí)現(xiàn)的方向
中采用的方法,于是決定以后主要更新java版本的中文分詞算法,而.net版本的中文分詞則在java class基礎(chǔ)上轉(zhuǎn)化過來。
很早的時(shí)候我的一篇blog介紹過:基于.NET的Java虛擬機(jī)IKVM介紹
。于是今天就嘗試了一把,整個(gè)過程還算順利。下面是我的轉(zhuǎn)換過程:
X:\ikvmbin-0.14.0.1\ikvm\bin>ikvmc -target:library
X:\XXXX\chinese_sentence_splitter.jar
Note: output file is "chinese_sentence_splitter.dll"
Note: automatically adding reference to "e:\programming\java&.net\ikvmbin-0.14.0.1\ikvm\bin\ikvm.gnu.classpath.dll"
通過上面的命令可以把 java jar 文件轉(zhuǎn)換成 同名的 .net dll。
在java中測試的結(jié)果如下:

但在.net中測試的結(jié)果卻不正確:
這很顯然是IKVM.NET在轉(zhuǎn)換過程中出現(xiàn)了問題。
由于第一次使用IKVM.NET,因此這個(gè)問題還需要在以后有時(shí)間解決一下。也希望有相關(guān)經(jīng)驗(yàn)的朋友多多指導(dǎo).
相關(guān)連接:
多么樂
小叮咚中文分詞
2005年5月27日
小叮咚 中文分詞 發(fā)布 java 版本 , c# 版本 , c++ 版本
最近關(guān)于中文分詞的處理逐漸多了起來,我以前的文章也零星的介紹過許多這方面的技術(shù)。總有一些朋友來信索要中文分詞的代碼,而且要不同版本的,鑒于這個(gè)情況,我把我對分詞的理解,按照java,C#語言各自實(shí)現(xiàn)了一份。C++的版本,還是用中科院的ICTCLAS 畢竟這個(gè)分詞程序是很多分詞的鼻祖。
大家可以到:小叮咚中文分詞主頁查看詳情。
程序還有很多不完善的地方,功能列表和開發(fā)文檔現(xiàn)在都不完整,希望有這方面愛好的朋友一起參與進(jìn)來,完善,提高。
也歡迎大家來信討論: xiaodingdong@gmail.com
田春峰
相關(guān)聯(lián)接:
小叮咚分詞主頁
計(jì)算所漢語詞法分析系統(tǒng)ICTCLAS 字典格式解析
一種面向搜索引擎的中文切分詞方法
公開小叮咚分詞源代碼
2005年4月17日
多么樂互聯(lián)網(wǎng) google索引量統(tǒng)計(jì)
您想知道自己主頁在google的索引量的統(tǒng)計(jì)嗎?你想知道自己主頁在google上的索引量是如何變化的嗎? 如果想,不妨到:http://www.domolo.com/domolo/domoloindex/index.aspx 輸入您的網(wǎng)址,我們會(huì)為您免費(fèi)進(jìn)行g(shù)oogle索引量的統(tǒng)計(jì)。 我們會(huì)每小時(shí)一次統(tǒng)計(jì),每天生成一份統(tǒng)計(jì)報(bào)告,統(tǒng)計(jì)報(bào)告頁面如下: http://www.domolo.com/domolo/domoloindex/google2005-04-16.html
上面的地址是當(dāng)日20050416的google索引量的統(tǒng)計(jì)。統(tǒng)計(jì)數(shù)據(jù)的來源是每小時(shí)google索引量的平均值。
如果您想統(tǒng)計(jì)自己網(wǎng)站的google索引量,您可以在 http://www.domolo.com/domolo/domoloindex/index.aspx 這個(gè)地址上,錄入您的網(wǎng)址,我們就可以為您自動(dòng)統(tǒng)計(jì)貴站的google索引了。
訪問方式: http://www.domolo.com/domolo/domoloindex/google2005-04-16.html 把上面鏈接中的日期換成當(dāng)前日期即可!
歡迎您的參與使用, 并希望提出您的寶貴意見:田春峰的留言簿
------------
今天剛加了對baidu索引量的統(tǒng)計(jì),第一天運(yùn)行,就有幾個(gè)朋友注冊,不錯(cuò)呀。
http://www.domolo.com/domolo/domoloindex/google2005-04-17.html
多么樂互聯(lián)網(wǎng)索引量統(tǒng)計(jì)
生成時(shí)間:
網(wǎng)址 |
統(tǒng)計(jì)次數(shù) |
平均索引量 |
soufun.com |
15 |
1141533 |
domolo.com |
15 |
7 |
sohu.com |
30 |
1473400 |
sina.com.cn |
15 |
1080066 |
donews.com |
15 |
374333 |
donews.net |
15 |
169186 |
www.myknots.com |
11 |
4170 |
diyinside.com |
3 |
167 |
www.dearbook.com.cn |
1 |
123000 |
相關(guān)鏈接:
機(jī)器人聊天
機(jī)器人聊天
網(wǎng)摘
近日心情
愛吧
CtrlC 源代碼搜索引擎
|