隨筆 - 10, 文章 - 0, 評論 - 2, 引用 - 0
          數(shù)據(jù)加載中……

          2005年5月29日

          tss中文:開源面向?qū)ο蟮臄?shù)據(jù)庫db4o 5.5版發(fā)布了

          ?tss中文:開源面向?qū)ο蟮臄?shù)據(jù)庫db4o 5.5版發(fā)布了

          近日db4objects發(fā)布了開源面向?qū)ο髷?shù)據(jù)庫 db4o 5.5 版本. 這個版本的焦點是提高了性能降低了內(nèi)存耗用,特別針對資源緊張的嵌入式開發(fā)提供了支持。

          具體的改進特性:
          - 類索引使用新BTree架構(gòu),極大減少了事務(wù)提交的時間,對象個數(shù)在10萬之1千萬的索引時表現(xiàn)極為明顯。
          -通過更好的群集插槽方式,改進字符串和數(shù)組的序列化方式,在插入和修改時提高了效率。

          -提供了診斷工具包,幫助程序員更容易開發(fā)出高效程序。

          -本次改進效率的提升可以讓內(nèi)存耗用更低。


          伴隨著?這次發(fā)布,db4objects 還提供了用戶交流社區(qū):
          這里 。??

          原文: db4o open source object database v 5.5 released

          posted @ 2006-08-21 18:25 我要去桂林 閱讀(244) | 評論 (0)編輯 收藏

          一種面向搜索引擎的網(wǎng)頁分塊、切片的原理,實現(xiàn)和演示

          一種面向搜索引擎的網(wǎng)頁分塊、切片的原理,實現(xiàn)和演示



          最近看到 2005 年的 全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會 上 華南木棉信息檢索的隊長 歐健文 的 華南木棉信息檢索 的ppt。很有啟發(fā)。

          于是自己也根據(jù)自己的理解準備做一個實現(xiàn)。
          實現(xiàn)前提假設(shè):
              1、網(wǎng)頁分塊切分的基本單位是html中的table , div 等標簽(目前版本只支持:table ,div 標簽)。
              2、網(wǎng)頁分塊切片識別依賴于相似url的對比。比如:我們認為一下兩個url的網(wǎng)頁html文本結(jié)構(gòu)相似:
                  http://news.soufun.com/2005-11-26/580107.htm
                  http://news.soufun.com/2005-11-26/580175.htm
                 而下面兩個url的網(wǎng)頁結(jié)構(gòu)不相似:
                  http://news.soufun.com/subject/weekly051121/index.html
                  http://news.soufun.com/2005-11-26/580175.htm

          用途:
              1、根據(jù)分析網(wǎng)頁結(jié)構(gòu)區(qū)分網(wǎng)頁是 主題型網(wǎng)頁 還是 目錄型網(wǎng)頁;
              2、根據(jù)分析網(wǎng)頁結(jié)構(gòu) 找出 網(wǎng)頁的 主題內(nèi)容,相關(guān)內(nèi)容和噪音內(nèi)容;

          實現(xiàn)的3個階段:
              1、對網(wǎng)頁結(jié)構(gòu)進行合理切片;
              2、比較相似網(wǎng)頁的切片結(jié)構(gòu);
              3、分析切片數(shù)據(jù),得出結(jié)論。
          演示地址:
                 http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp


          posted @ 2005-11-28 10:17 我要去桂林 閱讀(650) | 評論 (0)編輯 收藏

          一種快速的未登陸詞識別方法(原理和實現(xiàn))

          一種快速的未登陸詞識別方法(原理和實現(xiàn))
             
              最近網(wǎng)絡(luò)上關(guān)于分詞的算法已經(jīng)很多了,在實際應(yīng)用中每個人根據(jù)對分詞的不同理解寫了不同的中文分詞算法,可謂百花齊放.
              但現(xiàn)在似乎還沒有針對未登陸詞的識別算法,有鑒于此,我特地寫了一個,拋磚引玉.

              算法的假設(shè):
              1. 未登陸詞是由單字組成的;
              2. 如果一個字同時屬于2個未登陸詞,那么只選擇第一被識別的詞;

              測試文章:
              最近電視劇大長今很火,我就選取了介紹大長今的文章,
              地址:http://www.360doc.com/showWeb/0/0/18183.aspx
              識別結(jié)果如下:
                  PDH : initialize phrase dictionary
                  QuerySpliter reInitialize dictionary.
                  長今,職場,閔政浩,韓劇,鄭云白,連生,主簿,冷廟高香,義字,醫(yī)女,張德,剩者,濟州,選撥,文秘

              算法原理:
              首先找出已經(jīng)分詞后的單字,然后查看單字的下一個是否還是單字,如果是,判斷這種情況出現(xiàn)的次數(shù),如果超過預(yù)訂的閥值,那么就確認這是一個新詞.
              下面是一個算法的計算過程展示:
              PDH : initialize phrase dictionary
              QuerySpliter reInitialize dictionary.
              >>>8,9;9,10
              長今
              >>>237,238;238,239
              職場
              >>>595,596;596,597;597,598
              閔政浩
              >>>189,190;190,191
              韓劇
              >>>1111,1112;1112,1113;1113,1114
              鄭云白
              >>>599,600;600,601
              連生
              >>>610,611;611,612
              主簿
              >>>975,976;976,977;977,978;978,979
              冷廟高香
              >>>1233,1234;1234,1235
              義字
              >>>559,560;560,561
              醫(yī)女
              >>>561,562;562,563
              張德
              >>>3114,3115;3115,3116
              剩者
              >>>534,535;535,536
              濟州
              >>>580,581;581,582
              選撥
              >>>2071,2072;2072,2073
              文秘
              本算法是在:小叮咚分詞的基礎(chǔ)上進行的.
              歡迎大家一起交流,改進這個算法.
                 
              相關(guān)連接:
                       
          基于最長詞匹配算法變形的分詞系統(tǒng)( 文舫工作室貢獻 )
                                 小叮咚中文分詞在處理大量數(shù)據(jù)的時候碰到了內(nèi)存泄漏的問題
                                 Lucene使用者沙龍

               原帖地址



          posted @ 2005-10-12 16:16 我要去桂林 閱讀(748) | 評論 (0)編輯 收藏

          什么是垂直搜索引擎(之二)

          什么是垂直搜索引擎(之二)

          垂直搜索引擎的三個特點:

          1、垂直搜索引擎抓取的數(shù)據(jù)來源于垂直搜索引擎關(guān)注的行業(yè)站點:
              比如:找工作的搜索引擎 www.deepdo.com 的數(shù)據(jù)來源于:www.51job.com , www.zhaoping.com , www.chinahr.com 等等;
                    股票搜索引擎 www.macd.cn 的數(shù)據(jù)來源于: www.jrj.com.cn , www.gutx.com 等股票站點;
          2、垂直搜索引擎抓取的數(shù)據(jù)傾向于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)
              比如:我們找工作關(guān)注的:
                  職位信息: 軟件工程師;
                  公司名稱,行業(yè)名稱:軟件公司,外包行業(yè)等;
                  地點:北京,海淀;
          3、垂直搜索引擎的搜索行為是基于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)的結(jié)構(gòu)化搜索:
                  比如: 找:海淀 軟件工程師 的工作等。

          垂直搜索引擎站點的8條準則:

          1、選擇一個好的垂直搜索方向。俗話說男怕選錯行,這一點對于搜索引擎來說也是一樣的,除了選擇的這個行業(yè)有垂直搜索的大量需求外,這個行業(yè)的數(shù)據(jù)屬性最好不要和
          Yahoo,Google等通用搜索的的抓取方向重疊。
              目前熱門的垂直搜索行業(yè)有:購物,旅游,汽車,工作,房產(chǎn),交友等行業(yè)。搜索引擎對動態(tài)url數(shù)據(jù)不敏感也是眾所周知的,這些可以作為垂直搜索引擎的切入點;

          2、評價所選垂直搜索行業(yè)的網(wǎng)站、垂直搜索內(nèi)容、行業(yè)構(gòu)成等情況
              我們都知道垂直搜索引擎并不提供內(nèi)容來源,它的數(shù)據(jù)依賴爬蟲搜集,并做了深度加工而來的。因此考慮垂直搜索引擎的所處的大環(huán)境和定位至關(guān)重要。
          3、深入分析垂直搜索引擎的索引數(shù)據(jù)特點
              垂直搜索引擎的索引數(shù)據(jù)過于結(jié)構(gòu)化,那么進入的門檻比較低,行業(yè)競爭會形成一窩蜂的局面;如果搜索數(shù)據(jù)特點是非結(jié)構(gòu)化的,抓取,分析這樣的數(shù)據(jù)很困難,進入壁
          壘太高,很可能出師未杰身先死。
          4、垂直搜索引擎的索引數(shù)據(jù)傾向于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù),這個特點是區(qū)別于yahoo,google等通用搜索引擎的,這是垂直搜索引擎的立足點。而垂直搜索引擎是根植于某一個行業(yè) ,因此行業(yè)知識,行業(yè)專家這些也是通用搜索引擎不具備的。也就是說進入垂直搜索是有門檻的
          5、垂直搜索引擎的搜索結(jié)果要覆蓋整個行業(yè),搜索相關(guān)性要高于通用搜索引擎,貼近用戶搜索意圖,搜索結(jié)果要及時
          6、垂直搜索引擎的web 2.0 需求
              垂直搜索引擎的搜索數(shù)據(jù)由于帶有結(jié)構(gòu)化的天性,相對于通用搜索引擎的全文索引而言,更顯的少而精。因此,設(shè)計的時候要提供收集用戶數(shù)據(jù)的接口,同時提供tag,積
          分等機制,使搜索結(jié)果更加“垂直”。
          7、垂直搜索引擎的目標是幫助用戶解決問題,而不只是向通用搜索引擎一樣發(fā)現(xiàn)信息
              這一點是垂直搜索引擎的終極目標。 在做垂直搜索引擎的時候你需要考慮:什么問題是這個行業(yè)內(nèi)的特殊性問題,什么問題是一般性問題。keso多次提到google的目標是
          讓 用戶盡快離開google,而垂直搜索引擎應(yīng)該粘住用戶。一般來說,使用垂直搜索引擎的用戶都是和用戶的利益需求密切相關(guān)的。所謂利益需求是我自己獨創(chuàng) 的,大意是和用戶工作密切相關(guān),生活中必不可少的需求,而求有持續(xù)性。比如:學(xué)生找論文,業(yè)主找裝修信息等等這樣的需求。因此粘住用戶,讓用戶有反饋的途 徑是一個關(guān)鍵部分。
          8、垂直搜索引擎的社區(qū)化特征
              這一條和第9條是相關(guān)的。
              俗話說物以類聚,人以群分,垂直搜索引擎定位于一個行業(yè),服務(wù)于一群特定需求的人群,這個特點決定了垂直搜索的社區(qū)化行為。人們利用垂直搜索引擎解決問題,分享回饋。現(xiàn)在做網(wǎng)站都講求社區(qū)化,所以垂直搜索引擎本質(zhì)上還是:對垂直門戶信息提供方式的一次簡化性的整合

              相關(guān)連接:什么是垂直搜索引擎

               原帖地址

          posted @ 2005-08-29 16:08 我要去桂林 閱讀(454) | 評論 (1)編輯 收藏

          Boyer-moor 字符串搜索算法

          Boyer-moor 字符串搜索算法

              最近因為需要從大量的文本中檢索字符串,于是想比較一下java jdk提供的 indexof 算法,和其他字符串搜索算法的效率。字符串搜索算法有多種,其中比較有名的是boyer-moore算法。在Moore 先生的主頁上有關(guān)于 boyer-moore算法的詳細介紹。
              moore先生介紹的通俗易懂,相信大家都能看明白。

               同時還看到:Boyer-Moore串查找JAVA算法這篇文章 ,可惜是安徽工業(yè)大學(xué)的內(nèi)部刊物,無法看到文章的詳情,真是遺憾。   

          相關(guān)連接:
                            
          boyer-moore 算法文檔中心
                                         多么樂

          posted @ 2005-06-23 23:26 我要去桂林 閱讀(381) | 評論 (0)編輯 收藏

          多么樂alexa網(wǎng)站流量數(shù)據(jù)報告助手

          多么樂alexa網(wǎng)站流量數(shù)據(jù)報告助手

             為了您方便的獲取您所關(guān)心網(wǎng)站的alexa網(wǎng)站流量數(shù)據(jù),多么樂特的為您制作了這款工具,使用方法很簡單,只要按照要求輸入網(wǎng)站地址和您的郵件地址并制定郵件發(fā)送的時間,我們就會定期給您 發(fā)送alaxe統(tǒng)計數(shù)據(jù)。

            在以后我們還會對數(shù)據(jù)進行進一步分析,提供更加滿意的服務(wù)!

          156 2750 8.0


          相關(guān)連接:Alaxe 網(wǎng)站數(shù)據(jù)助手

          posted @ 2005-06-22 08:44 我要去桂林 閱讀(276) | 評論 (0)編輯 收藏

          多么樂 搜索引擎索引量報告--實現(xiàn)了自動發(fā)送周報功能

          多么樂 搜索引擎索引量報告--實現(xiàn)了自動發(fā)送周報功能

                自從 多么樂 搜索引擎 索引量 統(tǒng)計報告發(fā)布一來已經(jīng)有100多位站長登陸使用;為了把這部分數(shù)據(jù)主動送到各位站長手中,我特地制作了 這個周報功能,他將會在沒周六下午3點10分,給您提供貴站在google,baidu,yisou,msn等主流搜索引擎上的索引量數(shù)據(jù)。

                 如果您想也使用這項功能,您可以在: 搜索引擎統(tǒng)計  上登陸您的網(wǎng)址,(注意按照要求填寫。)

                 并提供您的Email地址。

                 如果有意見和建議請發(fā)信到: xiaodingdong@gmail.com 

                  下面是一個郵件例子:


           


           

          多么樂 搜索引擎索引量報告

          網(wǎng)址 日期 搜索引擎 平均索引量
          blogchina.com 2005-06-12 baidu 8,770,000.0
          blogchina.com 2005-06-12 google 2,520,000.0
          blogchina.com 2005-06-12 msn 212,088.00
          blogchina.com 2005-06-12 yisou 5,632,696.0
          blogchina.com 2005-06-13 baidu 8,740,000.0
          blogchina.com 2005-06-13 google 1,210,000.0
          blogchina.com 2005-06-13 msn 224,448.00
          blogchina.com 2005-06-13 yisou 5,788,532.0
          blogchina.com 2005-06-14 baidu 9,320,000.0
          blogchina.com 2005-06-14 google 1,110,000.0
          blogchina.com 2005-06-14 msn 212,176.00
          blogchina.com 2005-06-14 yisou 5,904,606.0
          blogchina.com 2005-06-16 baidu 41,670,000.
          blogchina.com 2005-06-16 msn 1,068,831.0
          blogchina.com 2005-06-16 yisou 27,161,082.
          blogchina.com 2005-06-17 baidu 42,030,000.
          blogchina.com 2005-06-17 msn 109,929.00
          blogchina.com 2005-06-17 yisou 27,369,993.
          blogchina.com 2005-06-18 baidu 46,900,000.
          blogchina.com 2005-06-18 google 9,310,000.0
          blogchina.com 2005-06-18 yisou 30,492,025.
          itpub.net 2005-06-12 baidu 862,000.00
          itpub.net 2005-06-12 google 261,000.00
          itpub.net 2005-06-12 msn 14,070.00
          itpub.net 2005-06-12 yisou 42,090.00
          itpub.net 2005-06-13 baidu 857,000.00
          itpub.net 2005-06-13 google 132,000.00
          itpub.net 2005-06-13 msn 13,538.00
          itpub.net 2005-06-13 yisou 42,100.00
          itpub.net 2005-06-14 baidu 866,000.00
          itpub.net 2005-06-14 google 132,000.00
          itpub.net 2005-06-14 msn 12,994.00
          itpub.net 2005-06-14 yisou 41,274.00
          itpub.net 2005-06-16 baidu 3,861,000.0
          itpub.net 2005-06-16 msn 57,906.00
          itpub.net 2005-06-16 yisou 180,648.00
          itpub.net 2005-06-17 baidu 3,906,000.0
          itpub.net 2005-06-17 yisou 178,585.00
          itpub.net 2005-06-18 baidu 4,360,000.0
          itpub.net 2005-06-18 google 1,040,000.0
          itpub.net 2005-06-18 yisou 198,450.00

          多么樂 搜索引擎索引量報告

          posted @ 2005-06-19 08:23 我要去桂林 閱讀(367) | 評論 (0)編輯 收藏

          關(guān)于 小叮咚中文分詞 .net版本發(fā)布的變化

           關(guān)于 小叮咚中文分詞  .net版本發(fā)布的變化

              現(xiàn)在幾乎每天都有朋友給我寫信,要求交流小叮咚中文分詞的實現(xiàn)。我現(xiàn)在實現(xiàn)的有java和C#兩個版本。同樣的算法邏輯,用 java 和 C#寫兩邊可不是有趣的事情 。于是自然而然想起了 關(guān)于lucene發(fā)展和多語言實現(xiàn)的方向  中采用的方法,于是決定以后主要更新java版本的中文分詞算法,而.net版本的中文分詞則在java class基礎(chǔ)上轉(zhuǎn)化過來。

              很早的時候我的一篇blog介紹過:基于.NET的Java虛擬機IKVM介紹 。于是今天就嘗試了一把,整個過程還算順利。下面是我的轉(zhuǎn)換過程:

             
              X:\ikvmbin-0.14.0.1\ikvm\bin>ikvmc -target:library X:\XXXX\chinese_sentence_splitter.jar
              Note: output file is "chinese_sentence_splitter.dll"
              Note: automatically adding reference to "e:\programming\java&.net\ikvmbin-0.14.0.1\ikvm\bin\ikvm.gnu.classpath.dll"

              通過上面的命令可以把 java jar 文件轉(zhuǎn)換成  同名的 .net dll。

              在java中測試的結(jié)果如下:

             

              但在.net中測試的結(jié)果卻不正確:

             

           

              這很顯然是IKVM.NET在轉(zhuǎn)換過程中出現(xiàn)了問題。

              由于第一次使用IKVM.NET,因此這個問題還需要在以后有時間解決一下。也希望有相關(guān)經(jīng)驗的朋友多多指導(dǎo).


              相關(guān)連接:

                      多么樂
                      小叮咚中文分詞

          posted @ 2005-05-29 21:56 我要去桂林 閱讀(581) | 評論 (0)編輯 收藏

          主站蜘蛛池模板: 隆林| 乐昌市| 得荣县| 青岛市| 海门市| 阜阳市| 黔西县| 南丰县| 惠东县| 阿图什市| 定陶县| 绵竹市| 呼图壁县| 庄河市| 全南县| 彭泽县| 韶山市| 宜州市| 荣成市| 桃源县| 苏州市| 安庆市| 新民市| 壶关县| 瓮安县| 钦州市| 富锦市| 勐海县| 平江县| 莱芜市| 巴楚县| 黑水县| 庄河市| 都匀市| 北辰区| 卢氏县| 筠连县| 喀什市| 富裕县| 东海县| 东台市|