隨筆 - 10, 文章 - 0, 評論 - 2, 引用 - 0
          數據加載中……

          2005年10月12日

          tss中文:開源面向對象的數據庫db4o 5.5版發布了

          ?tss中文:開源面向對象的數據庫db4o 5.5版發布了

          近日db4objects發布了開源面向對象數據庫 db4o 5.5 版本. 這個版本的焦點是提高了性能降低了內存耗用,特別針對資源緊張的嵌入式開發提供了支持。

          具體的改進特性:
          - 類索引使用新BTree架構,極大減少了事務提交的時間,對象個數在10萬之1千萬的索引時表現極為明顯。
          -通過更好的群集插槽方式,改進字符串和數組的序列化方式,在插入和修改時提高了效率。

          -提供了診斷工具包,幫助程序員更容易開發出高效程序。

          -本次改進效率的提升可以讓內存耗用更低。


          伴隨著?這次發布,db4objects 還提供了用戶交流社區:
          這里 。??

          原文: db4o open source object database v 5.5 released

          posted @ 2006-08-21 18:25 我要去桂林 閱讀(247) | 評論 (0)編輯 收藏

          一種面向搜索引擎的網頁分塊、切片的原理,實現和演示

          一種面向搜索引擎的網頁分塊、切片的原理,實現和演示



          最近看到 2005 年的 全國搜索引擎和網上信息挖掘學術研討會 上 華南木棉信息檢索的隊長 歐健文 的 華南木棉信息檢索 的ppt。很有啟發。

          于是自己也根據自己的理解準備做一個實現。
          實現前提假設:
              1、網頁分塊切分的基本單位是html中的table , div 等標簽(目前版本只支持:table ,div 標簽)。
              2、網頁分塊切片識別依賴于相似url的對比。比如:我們認為一下兩個url的網頁html文本結構相似:
                  http://news.soufun.com/2005-11-26/580107.htm
                  http://news.soufun.com/2005-11-26/580175.htm
                 而下面兩個url的網頁結構不相似:
                  http://news.soufun.com/subject/weekly051121/index.html
                  http://news.soufun.com/2005-11-26/580175.htm

          用途:
              1、根據分析網頁結構區分網頁是 主題型網頁 還是 目錄型網頁;
              2、根據分析網頁結構 找出 網頁的 主題內容,相關內容和噪音內容;

          實現的3個階段:
              1、對網頁結構進行合理切片;
              2、比較相似網頁的切片結構;
              3、分析切片數據,得出結論。
          演示地址:
                 http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp


          posted @ 2005-11-28 10:17 我要去桂林 閱讀(654) | 評論 (0)編輯 收藏

          一種快速的未登陸詞識別方法(原理和實現)

          一種快速的未登陸詞識別方法(原理和實現)
             
              最近網絡上關于分詞的算法已經很多了,在實際應用中每個人根據對分詞的不同理解寫了不同的中文分詞算法,可謂百花齊放.
              但現在似乎還沒有針對未登陸詞的識別算法,有鑒于此,我特地寫了一個,拋磚引玉.

              算法的假設:
              1. 未登陸詞是由單字組成的;
              2. 如果一個字同時屬于2個未登陸詞,那么只選擇第一被識別的詞;

              測試文章:
              最近電視劇大長今很火,我就選取了介紹大長今的文章,
              地址:http://www.360doc.com/showWeb/0/0/18183.aspx
              識別結果如下:
                  PDH : initialize phrase dictionary
                  QuerySpliter reInitialize dictionary.
                  長今,職場,閔政浩,韓劇,鄭云白,連生,主簿,冷廟高香,義字,醫女,張德,剩者,濟州,選撥,文秘

              算法原理:
              首先找出已經分詞后的單字,然后查看單字的下一個是否還是單字,如果是,判斷這種情況出現的次數,如果超過預訂的閥值,那么就確認這是一個新詞.
              下面是一個算法的計算過程展示:
              PDH : initialize phrase dictionary
              QuerySpliter reInitialize dictionary.
              >>>8,9;9,10
              長今
              >>>237,238;238,239
              職場
              >>>595,596;596,597;597,598
              閔政浩
              >>>189,190;190,191
              韓劇
              >>>1111,1112;1112,1113;1113,1114
              鄭云白
              >>>599,600;600,601
              連生
              >>>610,611;611,612
              主簿
              >>>975,976;976,977;977,978;978,979
              冷廟高香
              >>>1233,1234;1234,1235
              義字
              >>>559,560;560,561
              醫女
              >>>561,562;562,563
              張德
              >>>3114,3115;3115,3116
              剩者
              >>>534,535;535,536
              濟州
              >>>580,581;581,582
              選撥
              >>>2071,2072;2072,2073
              文秘
              本算法是在:小叮咚分詞的基礎上進行的.
              歡迎大家一起交流,改進這個算法.
                 
              相關連接:
                       
          基于最長詞匹配算法變形的分詞系統( 文舫工作室貢獻 )
                                 小叮咚中文分詞在處理大量數據的時候碰到了內存泄漏的問題
                                 Lucene使用者沙龍

               原帖地址



          posted @ 2005-10-12 16:16 我要去桂林 閱讀(752) | 評論 (0)編輯 收藏

          主站蜘蛛池模板: 务川| 兴和县| 灵川县| 新绛县| 鸡西市| 崇文区| 凤庆县| 康平县| 盈江县| 海门市| 乾安县| 年辖:市辖区| 贵州省| 全州县| 丹棱县| 五华县| 永福县| 冷水江市| 寿光市| 大丰市| 平山县| 青铜峡市| 阳曲县| 綦江县| 奉化市| 临沧市| 栾川县| 溧水县| 合水县| 昂仁县| 宁都县| 泸水县| 南康市| 晋宁县| 和龙市| 南靖县| 长宁县| 高台县| 栾城县| 和平区| 涞水县|