heyzo高清中文字幕在线,久久久久国产,亚洲欧美日韩精品一区二区

tss中文：開源面向對象的數據庫db4o 5.5版發布了

?tss中文：開源面向對象的數據庫db4o 5.5版發布了

近日db4objects發布了開源面向對象數據庫 db4o 5.5 版本. 這個版本的焦點是提高了性能降低了內存耗用，特別針對資源緊張的嵌入式開發提供了支持。

具體的改進特性:
- 類索引使用新BTree架構，極大減少了事務提交的時間，對象個數在10萬之1千萬的索引時表現極為明顯。
-通過更好的群集插槽方式，改進字符串和數組的序列化方式，在插入和修改時提高了效率。

-提供了診斷工具包，幫助程序員更容易開發出高效程序。

-本次改進效率的提升可以讓內存耗用更低。

伴隨著?這次發布，db4objects 還提供了用戶交流社區：這里。??

原文： db4o open source object database v 5.5 released

posted @ 2006-08-21 18:25 我要去桂林閱讀(247) | 評論 (0) | 編輯收藏

最近看到 2005 年的全國搜索引擎和網上信息挖掘學術研討會上華南木棉信息檢索的隊長歐健文的華南木棉信息檢索的ppt。很有啟發。

于是自己也根據自己的理解準備做一個實現。
實現前提假設：
   1、網頁分塊切分的基本單位是html中的table , div 等標簽（目前版本只支持：table ,div 標簽）。
   2、網頁分塊切片識別依賴于相似url的對比。比如：我們認為一下兩個url的網頁html文本結構相似：
       http://news.soufun.com/2005-11-26/580107.htm
       http://news.soufun.com/2005-11-26/580175.htm
       而下面兩個url的網頁結構不相似：
       http://news.soufun.com/subject/weekly051121/index.html
       http://news.soufun.com/2005-11-26/580175.htm

用途：
   1、根據分析網頁結構區分網頁是主題型網頁還是目錄型網頁；
   2、根據分析網頁結構找出網頁的主題內容，相關內容和噪音內容；

實現的3個階段：
   1、對網頁結構進行合理切片；
   2、比較相似網頁的切片結構；
   3、分析切片數據，得出結論。
演示地址：
       http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp

posted @ 2005-11-28 10:17 我要去桂林閱讀(654) | 評論 (0) | 編輯收藏

一種快速的未登陸詞識別方法(原理和實現)

    最近網絡上關于分詞的算法已經很多了,在實際應用中每個人根據對分詞的不同理解寫了不同的中文分詞算法,可謂百花齊放.
    但現在似乎還沒有針對未登陸詞的識別算法,有鑒于此,我特地寫了一個,拋磚引玉.

    算法的假設:
    1. 未登陸詞是由單字組成的;
    2. 如果一個字同時屬于2個未登陸詞,那么只選擇第一被識別的詞;

    測試文章:
    最近電視劇大長今很火,我就選取了介紹大長今的文章,
    地址:http://www.360doc.com/showWeb/0/0/18183.aspx
    識別結果如下:
        PDH : initialize phrase dictionary
        QuerySpliter reInitialize dictionary.
        長今,職場,閔政浩,韓劇,鄭云白,連生,主簿,冷廟高香,義字,醫女,張德,剩者,濟州,選撥,文秘

    算法原理:
    首先找出已經分詞后的單字,然后查看單字的下一個是否還是單字,如果是,判斷這種情況出現的次數,如果超過預訂的閥值,那么就確認這是一個新詞.
    下面是一個算法的計算過程展示:
   PDH : initialize phrase dictionary
   QuerySpliter reInitialize dictionary.
   >>>8,9;9,10
   長今
   >>>237,238;238,239
   職場
   >>>595,596;596,597;597,598
   閔政浩
   >>>189,190;190,191
   韓劇
   >>>1111,1112;1112,1113;1113,1114
   鄭云白
   >>>599,600;600,601
   連生
   >>>610,611;611,612
   主簿
   >>>975,976;976,977;977,978;978,979
   冷廟高香
   >>>1233,1234;1234,1235
   義字
   >>>559,560;560,561
   醫女
   >>>561,562;562,563
   張德
   >>>3114,3115;3115,3116
   剩者
   >>>534,535;535,536
   濟州
   >>>580,581;581,582
   選撥
   >>>2071,2072;2072,2073
   文秘
    本算法是在:小叮咚分詞的基礎上進行的.
    歡迎大家一起交流,改進這個算法.

    相關連接:
              基于最長詞匹配算法變形的分詞系統( 文舫工作室貢獻 )
                       小叮咚中文分詞在處理大量數據的時候碰到了內存泄漏的問題
                       Lucene使用者沙龍

原帖地址

posted @ 2005-10-12 16:16 我要去桂林閱讀(752) | 評論 (0) | 編輯收藏

我要去桂林---田春峰的網志

tss中文：開源面向對象的數據庫db4o 5.5版發布了

一種面向搜索引擎的網頁分塊、切片的原理，實現和演示

一種快速的未登陸詞識別方法(原理和實現)

導航

常用鏈接

留言簿(1)

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜