91精品国产91久久久久久最新毛片,密臀av在线,青青国产精品

2005年8月29日

tss中文：開源面向?qū)ο蟮臄?shù)據(jù)庫db4o 5.5版發(fā)布了

?tss中文：開源面向?qū)ο蟮臄?shù)據(jù)庫db4o 5.5版發(fā)布了

近日db4objects發(fā)布了開源面向?qū)ο髷?shù)據(jù)庫 db4o 5.5 版本. 這個版本的焦點是提高了性能降低了內(nèi)存耗用，特別針對資源緊張的嵌入式開發(fā)提供了支持。

具體的改進特性:
- 類索引使用新BTree架構(gòu)，極大減少了事務(wù)提交的時間，對象個數(shù)在10萬之1千萬的索引時表現(xiàn)極為明顯。
-通過更好的群集插槽方式，改進字符串和數(shù)組的序列化方式，在插入和修改時提高了效率。

-提供了診斷工具包，幫助程序員更容易開發(fā)出高效程序。

-本次改進效率的提升可以讓內(nèi)存耗用更低。

伴隨著?這次發(fā)布，db4objects 還提供了用戶交流社區(qū)：這里。??

原文： db4o open source object database v 5.5 released

posted @ 2006-08-21 18:25 我要去桂林閱讀(247) | 評論 (0) | 編輯收藏

一種面向搜索引擎的網(wǎng)頁分塊、切片的原理，實現(xiàn)和演示

最近看到 2005 年的全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會上華南木棉信息檢索的隊長歐健文的華南木棉信息檢索的ppt。很有啟發(fā)。

于是自己也根據(jù)自己的理解準(zhǔn)備做一個實現(xiàn)。
實現(xiàn)前提假設(shè)：
   1、網(wǎng)頁分塊切分的基本單位是html中的table , div 等標(biāo)簽（目前版本只支持：table ,div 標(biāo)簽）。
   2、網(wǎng)頁分塊切片識別依賴于相似url的對比。比如：我們認(rèn)為一下兩個url的網(wǎng)頁html文本結(jié)構(gòu)相似：
       http://news.soufun.com/2005-11-26/580107.htm
       http://news.soufun.com/2005-11-26/580175.htm
       而下面兩個url的網(wǎng)頁結(jié)構(gòu)不相似：
       http://news.soufun.com/subject/weekly051121/index.html
       http://news.soufun.com/2005-11-26/580175.htm

用途：
   1、根據(jù)分析網(wǎng)頁結(jié)構(gòu)區(qū)分網(wǎng)頁是主題型網(wǎng)頁還是目錄型網(wǎng)頁；
   2、根據(jù)分析網(wǎng)頁結(jié)構(gòu) 找出網(wǎng)頁的主題內(nèi)容，相關(guān)內(nèi)容和噪音內(nèi)容；

實現(xiàn)的3個階段：
   1、對網(wǎng)頁結(jié)構(gòu)進行合理切片；
   2、比較相似網(wǎng)頁的切片結(jié)構(gòu)；
   3、分析切片數(shù)據(jù)，得出結(jié)論。
演示地址：
       http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp

posted @ 2005-11-28 10:17 我要去桂林閱讀(654) | 評論 (0) | 編輯收藏

一種快速的未登陸詞識別方法(原理和實現(xiàn))

    最近網(wǎng)絡(luò)上關(guān)于分詞的算法已經(jīng)很多了,在實際應(yīng)用中每個人根據(jù)對分詞的不同理解寫了不同的中文分詞算法,可謂百花齊放.
    但現(xiàn)在似乎還沒有針對未登陸詞的識別算法,有鑒于此,我特地寫了一個,拋磚引玉.

    算法的假設(shè):
    1. 未登陸詞是由單字組成的;
    2. 如果一個字同時屬于2個未登陸詞,那么只選擇第一被識別的詞;

    測試文章:
    最近電視劇大長今很火,我就選取了介紹大長今的文章,
    地址:http://www.360doc.com/showWeb/0/0/18183.aspx
    識別結(jié)果如下:
        PDH : initialize phrase dictionary
        QuerySpliter reInitialize dictionary.
        長今,職場,閔政浩,韓劇,鄭云白,連生,主簿,冷廟高香,義字,醫(yī)女,張德,剩者,濟州,選撥,文秘

    算法原理:
    首先找出已經(jīng)分詞后的單字,然后查看單字的下一個是否還是單字,如果是,判斷這種情況出現(xiàn)的次數(shù),如果超過預(yù)訂的閥值,那么就確認(rèn)這是一個新詞.
    下面是一個算法的計算過程展示:
   PDH : initialize phrase dictionary
   QuerySpliter reInitialize dictionary.
   >>>8,9;9,10
   長今
   >>>237,238;238,239
   職場
   >>>595,596;596,597;597,598
   閔政浩
   >>>189,190;190,191
   韓劇
   >>>1111,1112;1112,1113;1113,1114
   鄭云白
   >>>599,600;600,601
   連生
   >>>610,611;611,612
   主簿
   >>>975,976;976,977;977,978;978,979
   冷廟高香
   >>>1233,1234;1234,1235
   義字
   >>>559,560;560,561
   醫(yī)女
   >>>561,562;562,563
   張德
   >>>3114,3115;3115,3116
   剩者
   >>>534,535;535,536
   濟州
   >>>580,581;581,582
   選撥
   >>>2071,2072;2072,2073
   文秘
    本算法是在:小叮咚分詞的基礎(chǔ)上進行的.
    歡迎大家一起交流,改進這個算法.

    相關(guān)連接:
              基于最長詞匹配算法變形的分詞系統(tǒng)( 文舫工作室貢獻 )
                       小叮咚中文分詞在處理大量數(shù)據(jù)的時候碰到了內(nèi)存泄漏的問題
                       Lucene使用者沙龍

原帖地址

posted @ 2005-10-12 16:16 我要去桂林閱讀(752) | 評論 (0) | 編輯收藏

什么是垂直搜索引擎（之二）

垂直搜索引擎的三個特點：

1、垂直搜索引擎抓取的數(shù)據(jù)來源于垂直搜索引擎關(guān)注的行業(yè)站點：
    比如：找工作的搜索引擎 www.deepdo.com 的數(shù)據(jù)來源于：www.51job.com , www.zhaoping.com , www.chinahr.com 等等；
          股票搜索引擎 www.macd.cn 的數(shù)據(jù)來源于： www.jrj.com.cn , www.gutx.com 等股票站點；
2、垂直搜索引擎抓取的數(shù)據(jù)傾向于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)：
    比如：我們找工作關(guān)注的：
        職位信息：軟件工程師；
        公司名稱，行業(yè)名稱：軟件公司，外包行業(yè)等；
        地點：北京，海淀；
3、垂直搜索引擎的搜索行為是基于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)的結(jié)構(gòu)化搜索：
        比如：找：海淀軟件工程師的工作等。

垂直搜索引擎站點的8條準(zhǔn)則：

1、選擇一個好的垂直搜索方向。俗話說男怕選錯行，這一點對于搜索引擎來說也是一樣的，除了選擇的這個行業(yè)有垂直搜索的大量需求外，這個行業(yè)的數(shù)據(jù)屬性最好不要和
Yahoo,Google等通用搜索的的抓取方向重疊。
    目前熱門的垂直搜索行業(yè)有：購物，旅游，汽車，工作，房產(chǎn)，交友等行業(yè)。搜索引擎對動態(tài)url數(shù)據(jù)不敏感也是眾所周知的，這些可以作為垂直搜索引擎的切入點；

2、評價所選垂直搜索行業(yè)的網(wǎng)站、垂直搜索內(nèi)容、行業(yè)構(gòu)成等情況：
    我們都知道垂直搜索引擎并不提供內(nèi)容來源，它的數(shù)據(jù)依賴爬蟲搜集，并做了深度加工而來的。因此考慮垂直搜索引擎的所處的大環(huán)境和定位至關(guān)重要。
3、深入分析垂直搜索引擎的索引數(shù)據(jù)特點：
    垂直搜索引擎的索引數(shù)據(jù)過于結(jié)構(gòu)化，那么進入的門檻比較低，行業(yè)競爭會形成一窩蜂的局面；如果搜索數(shù)據(jù)特點是非結(jié)構(gòu)化的，抓取，分析這樣的數(shù)據(jù)很困難，進入壁
壘太高，很可能出師未杰身先死。
4、垂直搜索引擎的索引數(shù)據(jù)傾向于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)，這個特點是區(qū)別于yahoo,google等通用搜索引擎的，這是垂直搜索引擎的立足點。而垂直搜索引擎是根植于某一個行業(yè) ，因此行業(yè)知識，行業(yè)專家這些也是通用搜索引擎不具備的。也就是說進入垂直搜索是有門檻的。
5、垂直搜索引擎的搜索結(jié)果要覆蓋整個行業(yè)，搜索相關(guān)性要高于通用搜索引擎，貼近用戶搜索意圖，搜索結(jié)果要及時。
6、垂直搜索引擎的web 2.0 需求：
    垂直搜索引擎的搜索數(shù)據(jù)由于帶有結(jié)構(gòu)化的天性，相對于通用搜索引擎的全文索引而言，更顯的少而精。因此，設(shè)計的時候要提供收集用戶數(shù)據(jù)的接口，同時提供tag,積
分等機制，使搜索結(jié)果更加“垂直”。
7、垂直搜索引擎的目標(biāo)是幫助用戶解決問題，而不只是向通用搜索引擎一樣發(fā)現(xiàn)信息：
    這一點是垂直搜索引擎的終極目標(biāo)。在做垂直搜索引擎的時候你需要考慮：什么問題是這個行業(yè)內(nèi)的特殊性問題，什么問題是一般性問題。keso多次提到google的目標(biāo)是
讓用戶盡快離開google，而垂直搜索引擎應(yīng)該粘住用戶。一般來說，使用垂直搜索引擎的用戶都是和用戶的利益需求密切相關(guān)的。所謂利益需求是我自己獨創(chuàng) 的，大意是和用戶工作密切相關(guān)，生活中必不可少的需求，而求有持續(xù)性。比如：學(xué)生找論文，業(yè)主找裝修信息等等這樣的需求。因此粘住用戶，讓用戶有反饋的途徑是一個關(guān)鍵部分。
8、垂直搜索引擎的社區(qū)化特征：
    這一條和第9條是相關(guān)的。
    俗話說物以類聚，人以群分，垂直搜索引擎定位于一個行業(yè)，服務(wù)于一群特定需求的人群，這個特點決定了垂直搜索的社區(qū)化行為。人們利用垂直搜索引擎解決問題，分享回饋。現(xiàn)在做網(wǎng)站都講求社區(qū)化，所以垂直搜索引擎本質(zhì)上還是：對垂直門戶信息提供方式的一次簡化性的整合。

    相關(guān)連接：什么是垂直搜索引擎

原帖地址

posted @ 2005-08-29 16:08 我要去桂林閱讀(458) | 評論 (1) | 編輯收藏

我要去桂林---田春峰的網(wǎng)志

tss中文：開源面向?qū)ο蟮臄?shù)據(jù)庫db4o 5.5版發(fā)布了

一種面向搜索引擎的網(wǎng)頁分塊、切片的原理，實現(xiàn)和演示

一種快速的未登陸詞識別方法(原理和實現(xiàn))

什么是垂直搜索引擎（之二）

什么是垂直搜索引擎（之二）

導(dǎo)航

常用鏈接

留言簿(1)

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜