tss中文：開(kāi)源面向?qū)ο蟮臄?shù)據(jù)庫(kù)db4o 5.5版發(fā)布了

?tss中文：開(kāi)源面向?qū)ο蟮臄?shù)據(jù)庫(kù)db4o 5.5版發(fā)布了

近日db4objects發(fā)布了開(kāi)源面向?qū)ο髷?shù)據(jù)庫(kù) db4o 5.5 版本. 這個(gè)版本的焦點(diǎn)是提高了性能降低了內(nèi)存耗用，特別針對(duì)資源緊張的嵌入式開(kāi)發(fā)提供了支持。

具體的改進(jìn)特性:
- 類(lèi)索引使用新BTree架構(gòu)，極大減少了事務(wù)提交的時(shí)間，對(duì)象個(gè)數(shù)在10萬(wàn)之1千萬(wàn)的索引時(shí)表現(xiàn)極為明顯。
-通過(guò)更好的群集插槽方式，改進(jìn)字符串和數(shù)組的序列化方式，在插入和修改時(shí)提高了效率。

-提供了診斷工具包，幫助程序員更容易開(kāi)發(fā)出高效程序。

-本次改進(jìn)效率的提升可以讓內(nèi)存耗用更低。

伴隨著?這次發(fā)布，db4objects 還提供了用戶(hù)交流社區(qū)：這里。??

原文： db4o open source object database v 5.5 released

posted @ 2006-08-21 18:25 我要去桂林閱讀(247) | 評(píng)論 (0) | 編輯收藏

一種面向搜索引擎的網(wǎng)頁(yè)分塊、切片的原理，實(shí)現(xiàn)和演示

最近看到 2005 年的全國(guó)搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會(huì) 上華南木棉信息檢索的隊(duì)長(zhǎng) 歐健文的華南木棉信息檢索的ppt。很有啟發(fā)。

于是自己也根據(jù)自己的理解準(zhǔn)備做一個(gè)實(shí)現(xiàn)。
實(shí)現(xiàn)前提假設(shè)：
   1、網(wǎng)頁(yè)分塊切分的基本單位是html中的table , div 等標(biāo)簽（目前版本只支持：table ,div 標(biāo)簽）。
   2、網(wǎng)頁(yè)分塊切片識(shí)別依賴(lài)于相似url的對(duì)比。比如：我們認(rèn)為一下兩個(gè)url的網(wǎng)頁(yè)html文本結(jié)構(gòu)相似：
       http://news.soufun.com/2005-11-26/580107.htm
       http://news.soufun.com/2005-11-26/580175.htm
       而下面兩個(gè)url的網(wǎng)頁(yè)結(jié)構(gòu)不相似：
       http://news.soufun.com/subject/weekly051121/index.html
       http://news.soufun.com/2005-11-26/580175.htm

用途：
   1、根據(jù)分析網(wǎng)頁(yè)結(jié)構(gòu)區(qū)分網(wǎng)頁(yè)是主題型網(wǎng)頁(yè) 還是目錄型網(wǎng)頁(yè)；
   2、根據(jù)分析網(wǎng)頁(yè)結(jié)構(gòu) 找出網(wǎng)頁(yè)的主題內(nèi)容，相關(guān)內(nèi)容和噪音內(nèi)容；

實(shí)現(xiàn)的3個(gè)階段：
   1、對(duì)網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)行合理切片；
   2、比較相似網(wǎng)頁(yè)的切片結(jié)構(gòu)；
   3、分析切片數(shù)據(jù)，得出結(jié)論。
演示地址：
       http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp

posted @ 2005-11-28 10:17 我要去桂林閱讀(654) | 評(píng)論 (0) | 編輯收藏

一種快速的未登陸詞識(shí)別方法(原理和實(shí)現(xiàn))

    最近網(wǎng)絡(luò)上關(guān)于分詞的算法已經(jīng)很多了,在實(shí)際應(yīng)用中每個(gè)人根據(jù)對(duì)分詞的不同理解寫(xiě)了不同的中文分詞算法,可謂百花齊放.
    但現(xiàn)在似乎還沒(méi)有針對(duì)未登陸詞的識(shí)別算法,有鑒于此,我特地寫(xiě)了一個(gè),拋磚引玉.

    算法的假設(shè):
    1. 未登陸詞是由單字組成的;
    2. 如果一個(gè)字同時(shí)屬于2個(gè)未登陸詞,那么只選擇第一被識(shí)別的詞;

    測(cè)試文章:
    最近電視劇大長(zhǎng)今很火,我就選取了介紹大長(zhǎng)今的文章,
    地址:http://www.360doc.com/showWeb/0/0/18183.aspx
    識(shí)別結(jié)果如下:
        PDH : initialize phrase dictionary
        QuerySpliter reInitialize dictionary.
        長(zhǎng)今,職場(chǎng),閔政浩,韓劇,鄭云白,連生,主簿,冷廟高香,義字,醫(yī)女,張德,剩者,濟(jì)州,選撥,文秘

    算法原理:
    首先找出已經(jīng)分詞后的單字,然后查看單字的下一個(gè)是否還是單字,如果是,判斷這種情況出現(xiàn)的次數(shù),如果超過(guò)預(yù)訂的閥值,那么就確認(rèn)這是一個(gè)新詞.
    下面是一個(gè)算法的計(jì)算過(guò)程展示:
   PDH : initialize phrase dictionary
   QuerySpliter reInitialize dictionary.
   >>>8,9;9,10
   長(zhǎng)今
   >>>237,238;238,239
   職場(chǎng)
   >>>595,596;596,597;597,598
   閔政浩
   >>>189,190;190,191
   韓劇
   >>>1111,1112;1112,1113;1113,1114
   鄭云白
   >>>599,600;600,601
   連生
   >>>610,611;611,612
   主簿
   >>>975,976;976,977;977,978;978,979
   冷廟高香
   >>>1233,1234;1234,1235
   義字
   >>>559,560;560,561
   醫(yī)女
   >>>561,562;562,563
   張德
   >>>3114,3115;3115,3116
   剩者
   >>>534,535;535,536
   濟(jì)州
   >>>580,581;581,582
   選撥
   >>>2071,2072;2072,2073
   文秘
    本算法是在:小叮咚分詞的基礎(chǔ)上進(jìn)行的.
    歡迎大家一起交流,改進(jìn)這個(gè)算法.

    相關(guān)連接:
              基于最長(zhǎng)詞匹配算法變形的分詞系統(tǒng)( 文舫工作室貢獻(xiàn) )
                       小叮咚中文分詞在處理大量數(shù)據(jù)的時(shí)候碰到了內(nèi)存泄漏的問(wèn)題
                       Lucene使用者沙龍

原帖地址

posted @ 2005-10-12 16:16 我要去桂林閱讀(752) | 評(píng)論 (0) | 編輯收藏

什么是垂直搜索引擎（之二）

垂直搜索引擎的三個(gè)特點(diǎn)：

1、垂直搜索引擎抓取的數(shù)據(jù)來(lái)源于垂直搜索引擎關(guān)注的行業(yè)站點(diǎn)：
    比如：找工作的搜索引擎 www.deepdo.com 的數(shù)據(jù)來(lái)源于：www.51job.com , www.zhaoping.com , www.chinahr.com 等等；
          股票搜索引擎 www.macd.cn 的數(shù)據(jù)來(lái)源于： www.jrj.com.cn , www.gutx.com 等股票站點(diǎn)；
2、垂直搜索引擎抓取的數(shù)據(jù)傾向于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)：
    比如：我們找工作關(guān)注的：
        職位信息：軟件工程師；
        公司名稱(chēng)，行業(yè)名稱(chēng)：軟件公司，外包行業(yè)等；
        地點(diǎn)：北京，海淀；
3、垂直搜索引擎的搜索行為是基于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)的結(jié)構(gòu)化搜索：
        比如：找：海淀軟件工程師的工作等。

垂直搜索引擎站點(diǎn)的8條準(zhǔn)則：

1、選擇一個(gè)好的垂直搜索方向。俗話(huà)說(shuō)男怕選錯(cuò)行，這一點(diǎn)對(duì)于搜索引擎來(lái)說(shuō)也是一樣的，除了選擇的這個(gè)行業(yè)有垂直搜索的大量需求外，這個(gè)行業(yè)的數(shù)據(jù)屬性最好不要和
Yahoo,Google等通用搜索的的抓取方向重疊。
    目前熱門(mén)的垂直搜索行業(yè)有：購(gòu)物，旅游，汽車(chē)，工作，房產(chǎn)，交友等行業(yè)。搜索引擎對(duì)動(dòng)態(tài)url數(shù)據(jù)不敏感也是眾所周知的，這些可以作為垂直搜索引擎的切入點(diǎn)；

2、評(píng)價(jià)所選垂直搜索行業(yè)的網(wǎng)站、垂直搜索內(nèi)容、行業(yè)構(gòu)成等情況：
    我們都知道垂直搜索引擎并不提供內(nèi)容來(lái)源，它的數(shù)據(jù)依賴(lài)爬蟲(chóng)搜集，并做了深度加工而來(lái)的。因此考慮垂直搜索引擎的所處的大環(huán)境和定位至關(guān)重要。
3、深入分析垂直搜索引擎的索引數(shù)據(jù)特點(diǎn)：
    垂直搜索引擎的索引數(shù)據(jù)過(guò)于結(jié)構(gòu)化，那么進(jìn)入的門(mén)檻比較低，行業(yè)競(jìng)爭(zhēng)會(huì)形成一窩蜂的局面；如果搜索數(shù)據(jù)特點(diǎn)是非結(jié)構(gòu)化的，抓取，分析這樣的數(shù)據(jù)很困難，進(jìn)入壁
壘太高，很可能出師未杰身先死。
4、垂直搜索引擎的索引數(shù)據(jù)傾向于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)，這個(gè)特點(diǎn)是區(qū)別于yahoo,google等通用搜索引擎的，這是垂直搜索引擎的立足點(diǎn)。而垂直搜索引擎是根植于某一個(gè)行業(yè) ，因此行業(yè)知識(shí)，行業(yè)專(zhuān)家這些也是通用搜索引擎不具備的。也就是說(shuō)進(jìn)入垂直搜索是有門(mén)檻的。
5、垂直搜索引擎的搜索結(jié)果要覆蓋整個(gè)行業(yè)，搜索相關(guān)性要高于通用搜索引擎，貼近用戶(hù)搜索意圖，搜索結(jié)果要及時(shí)。
6、垂直搜索引擎的web 2.0 需求：
    垂直搜索引擎的搜索數(shù)據(jù)由于帶有結(jié)構(gòu)化的天性，相對(duì)于通用搜索引擎的全文索引而言，更顯的少而精。因此，設(shè)計(jì)的時(shí)候要提供收集用戶(hù)數(shù)據(jù)的接口，同時(shí)提供tag,積
分等機(jī)制，使搜索結(jié)果更加“垂直”。
7、垂直搜索引擎的目標(biāo)是幫助用戶(hù)解決問(wèn)題，而不只是向通用搜索引擎一樣發(fā)現(xiàn)信息：
    這一點(diǎn)是垂直搜索引擎的終極目標(biāo)。在做垂直搜索引擎的時(shí)候你需要考慮：什么問(wèn)題是這個(gè)行業(yè)內(nèi)的特殊性問(wèn)題，什么問(wèn)題是一般性問(wèn)題。keso多次提到google的目標(biāo)是
讓用戶(hù)盡快離開(kāi)google，而垂直搜索引擎應(yīng)該粘住用戶(hù)。一般來(lái)說(shuō)，使用垂直搜索引擎的用戶(hù)都是和用戶(hù)的利益需求密切相關(guān)的。所謂利益需求是我自己獨(dú)創(chuàng) 的，大意是和用戶(hù)工作密切相關(guān)，生活中必不可少的需求，而求有持續(xù)性。比如：學(xué)生找論文，業(yè)主找裝修信息等等這樣的需求。因此粘住用戶(hù)，讓用戶(hù)有反饋的途徑是一個(gè)關(guān)鍵部分。
8、垂直搜索引擎的社區(qū)化特征：
    這一條和第9條是相關(guān)的。
    俗話(huà)說(shuō)物以類(lèi)聚，人以群分，垂直搜索引擎定位于一個(gè)行業(yè)，服務(wù)于一群特定需求的人群，這個(gè)特點(diǎn)決定了垂直搜索的社區(qū)化行為。人們利用垂直搜索引擎解決問(wèn)題，分享回饋。現(xiàn)在做網(wǎng)站都講求社區(qū)化，所以垂直搜索引擎本質(zhì)上還是：對(duì)垂直門(mén)戶(hù)信息提供方式的一次簡(jiǎn)化性的整合。

    相關(guān)連接：什么是垂直搜索引擎

原帖地址

posted @ 2005-08-29 16:08 我要去桂林閱讀(457) | 評(píng)論 (1) | 編輯收藏

Boyer-moor 字符串搜索算法

最近因?yàn)樾枰獜拇罅康奈谋局袡z索字符串，于是想比較一下java jdk提供的 indexof 算法，和其他字符串搜索算法的效率。字符串搜索算法有多種，其中比較有名的是boyer-moore算法。在Moore 先生的主頁(yè)上有關(guān)于 boyer-moore算法的詳細(xì)介紹。
moore先生介紹的通俗易懂，相信大家都能看明白。

     同時(shí)還看到：Boyer-Moore串查找JAVA算法這篇文章，可惜是安徽工業(yè)大學(xué)的內(nèi)部刊物，無(wú)法看到文章的詳情，真是遺憾。

相關(guān)連接：
                   boyer-moore 算法文檔中心
                               多么樂(lè)

posted @ 2005-06-23 23:26 我要去桂林閱讀(384) | 評(píng)論 (0) | 編輯收藏

多么樂(lè)alexa網(wǎng)站流量數(shù)據(jù)報(bào)告助手

為了您方便的獲取您所關(guān)心網(wǎng)站的alexa網(wǎng)站流量數(shù)據(jù)，多么樂(lè)特的為您制作了這款工具，使用方法很簡(jiǎn)單，只要按照要求輸入網(wǎng)站地址和您的郵件地址并制定郵件發(fā)送的時(shí)間，我們就會(huì)定期給您發(fā)送alaxe統(tǒng)計(jì)數(shù)據(jù)。

在以后我們還會(huì)對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析，提供更加滿(mǎn)意的服務(wù)！

Alaxe排名	百萬(wàn)用戶(hù)到達(dá)率	用戶(hù)瀏覽頁(yè)數(shù)
156	2750	8.0

相關(guān)連接：Alaxe 網(wǎng)站數(shù)據(jù)助手

posted @ 2005-06-22 08:44 我要去桂林閱讀(280) | 評(píng)論 (0) | 編輯收藏

多么樂(lè) 搜索引擎索引量報(bào)告--實(shí)現(xiàn)了自動(dòng)發(fā)送周報(bào)功能

自從多么樂(lè) 搜索引擎索引量統(tǒng)計(jì)報(bào)告發(fā)布一來(lái)已經(jīng)有100多位站長(zhǎng)登陸使用；為了把這部分?jǐn)?shù)據(jù)主動(dòng)送到各位站長(zhǎng)手中，我特地制作了這個(gè)周報(bào)功能，他將會(huì)在沒(méi)周六下午3點(diǎn)10分，給您提供貴站在google,baidu,yisou,msn等主流搜索引擎上的索引量數(shù)據(jù)。

如果您想也使用這項(xiàng)功能，您可以在：搜索引擎統(tǒng)計(jì) 上登陸您的網(wǎng)址，（注意按照要求填寫(xiě)。）

并提供您的Email地址。

如果有意見(jiàn)和建議請(qǐng)發(fā)信到： xiaodingdong@gmail.com

下面是一個(gè)郵件例子：

多么樂(lè) 搜索引擎索引量報(bào)告

網(wǎng)址	日期	搜索引擎	平均索引量
blogchina.com	2005-06-12	baidu	8,770,000.0
blogchina.com	2005-06-12	google	2,520,000.0
blogchina.com	2005-06-12	msn	212,088.00
blogchina.com	2005-06-12	yisou	5,632,696.0
blogchina.com	2005-06-13	baidu	8,740,000.0
blogchina.com	2005-06-13	google	1,210,000.0
blogchina.com	2005-06-13	msn	224,448.00
blogchina.com	2005-06-13	yisou	5,788,532.0
blogchina.com	2005-06-14	baidu	9,320,000.0
blogchina.com	2005-06-14	google	1,110,000.0
blogchina.com	2005-06-14	msn	212,176.00
blogchina.com	2005-06-14	yisou	5,904,606.0
blogchina.com	2005-06-16	baidu	41,670,000.
blogchina.com	2005-06-16	msn	1,068,831.0
blogchina.com	2005-06-16	yisou	27,161,082.
blogchina.com	2005-06-17	baidu	42,030,000.
blogchina.com	2005-06-17	msn	109,929.00
blogchina.com	2005-06-17	yisou	27,369,993.
blogchina.com	2005-06-18	baidu	46,900,000.
blogchina.com	2005-06-18	google	9,310,000.0
blogchina.com	2005-06-18	yisou	30,492,025.
itpub.net	2005-06-12	baidu	862,000.00
itpub.net	2005-06-12	google	261,000.00
itpub.net	2005-06-12	msn	14,070.00
itpub.net	2005-06-12	yisou	42,090.00
itpub.net	2005-06-13	baidu	857,000.00
itpub.net	2005-06-13	google	132,000.00
itpub.net	2005-06-13	msn	13,538.00
itpub.net	2005-06-13	yisou	42,100.00
itpub.net	2005-06-14	baidu	866,000.00
itpub.net	2005-06-14	google	132,000.00
itpub.net	2005-06-14	msn	12,994.00
itpub.net	2005-06-14	yisou	41,274.00
itpub.net	2005-06-16	baidu	3,861,000.0
itpub.net	2005-06-16	msn	57,906.00
itpub.net	2005-06-16	yisou	180,648.00
itpub.net	2005-06-17	baidu	3,906,000.0
itpub.net	2005-06-17	yisou	178,585.00
itpub.net	2005-06-18	baidu	4,360,000.0
itpub.net	2005-06-18	google	1,040,000.0
itpub.net	2005-06-18	yisou	198,450.00

多么樂(lè) 搜索引擎索引量報(bào)告

posted @ 2005-06-19 08:23 我要去桂林閱讀(368) | 評(píng)論 (0) | 編輯收藏

關(guān)于小叮咚中文分詞 .net版本發(fā)布的變化

現(xiàn)在幾乎每天都有朋友給我寫(xiě)信，要求交流小叮咚中文分詞的實(shí)現(xiàn)。我現(xiàn)在實(shí)現(xiàn)的有java和C#兩個(gè)版本。同樣的算法邏輯，用 java 和 C#寫(xiě)兩邊可不是有趣的事情。于是自然而然想起了關(guān)于lucene發(fā)展和多語(yǔ)言實(shí)現(xiàn)的方向中采用的方法，于是決定以后主要更新java版本的中文分詞算法，而.net版本的中文分詞則在java class基礎(chǔ)上轉(zhuǎn)化過(guò)來(lái)。

很早的時(shí)候我的一篇blog介紹過(guò)：基于.NET的Java虛擬機(jī)IKVM介紹。于是今天就嘗試了一把，整個(gè)過(guò)程還算順利。下面是我的轉(zhuǎn)換過(guò)程：

    X:\ikvmbin-0.14.0.1\ikvm\bin>ikvmc -target:library X:\XXXX\chinese_sentence_splitter.jar
    Note: output file is "chinese_sentence_splitter.dll"
    Note: automatically adding reference to "e:\programming\java&.net\ikvmbin-0.14.0.1\ikvm\bin\ikvm.gnu.classpath.dll"

通過(guò)上面的命令可以把 java jar 文件轉(zhuǎn)換成同名的 .net dll。

在java中測(cè)試的結(jié)果如下：

但在.net中測(cè)試的結(jié)果卻不正確：

這很顯然是IKVM.NET在轉(zhuǎn)換過(guò)程中出現(xiàn)了問(wèn)題。

由于第一次使用IKVM.NET，因此這個(gè)問(wèn)題還需要在以后有時(shí)間解決一下。也希望有相關(guān)經(jīng)驗(yàn)的朋友多多指導(dǎo).

相關(guān)連接：

多么樂(lè)
小叮咚中文分詞

posted @ 2005-05-29 21:56 我要去桂林閱讀(585) | 評(píng)論 (0) | 編輯收藏

小叮咚中文分詞發(fā)布 java 版本 , c# 版本， c++ 版本

最近關(guān)于中文分詞的處理逐漸多了起來(lái)，我以前的文章也零星的介紹過(guò)許多這方面的技術(shù)?？傆幸恍┡笥褋?lái)信索要中文分詞的代碼，而且要不同版本的，鑒于這個(gè)情況，我把我對(duì)分詞的理解，按照java,C#語(yǔ)言各自實(shí)現(xiàn)了一份。C++的版本，還是用中科院的ICTCLAS 畢竟這個(gè)分詞程序是很多分詞的鼻祖。

大家可以到：小叮咚中文分詞主頁(yè)查看詳情。

程序還有很多不完善的地方，功能列表和開(kāi)發(fā)文檔現(xiàn)在都不完整，希望有這方面愛(ài)好的朋友一起參與進(jìn)來(lái)，完善，提高。

也歡迎大家來(lái)信討論： xiaodingdong@gmail.com

田春峰

相關(guān)聯(lián)接：

小叮咚分詞主頁(yè)

計(jì)算所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS 字典格式解析

一種面向搜索引擎的中文切分詞方法

公開(kāi)小叮咚分詞源代碼

posted @ 2005-05-27 06:47 我要去桂林閱讀(775) | 評(píng)論 (1) | 編輯收藏

多么樂(lè)互聯(lián)網(wǎng) google索引量統(tǒng)計(jì)

多么樂(lè)互聯(lián)網(wǎng) google索引量統(tǒng)計(jì)

    您想知道自己主頁(yè)在google的索引量的統(tǒng)計(jì)嗎？你想知道自己主頁(yè)在google上的索引量是如何變化的嗎？
    如果想，不妨到：http://www.domolo.com/domolo/domoloindex/index.aspx 輸入您的網(wǎng)址，我們會(huì)為您免費(fèi)進(jìn)行g(shù)oogle索引量的統(tǒng)計(jì)。
    我們會(huì)每小時(shí)一次統(tǒng)計(jì)，每天生成一份統(tǒng)計(jì)報(bào)告，統(tǒng)計(jì)報(bào)告頁(yè)面如下：
http://www.domolo.com/domolo/domoloindex/google2005-04-16.html

    上面的地址是當(dāng)日20050416的google索引量的統(tǒng)計(jì)。統(tǒng)計(jì)數(shù)據(jù)的來(lái)源是每小時(shí)google索引量的平均值。

如果您想統(tǒng)計(jì)自己網(wǎng)站的google索引量，您可以在
http://www.domolo.com/domolo/domoloindex/index.aspx
這個(gè)地址上，錄入您的網(wǎng)址，我們就可以為您自動(dòng)統(tǒng)計(jì)貴站的google索引了。

    訪(fǎng)問(wèn)方式：
http://www.domolo.com/domolo/domoloindex/google2005-04-16.html
把上面鏈接中的日期換成當(dāng)前日期即可！

歡迎您的參與使用，
并希望提出您的寶貴意見(jiàn)：田春峰的留言簿

------------

今天剛加了對(duì)baidu索引量的統(tǒng)計(jì)，第一天運(yùn)行，就有幾個(gè)朋友注冊(cè)，不錯(cuò)呀。

http://www.domolo.com/domolo/domoloindex/google2005-04-17.html

多么樂(lè)互聯(lián)網(wǎng)索引量統(tǒng)計(jì)

生成時(shí)間：

網(wǎng)址	統(tǒng)計(jì)次數(shù)	平均索引量
soufun.com	15	1141533
domolo.com	15	7
sohu.com	30	1473400
sina.com.cn	15	1080066
donews.com	15	374333
donews.net	15	169186
www.myknots.com	11	4170
diyinside.com	3	167
www.dearbook.com.cn	1	123000