|
2005年6月23日
?tss中文:開源面向對象的數據庫db4o 5.5版發布了
近日db4objects發布了開源面向對象數據庫
db4o 5.5 版本. 這個版本的焦點是提高了性能降低了內存耗用,特別針對資源緊張的嵌入式開發提供了支持。
具體的改進特性: - 類索引使用新BTree架構,極大減少了事務提交的時間,對象個數在10萬之1千萬的索引時表現極為明顯。 -通過更好的群集插槽方式,改進字符串和數組的序列化方式,在插入和修改時提高了效率。
-提供了診斷工具包,幫助程序員更容易開發出高效程序。
-本次改進效率的提升可以讓內存耗用更低。
伴隨著?這次發布,db4objects 還提供了用戶交流社區:
這里
。??
原文: db4o open source object database v 5.5 released
一種面向搜索引擎的網頁分塊、切片的原理,實現和演示
最近看到 2005 年的 全國搜索引擎和網上信息挖掘學術研討會 上 華南木棉信息檢索的隊長 歐健文 的 華南木棉信息檢索 的ppt。很有啟發。
于是自己也根據自己的理解準備做一個實現。 實現前提假設: 1、網頁分塊切分的基本單位是html中的table , div 等標簽(目前版本只支持:table ,div 標簽)。 2、網頁分塊切片識別依賴于相似url的對比。比如:我們認為一下兩個url的網頁html文本結構相似: http://news.soufun.com/2005-11-26/580107.htm http://news.soufun.com/2005-11-26/580175.htm 而下面兩個url的網頁結構不相似: http://news.soufun.com/subject/weekly051121/index.html http://news.soufun.com/2005-11-26/580175.htm
用途: 1、根據分析網頁結構區分網頁是 主題型網頁 還是 目錄型網頁; 2、根據分析網頁結構 找出 網頁的 主題內容,相關內容和噪音內容;
實現的3個階段: 1、對網頁結構進行合理切片; 2、比較相似網頁的切片結構; 3、分析切片數據,得出結論。 演示地址: http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp
一種快速的未登陸詞識別方法(原理和實現)
最近網絡上關于分詞的算法已經很多了,在實際應用中每個人根據對分詞的不同理解寫了不同的中文分詞算法,可謂百花齊放. 但現在似乎還沒有針對未登陸詞的識別算法,有鑒于此,我特地寫了一個,拋磚引玉.
算法的假設: 1. 未登陸詞是由單字組成的; 2. 如果一個字同時屬于2個未登陸詞,那么只選擇第一被識別的詞;
測試文章: 最近電視劇大長今很火,我就選取了介紹大長今的文章, 地址:http://www.360doc.com/showWeb/0/0/18183.aspx 識別結果如下: PDH : initialize phrase dictionary QuerySpliter reInitialize dictionary. 長今,職場,閔政浩,韓劇,鄭云白,連生,主簿,冷廟高香,義字,醫女,張德,剩者,濟州,選撥,文秘
算法原理: 首先找出已經分詞后的單字,然后查看單字的下一個是否還是單字,如果是,判斷這種情況出現的次數,如果超過預訂的閥值,那么就確認這是一個新詞. 下面是一個算法的計算過程展示: PDH : initialize phrase dictionary QuerySpliter reInitialize dictionary. >>>8,9;9,10 長今 >>>237,238;238,239 職場 >>>595,596;596,597;597,598 閔政浩 >>>189,190;190,191 韓劇 >>>1111,1112;1112,1113;1113,1114 鄭云白 >>>599,600;600,601 連生 >>>610,611;611,612 主簿 >>>975,976;976,977;977,978;978,979 冷廟高香 >>>1233,1234;1234,1235 義字 >>>559,560;560,561 醫女 >>>561,562;562,563 張德 >>>3114,3115;3115,3116 剩者 >>>534,535;535,536 濟州 >>>580,581;581,582 選撥 >>>2071,2072;2072,2073 文秘 本算法是在:小叮咚分詞的基礎上進行的. 歡迎大家一起交流,改進這個算法.  相關連接: 基于最長詞匹配算法變形的分詞系統( 文舫工作室貢獻 )
小叮咚中文分詞在處理大量數據的時候碰到了內存泄漏的問題
Lucene使用者沙龍
原帖地址
什么是垂直搜索引擎(之二)
垂直搜索引擎的三個特點:
1、垂直搜索引擎抓取的數據來源于垂直搜索引擎關注的行業站點: 比如:找工作的搜索引擎 www.deepdo.com 的數據來源于:www.51job.com , www.zhaoping.com , www.chinahr.com 等等; 股票搜索引擎 www.macd.cn 的數據來源于: www.jrj.com.cn , www.gutx.com 等股票站點; 2、垂直搜索引擎抓取的數據傾向于結構化數據和元數據: 比如:我們找工作關注的: 職位信息: 軟件工程師; 公司名稱,行業名稱:軟件公司,外包行業等; 地點:北京,海淀; 3、垂直搜索引擎的搜索行為是基于結構化數據和元數據的結構化搜索: 比如: 找:海淀 軟件工程師 的工作等。
垂直搜索引擎站點的8條準則:
1、選擇一個好的垂直搜索方向。俗話說男怕選錯行,這一點對于搜索引擎來說也是一樣的,除了選擇的這個行業有垂直搜索的大量需求外,這個行業的數據屬性最好不要和 Yahoo,Google等通用搜索的的抓取方向重疊。 目前熱門的垂直搜索行業有:購物,旅游,汽車,工作,房產,交友等行業。搜索引擎對動態url數據不敏感也是眾所周知的,這些可以作為垂直搜索引擎的切入點;
2、評價所選垂直搜索行業的網站、垂直搜索內容、行業構成等情況: 我們都知道垂直搜索引擎并不提供內容來源,它的數據依賴爬蟲搜集,并做了深度加工而來的。因此考慮垂直搜索引擎的所處的大環境和定位至關重要。 3、深入分析垂直搜索引擎的索引數據特點: 垂直搜索引擎的索引數據過于結構化,那么進入的門檻比較低,行業競爭會形成一窩蜂的局面;如果搜索數據特點是非結構化的,抓取,分析這樣的數據很困難,進入壁 壘太高,很可能出師未杰身先死。 4、垂直搜索引擎的索引數據傾向于結構化數據和元數據,這個特點是區別于yahoo,google等通用搜索引擎的,這是垂直搜索引擎的立足點。而垂直搜索引擎是根植于某一個行業 ,因此行業知識,行業專家這些也是通用搜索引擎不具備的。也就是說進入垂直搜索是有門檻的。 5、垂直搜索引擎的搜索結果要覆蓋整個行業,搜索相關性要高于通用搜索引擎,貼近用戶搜索意圖,搜索結果要及時。 6、垂直搜索引擎的web 2.0 需求: 垂直搜索引擎的搜索數據由于帶有結構化的天性,相對于通用搜索引擎的全文索引而言,更顯的少而精。因此,設計的時候要提供收集用戶數據的接口,同時提供tag,積 分等機制,使搜索結果更加“垂直”。 7、垂直搜索引擎的目標是幫助用戶解決問題,而不只是向通用搜索引擎一樣發現信息: 這一點是垂直搜索引擎的終極目標。 在做垂直搜索引擎的時候你需要考慮:什么問題是這個行業內的特殊性問題,什么問題是一般性問題。keso多次提到google的目標是 讓
用戶盡快離開google,而垂直搜索引擎應該粘住用戶。一般來說,使用垂直搜索引擎的用戶都是和用戶的利益需求密切相關的。所謂利益需求是我自己獨創
的,大意是和用戶工作密切相關,生活中必不可少的需求,而求有持續性。比如:學生找論文,業主找裝修信息等等這樣的需求。因此粘住用戶,讓用戶有反饋的途
徑是一個關鍵部分。 8、垂直搜索引擎的社區化特征: 這一條和第9條是相關的。 俗話說物以類聚,人以群分,垂直搜索引擎定位于一個行業,服務于一群特定需求的人群,這個特點決定了垂直搜索的社區化行為。人們利用垂直搜索引擎解決問題,分享回饋。現在做網站都講求社區化,所以垂直搜索引擎本質上還是:對垂直門戶信息提供方式的一次簡化性的整合。
相關連接:什么是垂直搜索引擎
原帖地址
Boyer-moor 字符串搜索算法
最近因為需要從大量的文本中檢索字符串,于是想比較一下java jdk提供的 indexof 算法,和其他字符串搜索算法的效率。字符串搜索算法有多種,其中比較有名的是boyer-moore算法。在Moore 先生的主頁上有關于 boyer-moore算法的詳細介紹。 moore先生介紹的通俗易懂,相信大家都能看明白。
同時還看到:Boyer-Moore串查找JAVA算法這篇文章 ,可惜是安徽工業大學的內部刊物,無法看到文章的詳情,真是遺憾。
相關連接: boyer-moore 算法文檔中心 多么樂
|