摘要: 很久沒(méi)有寫(xiě)技術(shù)blog了,這段時(shí)間心血來(lái)潮 對(duì)云計(jì)算,云存儲(chǔ)產(chǎn)生興趣,遂先把自己實(shí)際的安裝配置筆記 記錄下來(lái)。
閱讀全文
摘要: 最近一直想寫(xiě)個(gè)和搜索相關(guān)的東東,所以簡(jiǎn)單了解搜索引擎方面的知識(shí),個(gè)人總結(jié)一個(gè)垂直搜索引擎 包含以下幾個(gè)部分:
1 web 爬蟲(chóng),抓取目標(biāo)頁(yè)面的內(nèi)容。
2 數(shù)據(jù)預(yù)處理,把抓取下來(lái)的數(shù)據(jù)進(jìn)行去噪,例如使用htmlparser等工具對(duì)去掉無(wú)用的標(biāo)簽數(shù)據(jù)等等,把
數(shù)據(jù)結(jié)構(gòu)化DB或者其他存儲(chǔ)系統(tǒng)已被后面使用。
3. 建立索引。
4. 分詞,開(kāi)發(fā)檢索因子, 對(duì)索引數(shù)據(jù)進(jìn)行檢索。
5. 把檢索到的數(shù)據(jù),在web段展現(xiàn)。
下面就結(jié)合heritrix1.14.3 和lucence2.2.0,介紹下,整個(gè)搜索引擎的開(kāi)發(fā)過(guò)程。
閱讀全文