Nutch 相關 (三) Nutch的分詞的架構
摘要: Nutch分詞的最底層使用的是lucene的Analyzer抽象類,它位于org.apache.lucene.analysis包中, NutchAnalyzer繼承了Analyzer類、實現了Configurable、Pluggable接口,該抽象類中定義了一個公有的抽象方法 tokenStream(String fieldName, Reader reader)返回的類型是TokenStream。
閱讀全文
Nutch 相關 (二)分詞的算法
摘要: 說到Nutch中要使用中文分詞,因為中文分詞程序的速度很快,需要分詞的每篇文章字數不會達到需要占用其很長時間的程度。因此,對于每篇文章分詞的請求可以看作是大量短小線程的請求,此時使用線程池技術是非常合適的,它可以極大減小線程的創建和銷毀次數,提高程序的工作效率。
閱讀全文
Nutch 相關 (一) 爬蟲的研究
摘要: Nutch是支持插件擴展的,這樣就可以滿足各個不同使用群體的特定需求,例如是要做垂直搜索,并收集特定信息的收集
閱讀全文