1.介紹
nutch是一個完全開源的搜索引擎包,它的效率可以和商業搜索引擎相媲美.作為一個研究平臺,nutch有開放靈活的架構,用戶可以制定個性化的搜索引擎.nutch的建立目的是增加web搜索的透明性.
2.架構
nutch有高質量,模塊化的架構特點允許使用插件來進行,media-type解析,html分析,數據檢索協議和查詢.有四個主要的模塊:
searcher:
給一個查詢,必需快速的找到最小的相關結果子集,然后呈現他們.發現一個比較大的相關子集工作是建立一個文檔集的倒排索引,排序以產生最相關的文檔.
indexer:
創建倒排索引,使用lucene存儲倒排索引.
數據庫:
為索引存儲文檔內容,以及為搜索存儲摘要.伴隨著像文檔的鏈接結構這樣的信息.
Fetcher:
請求web頁面,解析他們,抽取鏈接.
nutch是一個完全開源的搜索引擎包,它的效率可以和商業搜索引擎相媲美.作為一個研究平臺,nutch有開放靈活的架構,用戶可以制定個性化的搜索引擎.nutch的建立目的是增加web搜索的透明性.
2.架構
nutch有高質量,模塊化的架構特點允許使用插件來進行,media-type解析,html分析,數據檢索協議和查詢.有四個主要的模塊:
searcher:
給一個查詢,必需快速的找到最小的相關結果子集,然后呈現他們.發現一個比較大的相關子集工作是建立一個文檔集的倒排索引,排序以產生最相關的文檔.
indexer:
創建倒排索引,使用lucene存儲倒排索引.
數據庫:
為索引存儲文檔內容,以及為搜索存儲摘要.伴隨著像文檔的鏈接結構這樣的信息.
Fetcher:
請求web頁面,解析他們,抽取鏈接.
網站地址: http://www.osscn.net/
網站描述: 提供國內外開源新聞、技術文摘、開源文檔、軟件下載、源碼下載、開源項目及開源社區,打造開源中國門戶!
網站類型: 軟件技術
網站logo: http://www.osscn.net/images/logo.jpg
聯系方式: liva2008@163.com