herodby
          技術 筆記
          posts - 14,  comments - 14,  trackbacks - 0
          06 2009 檔案
          基于lucence+heritrix的開源搜索引擎構建(一)      摘要: 最近一直想寫個和搜索相關的東東,所以簡單了解搜索引擎方面的知識,個人總結一個垂直搜索引擎 包含以下幾個部分:
          1 web 爬蟲,抓取目標頁面的內容。
          2 數據預處理,把抓取下來的數據進行去噪,例如使用htmlparser等工具對去掉無用的標簽數據等等,把
          數據結構化DB或者其他存儲系統已被后面使用。
          3. 建立索引。
          4. 分詞,開發檢索因子, 對索引數據進行檢索。
          5. 把檢索到的數據,在web段展現。
          下面就結合heritrix1.14.3 和lucence2.2.0,介紹下,整個搜索引擎的開發過程。
            閱讀全文
          posted @ 2009-06-26 02:35 鄧兵野 閱讀(3888) | 評論 (2)  編輯


          <2009年6月>
          31123456
          78910111213
          14151617181920
          21222324252627
          2829301234
          567891011

          常用鏈接

          留言簿(2)

          隨筆分類

          隨筆檔案

          文章分類

          文章檔案

          搜索

          •  

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 新绛县| 涿州市| 大连市| 柳河县| 游戏| 始兴县| 舟曲县| 宁都县| 尖扎县| 北辰区| 青阳县| 东至县| 灵山县| 尤溪县| 萝北县| 疏勒县| 凤山县| 祁东县| 龙海市| 通榆县| 巴塘县| 新兴县| 若羌县| 仙游县| 页游| 湖口县| 波密县| 新安县| 黄骅市| 铜山县| 临邑县| 和静县| 大同县| 仪征市| 界首市| 咸宁市| 洱源县| 陆良县| 孟村| 瑞丽市| 彭山县|