herodby
          技術 筆記
          posts - 14,  comments - 14,  trackbacks - 0
          06 2009 檔案
          基于lucence+heritrix的開源搜索引擎構建(一)      摘要: 最近一直想寫個和搜索相關的東東,所以簡單了解搜索引擎方面的知識,個人總結一個垂直搜索引擎 包含以下幾個部分:
          1 web 爬蟲,抓取目標頁面的內容。
          2 數據預處理,把抓取下來的數據進行去噪,例如使用htmlparser等工具對去掉無用的標簽數據等等,把
          數據結構化DB或者其他存儲系統已被后面使用。
          3. 建立索引。
          4. 分詞,開發檢索因子, 對索引數據進行檢索。
          5. 把檢索到的數據,在web段展現。
          下面就結合heritrix1.14.3 和lucence2.2.0,介紹下,整個搜索引擎的開發過程。
            閱讀全文
          posted @ 2009-06-26 02:35 鄧兵野 閱讀(3904) | 評論 (2)  編輯


          <2009年6月>
          31123456
          78910111213
          14151617181920
          21222324252627
          2829301234
          567891011

          常用鏈接

          留言簿(2)

          隨筆分類

          隨筆檔案

          文章分類

          文章檔案

          搜索

          •  

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 剑河县| 富锦市| 东乡族自治县| 旬邑县| 台中市| 泰宁县| 高陵县| 津市市| 凤山市| 五台县| 浦东新区| 年辖:市辖区| 莲花县| 上饶市| 荆州市| 韶山市| 孝昌县| 岳阳市| 诸暨市| 方山县| 同仁县| 来凤县| 瑞安市| 高邑县| 仪陇县| 舞钢市| 湾仔区| 定安县| 鲜城| 河池市| 红桥区| 万安县| 陕西省| 宁武县| 余江县| 仁化县| 榕江县| 浪卡子县| 朝阳县| 龙岩市| 定陶县|