2天對lucene以及搜素引擎的一些了解

          說起搜索引擎或許大家都并不陌生。
          google 百度大家都用過的。
          但是你是否對其實現(xiàn)有個概念呢?
          昨天開始自己慢慢弄lucene,對其也有一點的了解了。
          至少不再是剛?cè)腴T什么也不懂的那種了。
          一下是自己的理解:
          搜索引擎實現(xiàn)功能應(yīng)該大體分為2部分。
          一、建立索引。雖然自己現(xiàn)在做的很有限,只是在文本文件下或是內(nèi)存中建立的,而其信息的采集可以是自己的數(shù)據(jù)庫中的,這個大家可以結(jié)合自己的數(shù)據(jù)庫jdbc編程。完全可以實現(xiàn)的,還有一個就高深一點的。來自網(wǎng)絡(luò)中的網(wǎng)頁,Google baidu的信息采集都是用爬蟲工具的。它如何實現(xiàn)的自己還不是很知道,以后這個在研究。反正就是把采集到的信息進行處理,使其在電腦中存在一個檢索。
          二、通過檢索電腦檢索信息,而達到搜索的用法。這中檢索機制自己還沒有深入研究,畢竟只學(xué)習(xí)了2天。

          ps:網(wǎng)絡(luò)爬蟲占用帶寬的,網(wǎng)上說Google爬蟲做的很好,似乎強大過百度的,Google的爬蟲不會再同一個IP中存在2個以上的爬蟲。

          posted on 2009-03-08 11:13 duduli 閱讀(289) 評論(0)  編輯  收藏 所屬分類: java

          <2009年3月>
          22232425262728
          1234567
          891011121314
          15161718192021
          22232425262728
          2930311234

          導(dǎo)航

          統(tǒng)計

          公告

          welcome to my place.

          常用鏈接

          留言簿(5)

          我參與的團隊

          隨筆分類

          隨筆檔案

          新聞分類

          石頭JAVA擺地攤兒

          搜索

          積分與排名

          最新評論

          閱讀排行榜

          評論排行榜

          @duduli
          主站蜘蛛池模板: 溆浦县| 宜黄县| 仁化县| 永宁县| 集贤县| 辽阳县| 白银市| 内黄县| 澎湖县| 五河县| 郴州市| 临高县| 鹿泉市| 通州市| 鹿邑县| 民丰县| 扬中市| 霍林郭勒市| 名山县| 荆门市| 晋中市| 定襄县| 枞阳县| 阆中市| 湘潭县| 抚顺县| 封丘县| 延川县| 正定县| 霍林郭勒市| 广昌县| 紫云| 海城市| 鲁山县| 那坡县| 景泰县| 靖州| 青铜峡市| 岳普湖县| 台北市| 台湾省|