国产精品初高中精品久久,www在线播放,日韩电影中文亚洲精品乱码

linux java 數據庫 Ajax 設計模式。。。

2天對lucene以及搜素引擎的一些了解

說起搜索引擎或許大家都并不陌生。
google 百度大家都用過的。
但是你是否對其實現有個概念呢？
昨天開始自己慢慢弄lucene，對其也有一點的了解了。
至少不再是剛入門什么也不懂的那種了。
一下是自己的理解：
搜索引擎實現功能應該大體分為2部分。
一、建立索引。雖然自己現在做的很有限，只是在文本文件下或是內存中建立的，而其信息的采集可以是自己的數據庫中的，這個大家可以結合自己的數據庫jdbc編程。完全可以實現的，還有一個就高深一點的。來自網絡中的網頁，Google baidu的信息采集都是用爬蟲工具的。它如何實現的自己還不是很知道，以后這個在研究。反正就是把采集到的信息進行處理，使其在電腦中存在一個檢索。
二、通過檢索電腦檢索信息，而達到搜索的用法。這中檢索機制自己還沒有深入研究，畢竟只學習了2天。

ps：網絡爬蟲占用帶寬的，網上說Google爬蟲做的很好，似乎強大過百度的，Google的爬蟲不會再同一個IP中存在2個以上的爬蟲。

posted on 2009-03-08 11:13 duduli 閱讀(289) 評論(0) 編輯收藏所屬分類: java

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問
相關文章: android版本二維碼名片管理器1.0 版本發布很久沒更新了。 java基礎方法（九）--數字變成漢字 Java基礎方法（八）---圖片驗證中的圖片的產生 java基礎方法（七）--Java自己的自動運行（二），當前時間秒鐘是否為0 java基礎方法（六）--Java自己的自動運行（一） Java基礎方法（五）Java中的擴展（二）截取到某個字符串的第n個到第m個 java基礎方法（四）java中的截取擴展（一），到第幾個你需要查詢的字 java基礎方法（三）java驗證（二）數字相加 java基礎類（二）隨機插入數字，并對用戶的輸入進行校驗