首頁新隨筆新文章聯(lián)系聚合

posts - 6,comments - 56,trackbacks - 1

2025年7月

>

日

一

二

三

四

五

六

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

QQ: 315480381
MSN: wangsq777@126.com

常用鏈接

留言簿(2)

隨筆分類

生活的滋味(3)

隨筆檔案

文章分類

文章檔案

相冊

博客

cloudgamer (js)
heimeiyingwang

JACK
kekemao1
liaojiyong
macaque1101（oracle）
一個不錯的BOLG
小何
小鞏子
李少群（jsf）
銀河使者

幫助

HTML CSS
JPA 批注參考
天氣預(yù)報樣式天氣預(yù)報代碼和演示
常用廣告代碼
顏色代碼

看見的好東西

網(wǎng)站

Appfuse中文論壇
hibernate官方網(wǎng)
itpub技術(shù)門戶網(wǎng)站
java開源
JAVA解決之道
JS 無憂腳本論壇
PHP社區(qū)
spring 參考手冊
spring 官方網(wǎng)站
spring中文論壇
滿江紅

搜索

閱讀排行榜

評論排行榜

lucene-2.0學(xué)習(xí)文檔

http://www.javaeye.com/search?classify=topic&keyword=lucene-2.0%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3

Compass
http://www.360doc.com/showWeb/0/14/357563.aspx

我寫了一個通用的例子呵呵不知道好不好 http://www.aygfsteel.com/Files/Crying/全文檢索.rar

Lucene 簡介

Lucene 是一個基于 Java 的全文信息檢索工具包，它不是一個完整的搜索應(yīng)用程序，而是為你的應(yīng)用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一個開源項目。也是目前最為流行的基于 Java 開源全文檢索工具包。

目前已經(jīng)有很多應(yīng)用程序的搜索功能是基于 Lucene 的，比如 Eclipse 的幫助系統(tǒng)的搜索功能。Lucene 能夠為文本類型的數(shù)據(jù)建立索引，所以你只要能把你要索引的數(shù)據(jù)格式轉(zhuǎn)化的文本的，Lucene 就能對你的文檔進行索引和搜索。比如你要對一些 HTML 文檔，PDF 文檔進行索引的話你就首先需要把 HTML 文檔和 PDF 文檔轉(zhuǎn)化成文本格式的，然后將轉(zhuǎn)化后的內(nèi)容交給 Lucene 進行索引，然后把創(chuàng)建好的索引文件保存到磁盤或者內(nèi)存中，最后根據(jù)用戶輸入的查詢條件在索引文件上進行查詢。不指定要索引的文檔的格式也使 Lucene 能夠幾乎適用于所有的搜索應(yīng)用程序。

圖 1 表示了搜索應(yīng)用程序和 Lucene 之間的關(guān)系，也反映了利用 Lucene 構(gòu)建搜索應(yīng)用程序的流程：

圖1. 搜索應(yīng)用程序和 Lucene 之間的關(guān)系

索引和搜索

索引是現(xiàn)代搜索引擎的核心，建立索引的過程就是把源數(shù)據(jù)處理成非常方便查詢的索引文件的過程。為什么索引這么重要呢，試想你現(xiàn)在要在大量的文檔中搜索含有某個關(guān)鍵詞的文檔，那么如果不建立索引的話你就需要把這些文檔順序的讀入內(nèi)存，然后檢查這個文章中是不是含有要查找的關(guān)鍵詞，這樣的話就會耗費非常多的時間，想想搜索引擎可是在毫秒級的時間內(nèi)查找出要搜索的結(jié)果的。這就是由于建立了索引的原因，你可以把索引想象成這樣一種數(shù)據(jù)結(jié)構(gòu)，他能夠使你快速的隨機訪問存儲在索引中的關(guān)鍵詞，進而找到該關(guān)鍵詞所關(guān)聯(lián)的文檔。Lucene 采用的是一種稱為反向索引（inverted index）的機制。反向索引就是說我們維護了一個詞/短語表，對于這個表中的每個詞/短語，都有一個鏈表描述了有哪些文檔包含了這個詞/短語。這樣在用戶輸入查詢條件的時候，就能非?？斓牡玫剿阉鹘Y(jié)果。我們將在本系列文章的第二部分詳細介紹 Lucene 的索引機制，由于 Lucene 提供了簡單易用的 API，所以即使讀者剛開始對全文本進行索引的機制并不太了解，也可以非常容易的使用 Lucene 對你的文檔實現(xiàn)索引。

對文檔建立好索引后，就可以在這些索引上面進行搜索了。搜索引擎首先會對搜索的關(guān)鍵詞進行解析，然后再在建立好的索引上面進行查找，最終返回和用戶輸入的關(guān)鍵詞相關(guān)聯(lián)的文檔。

posted on 2007-12-29 09:06 Crying 閱讀(277) 評論(0) 編輯收藏所屬分類: lucene-2.0與compass

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理