搜索文檔
利用Lucene進(jìn)行搜索就像建立索引一樣也是非常方便的。在上面一部分中,我們已經(jīng)為一個(gè)目錄下的文本文檔建立好了索引,現(xiàn)在我們就要在這個(gè)索引上進(jìn)行搜索以找到包含某個(gè)關(guān)鍵詞或短語(yǔ)的文檔。Lucene提供了幾個(gè)基礎(chǔ)的類(lèi)來(lái)完成這個(gè)過(guò)程,它們分別是呢IndexSearcher, Term, Query, TermQuery, Hits. 下面我們分別介紹這幾個(gè)類(lèi)的功能。
Query
這是一個(gè)抽象類(lèi),他有多個(gè)實(shí)現(xiàn),比如TermQuery, BooleanQuery, PrefixQuery. 這個(gè)類(lèi)的目的是把用戶(hù)輸入的查詢(xún)字符串封裝成Lucene能夠識(shí)別的Query。
Term
Term是搜索的基本單位,一個(gè)Term對(duì)象有兩個(gè)String類(lèi)型的域組成。生成一個(gè)Term對(duì)象可以有如下一條語(yǔ)句來(lái)完成:Term term = new Term(“fieldName”,”queryWord”); 其中第一個(gè)參數(shù)代表了要在文檔的哪一個(gè)Field上進(jìn)行查找,第二個(gè)參數(shù)代表了要查詢(xún)的關(guān)鍵詞。
TermQuery
TermQuery是抽象類(lèi)Query的一個(gè)子類(lèi),它同時(shí)也是Lucene支持的最為基本的一個(gè)查詢(xún)類(lèi)。生成一個(gè)TermQuery對(duì)象由如下語(yǔ)句完成: TermQuery termQuery = new TermQuery(new Term(“fieldName”,”queryWord”)); 它的構(gòu)造函數(shù)只接受一個(gè)參數(shù),那就是一個(gè)Term對(duì)象。
IndexSearcher
IndexSearcher是用來(lái)在建立好的索引上進(jìn)行搜索的。它只能以只讀的方式打開(kāi)一個(gè)索引,所以可以有多個(gè)IndexSearcher的實(shí)例在一個(gè)索引上進(jìn)行操作。
Hits
Hits是用來(lái)保存搜索的結(jié)果的。
介紹完這些搜索所必須的類(lèi)之后,我們就開(kāi)始在之前所建立的索引上進(jìn)行搜索了,清單2給出了完成搜索功能所需要的代碼。
清單2 :在建立好的索引上進(jìn)行搜索
package TestLucene;
import java.io.File;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.store.FSDirectory;
/**
* This class is used to demonstrate the
* process of searching on an existing
* Lucene index
*
*/
public class TxtFileSearcher {
public static void main(String[] args) throws Exception{
String queryStr = "lucene";
//This is the directory that hosts the Lucene index
File indexDir = new File("D:\\luceneIndex");
FSDirectory directory = FSDirectory.getDirectory(indexDir,false);
IndexSearcher searcher = new IndexSearcher(directory);
if(!indexDir.exists()){
System.out.println("The Lucene index is not exist");
return;
}
Term term = new Term("contents",queryStr.toLowerCase());
TermQuery luceneQuery = new TermQuery(term);
Hits hits = searcher.search(luceneQuery);
for(int i = 0; i < hits.length(); i++){
Document document = hits.doc(i);
System.out.println("File: " + document.get("path"));
}
}
}
|
在清單2中,類(lèi)IndexSearcher的構(gòu)造函數(shù)接受一個(gè)類(lèi)型為Directory的對(duì)象,Directory是一個(gè)抽象類(lèi),它目前有兩個(gè)子類(lèi):FSDirctory和RAMDirectory. 我們的程序中傳入了一個(gè)FSDirctory對(duì)象作為其參數(shù),代表了一個(gè)存儲(chǔ)在磁盤(pán)上的索引的位置。構(gòu)造函數(shù)執(zhí)行完成后,代表了這個(gè)IndexSearcher以只讀的方式打開(kāi)了一個(gè)索引。然后我們程序構(gòu)造了一個(gè)Term對(duì)象,通過(guò)這個(gè)Term對(duì)象,我們指定了要在文檔的內(nèi)容中搜索包含關(guān)鍵詞”lucene”的文檔。接著利用這個(gè)Term對(duì)象構(gòu)造出TermQuery對(duì)象并把這個(gè)TermQuery對(duì)象傳入到IndexSearcher的search方法中進(jìn)行查詢(xún),返回的結(jié)果保存在Hits對(duì)象中。最后我們用了一個(gè)循環(huán)語(yǔ)句把搜索到的文檔的路徑都打印了出來(lái)。好了,我們的搜索應(yīng)用程序已經(jīng)開(kāi)發(fā)完畢,怎么樣,利用Lucene開(kāi)發(fā)搜索應(yīng)用程序是不是很簡(jiǎn)單。
|