亚洲欧美日韩在线不卡,av在线电影网,aⅴ色国产欧美

wyl — Fri, 19 Sep 2008 03:19:00 GMT

�?Lucene 加�?Web 搜烦应用�E�序的开�?/h1>

�U�别�Q?中��

�?��L�� (zhoudengpeng@yahoo.com.cn), 软�g工程�? 上�v交通大�?br />

2006 �q?9 �?06 �?/p>

Lucene 是基�?Java 的全文信息检索包�Q�它目前�?Apache Jakarta 家族下面的一个开源项目。在�q�篇文章中，我们首先来看如何利用 Lucene 实现高��搜烦功能�Q�然后学�?f��n)如何利�?Lucene 来创��Z��个健壮的 Web 搜烦应用�E�序�?/blockquote>
在本��文章中�Q�你�?x��)学习(f��n)到如何利�?Lucene 实现高��搜烦功能以及如何利用 Lucene 来创�?Web 搜烦应用�E�序。通过�q�些学习(f��n)�Q�你��可以利�?Lucene 来创��q��搜烦应用�E�序�?/p>
架构概览

通常一�?Web 搜烦引擎的架构分为前端和后端两部分，��像图一中所�C�。在前端��程中，用户在搜索引擎提供的界面中输入要搜烦的关键词�Q�这里提到的用户界面一般是一个带有输入框�?Web ��面�Q�然后应用程序将搜烦的关键词解析成搜索引擎可以理解的形式�Q��ƈ在烦引文件上�q�行搜烦操作。在排序后，搜烦引擎�q�回搜烦�l�果�l�用戗��在后端��程中，�|�络爬虫或者机器�h从因特网上获�?Web ��面�Q�然后烦引子�pȝ��解析�q�些 Web ��面�q�存入烦引文件中。如果你惛_��?Lucene 来创��Z��?Web 搜烦应用�E�序�Q�那么它的架构也和上面所描述的类��|��如图一中所�C��?/p>
Figure 1. Web 搜烦引擎架构

利用 Lucene 实现高��搜烦

Lucene 支持多种形式的高�U�搜索，我们在这一部分中会(x��)�q�行探讨�Q�然后我�?x��)��?Lucene �?API 来演�C�如何实现这些高�U�搜索功能�?/p>
布尔操作�W?/span>

大多数的搜烦引擎都会(x��)提供布尔操作�W�让用户可以�l�合查询�Q�典型的布尔操作�W�有 AND, OR, NOT。Lucene 支持 5 �U�布?y��u)��(d��ng)操作符�Q�分别是 AND, OR, NOT, �?+), �?-)。接下来我会(x��)讲述每个操作�W�的用法�?

OR: 如果你要搜烦含有字符 A 或�?B 的文档，那么��需要��?OR 操作�W�。需要记住的是，如果你只是简单的用空格将两个关键词分割开�Q�其实在搜烦的时候搜索引擎会(x��)自动在两个关键词之间加上 OR 操作�W�。例如，“Java OR Lucene” �?“Java Lucene” 都是搜烦含有 Java 或者含�?Lucene 的文档�?
AND: 如果你需要搜索包含一个以上关键词的文档，那么��需要��?AND 操作�W�。例如，“Java AND Lucene” �q�回所有既包含 Java 又包�?Lucene 的文档�?
NOT: Not 操作�W��得包含紧跟在 NOT 后面的关键词的文档不�?x��)被�q�回。例如，如果你想搜烦所有含�?Java 但不含有 Lucene 的文档，你可以��用查询语�?“Java NOT Lucene”。但是你不能只对一个搜索词使用�q�个操作�W�，比如�Q�查询语�?“NOT Java” 不会(x��)�q�回��M��l�果�?
加号�Q?�Q?/strong>: �q�个操作�W�的作用�?AND 差不多，但它只对紧跟着它的一个搜索词起作用。例如，如果你想搜烦一定包�?Java�Q�但不一定包�?Lucene 的文档，��可以��用查询语�?#8220;+Java Lucene”�?
减号�Q?�Q?/strong>: �q�个操作�W�的功能�?NOT 一��P��查询语句 “Java -Lucene” �q�回所有包�?Java 但不包含 Lucene 的文档�?

接下来我们看一下如何利�?Lucene 提供�?API 来实现布?y��u)��(d��ng)查询�?a cmimpressionsent="1">清单1 昄��了如果利用布?y��u)��(d��ng)操作符�q�行查询的过�E��?/p>
清单1�Q��用布?y��u)��(d��ng)操作�?/strong>

//Test boolean operator public void testOperator(String indexDirectory) throws Exception{ Directory dir = FSDirectory.getDirectory(indexDirectory,false); IndexSearcher indexSearcher = new IndexSearcher(dir); String[] searchWords = {"Java AND Lucene", "Java NOT Lucene", "Java OR Lucene", "+Java +Lucene", "+Java -Lucene"}; Analyzer language = new StandardAnalyzer(); Query query; for(int i = 0; i < searchWords.length; i++){ query = QueryParser.parse(searchWords[i], "title", language); Hits results = indexSearcher.search(query); System.out.println(results.length() + "search results for query " + searchWords[i]); } }

域搜�?Field Search)

Lucene 支持域搜索，你可以指定一�ơ查询是在哪些域(Field)上进行。例如，如果索引的文档包含两个域�Q?code>Title �?Content�Q�你��可以��用查�?“Title: Lucene AND Content: Java” 来返回所有在 Title 域上包含 Lucene �q�且�?Content 域上包含 Java 的文档�?a cmimpressionsent="1">清单 2 昄��了如何利�?Lucene �?API 来实现域搜烦�?

清单2�Q�实现域搜烦

//Test field search public void testFieldSearch(String indexDirectory) throws Exception{ Directory dir = FSDirectory.getDirectory(indexDirectory,false); IndexSearcher indexSearcher = new IndexSearcher(dir); String searchWords = "title:Lucene AND content:Java"; Analyzer language = new StandardAnalyzer(); Query query = QueryParser.parse(searchWords, "title", language); Hits results = indexSearcher.search(query); System.out.println(results.length() + "search results for query " + searchWords); }

通配�W�搜�?Wildcard Search)

Lucene 支持两种通配�W�：(x��)问号�Q�？�Q�和星号�Q?�Q�。你可以使用问号�Q�？�Q�来�q�行单字�W�的通配�W�查询，或者利用星��P��*�Q�进行多字符的通配�W�查询。例如，如果你想搜烦 tiny 或�?tony�Q�你��可以��用查询语�?“t?ny”�Q�如果你��x��?Teach, Teacher �?Teaching�Q�你��可以��用查询语�?“Teach*”�?a cmimpressionsent="1">清单3 昄��了通配�W�查询的�q�程�?

清单3�Q�进行通配�W�查�?/strong>

//Test wildcard search public void testWildcardSearch(String indexDirectory)throws Exception{ Directory dir = FSDirectory.getDirectory(indexDirectory,false); IndexSearcher indexSearcher = new IndexSearcher(dir); String[] searchWords = {"tex*", "tex?", "?ex*"}; Query query; for(int i = 0; i < searchWords.length; i++){ query = new WildcardQuery(new Term("title",searchWords[i])); Hits results = indexSearcher.search(query); System.out.println(results.length() + "search results for query " + searchWords[i]); } }

模糊查询

Lucene 提供的模�p�查询基于编辑距��ȝ��?Edit distance algorithm)。你可以在搜索词的尾部加上字�W?~ 来进行模�p�查询。例如，查询语句 “think~” �q�回所有包含和 think �c�M��的关键词的文档�?a cmimpressionsent="1">清单 4 昄��了如果利�?Lucene �?API �q�行模糊查询的代码�?

清单4�Q�实现模�p�查�?/strong>

//Test fuzzy search public void testFuzzySearch(String indexDirectory)throws Exception{ Directory dir = FSDirectory.getDirectory(indexDirectory,false); IndexSearcher indexSearcher = new IndexSearcher(dir); String[] searchWords = {"text", "funny"}; Query query; for(int i = 0; i < searchWords.length; i++){ query = new FuzzyQuery(new Term("title",searchWords[i])); Hits results = indexSearcher.search(query); System.out.println(results.length() + "search results for query " + searchWords[i]); } }

范围搜烦(Range Search)

范围搜烦匚w��某个域上的值在一定范围的文档。例如，查询 “age:[18 TO 35]” �q�回所�?age 域上的值在 18 �?35 之间的文档�?a cmimpressionsent="1">清单5昄��了利�?Lucene �?API �q�行�q�回搜烦的过�E��?

清单5�Q�测试范围搜�?/strong>

//Test range search public void testRangeSearch(String indexDirectory)throws Exception{ Directory dir = FSDirectory.getDirectory(indexDirectory,false); IndexSearcher indexSearcher = new IndexSearcher(dir); Term begin = new Term("birthDay","20000101"); Term end = new Term("birthDay","20060606"); Query query = new RangeQuery(begin,end,true); Hits results = indexSearcher.search(query); System.out.println(results.length() + "search results is returned"); }

回页�?/strong>

�?Web 应用�E�序中集�?Lucene

接下来我们开发一�?Web 应用�E�序利用 Lucene 来检索存攑֜�文�g服务器上�?HTML 文档。在开始之前，需要准备如下环境：(x��)

Eclipse 集成开发环�?
Tomcat 5.0
Lucene Library
JDK 1.5

�q�个例子使用 Eclipse �q�行 Web 应用�E�序的开发，最�l�这�?Web 应用�E�序跑在 Tomcat 5.0 上面。在准备好开发所必需的环境之后，我们接下来进�?Web 应用�E�序的开发�?

1、创��Z��个动�?Web ��目

�?Eclipse 里面�Q�选择 File > New > Project�Q�然后再弹出的窗口中选择动�?Web ��目�Q�如图二所�C��?

图二�Q�创建动态Web��目

在创建好动�?Web ��目之后�Q�你�?x��)看到创建好的项目的�l�构�Q�如图三所�C�，��目的名�U�Cؓ(f��) sample.dw.paper.lucene�?

图三�Q�动�?Web ��目的结�?/strong>

2. 设计 Web ��目的架�?/span>

在我们的设计中，把该�pȝ��分成如下四个子系�l�：(x��)

用户接口: �q�个子系�l�提供用��L(f��ng)��面��用户可以�?Web 应用�E�序服务器提交搜索请求，然后搜烦�l�果通过用户接口来显�C�出来。我们用一个名�?search.jsp 的页面来实现该子�pȝ��?
��h��理�?/strong>: �q�个子系�l�管理从客户端发送过来的搜烦��h��q�把搜烦��h��分发到搜索子�pȝ��中。最后搜索结果从搜烦子系�l�返回�ƈ最�l�发送到用户接口子系�l�。我们��用一�?Servlet 来实现这个子�pȝ��?
搜烦子系�l?/strong>: �q�个子系�l�负责在索引文�g上进行搜索�ƈ把搜索结构传递给��h��理器。我们��?Lucene 提供�?API 来实现该子系�l��?
索引子系�l?/strong>: �q�个子系�l�用来�ؓ(f��) HTML ��面来创建烦引。我们��?Lucene �?API 以及 Lucene 提供的一�?HTML 解析器来创徏该子�pȝ��?

�? 昄��了我们设计的详细信息�Q�我们将用户接口子系�l�放�?webContent 目录下面。你�?x��)看��C��个名�?search.jsp 的页面在�q�个文�g多w��面。请求管理子�pȝ��在包 sample.dw.paper.lucene.servlet 下面�Q�类 SearchController 负责功能的实现。搜索子�pȝ��攑֜��?sample.dw.paper.lucene.search 当中�Q�它包含了两个类�Q?code>SearchManager �?SearchResultBean�Q�第一个类用来实现搜烦功能�Q�第二个�cȝ��来描�q�搜索结果的�l�构。烦引子�pȝ��攑֜��?sample.dw.paper.lucene.index 当中。类 IndexManager 负责�?HTML 文�g创徏索引。该子系�l�利用包 sample.dw.paper.lucene.util 里面的类 HTMLDocParser 提供的方�?getTitle �?getContent 来对 HTML ��面�q�行解析�?

囑֛��Q�项目的架构设计

3. 子系�l�的实现

在分析了�pȝ��的架构设计之后，我们接下来看�pȝ��实现的详�l�信息�?

用户接口: �q�个子系�l�有一个名�?search.jsp �?JSP 文�g来实玎ͼ��q�个 JSP ��面包含两个部分。第一部分提供了一个用��h��口去�?Web 应用�E�序服务器提交搜索请求，�?a cmimpressionsent="1">�?所�C�。注意到�q�里的搜索请求发送到了一个名�?SearchController �?Servlet 上面。Servlet 的名字和具体实现的类的对应关�p�d�� web.xml 里面指定�?

�?�Q�向Web服务器提交搜索请�?/strong>

�q�个JSP的第二部分负责显�C�搜索结果给用户�Q�如�?所�C�：(x��)

�?�Q�显�C�搜索结�?/strong>

��h��理�?/strong>: 一个名�?SearchController �?servlet 用来实现该子�pȝ��?a cmimpressionsent="1">清单�Q?/a>�l�出了这个类的源代码�?

清单�Q�：(x��)��h��理器的实现

package sample.dw.paper.lucene.servlet; import java.io.IOException; import java.util.List; import javax.servlet.RequestDispatcher; import javax.servlet.ServletException; import javax.servlet.http.HttpServlet; import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServletResponse; import sample.dw.paper.lucene.search.SearchManager; /** * This servlet is used to deal with the search request * and return the search results to the client */ public class SearchController extends HttpServlet{ private static final long serialVersionUID = 1L; public void doPost(HttpServletRequest request, HttpServletResponse response) throws IOException, ServletException{ String searchWord = request.getParameter("searchWord"); SearchManager searchManager = new SearchManager(searchWord); List searchResult = null; searchResult = searchManager.search(); RequestDispatcher dispatcher = request.getRequestDispatcher("search.jsp"); request.setAttribute("searchResult",searchResult); dispatcher.forward(request, response); } public void doGet(HttpServletRequest request, HttpServletResponse response) throws IOException, ServletException{ doPost(request, response); } }

�?a cmimpressionsent="1">清单6中，doPost �Ҏ(gu��)��从客��L(f��ng)��获取搜烦词�ƈ创徏�c?SearchManager 的一个实例，其中�c?SearchManager 在搜索子�pȝ��中进行了定义。然后，SearchManager 的方�?search �?x��)被调用。最后搜索结果被�q�回到客��L(f��ng)��?

搜烦子系�l?/strong>: 在这个子�pȝ��中，我们定义了两个类�Q?code>SearchManager �?SearchResultBean。第一个类用来实现搜烦功能�Q�第二个�c�L��个JavaBean�Q�用来描�q�搜索结果的�l�构�?a cmimpressionsent="1">清单7�l�出了类 SearchManager 的源代码�?

清单7�Q�搜索功能的实现

package sample.dw.paper.lucene.search; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.queryParser.ParseException; import org.apache.lucene.queryParser.QueryParser; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import sample.dw.paper.lucene.index.IndexManager; /** * This class is used to search the * Lucene index and return search results */ public class SearchManager { private String searchWord; private IndexManager indexManager; private Analyzer analyzer; public SearchManager(String searchWord){ this.searchWord = searchWord; this.indexManager = new IndexManager(); this.analyzer = new StandardAnalyzer(); } /** * do search */ public List search(){ List searchResult = new ArrayList(); if(false == indexManager.ifIndexExist()){ try { if(false == indexManager.createIndex()){ return searchResult; } } catch (IOException e) { e.printStackTrace(); return searchResult; } } IndexSearcher indexSearcher = null; try{ indexSearcher = new IndexSearcher(indexManager.getIndexDir()); }catch(IOException ioe){ ioe.printStackTrace(); } QueryParser queryParser = new QueryParser("content",analyzer); Query query = null; try { query = queryParser.parse(searchWord); } catch (ParseException e) { e.printStackTrace(); } if(null != query >> null != indexSearcher){ try { Hits hits = indexSearcher.search(query); for(int i = 0; i < hits.length(); i ++){ SearchResultBean resultBean = new SearchResultBean(); resultBean.setHtmlPath(hits.doc(i).get("path")); resultBean.setHtmlTitle(hits.doc(i).get("title")); searchResult.add(resultBean); } } catch (IOException e) { e.printStackTrace(); } } return searchResult; } }

�?a cmimpressionsent="1">清单7中，注意到在�q�个�c�里面有三个�U�有属性。第一个是 searchWord�Q�代表了来自客户端的搜烦词。第二个�?indexManager�Q�代表了在烦引子�pȝ��中定义的�c?IndexManager 的一个实例。第三个�?analyzer�Q�代表了用来解析搜烦词的解析器。现在我们把注意力放在方�?search 上面。这个方法首先检查烦引文件是否已�l�存在，如果已经存在�Q�那么就在已�l�存在的索引上进行检索，如果不存在，那么首先调用�c?IndexManager 提供的方法来创徏索引�Q�然后在新创建的索引上进行检索。搜索结果返回后�Q�这个方法从搜烦�l�果中提取出需要的属性�ƈ为每个搜索结果生成类 SearchResultBean 的一个实例。最后这�?SearchResultBean 的实例被攑ֈ�一个列表里面�ƈ�q�回�l�请求管理器�?/p>
在类 SearchResultBean 中，含有两个属性，分别�?htmlPath �?htmlTitle�Q�以及这个两个属性的 get �?set �Ҏ(gu��)��。这也意味着我们的搜索结果包含两个属性：(x��)htmlPath �?htmlTitle�Q�其�?htmlPath 代表�?HTML 文�g的�\径，htmlTitle 代表�?HTML 文�g的标题�?

索引子系�l?/strong>: �c?IndexManager 用来实现�q�个子系�l��?a cmimpressionsent="1">清单8 �l�出了这个类的源代码�?

清单8�Q�烦引子�pȝ��的实�?/strong>

package sample.dw.paper.lucene.index; import java.io.File; import java.io.IOException; import java.io.Reader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; import sample.dw.paper.lucene.util.HTMLDocParser; /** * This class is used to create an index for HTML files * */ public class IndexManager { //the directory that stores HTML files private final String dataDir = "c:\\dataDir"; //the directory that is used to store a Lucene index private final String indexDir = "c:\\indexDir"; /** * create index */ public boolean createIndex() throws IOException{ if(true == ifIndexExist()){ return true; } File dir = new File(dataDir); if(!dir.exists()){ return false; } File[] htmls = dir.listFiles(); Directory fsDirectory = FSDirectory.getDirectory(indexDir, true); Analyzer analyzer = new StandardAnalyzer(); IndexWriter indexWriter = new IndexWriter(fsDirectory, analyzer, true); for(int i = 0; i < htmls.length; i++){ String htmlPath = htmls[i].getAbsolutePath(); if(htmlPath.endsWith(".html") || htmlPath.endsWith(".htm")){ addDocument(htmlPath, indexWriter); } } indexWriter.optimize(); indexWriter.close(); return true; } /** * Add one document to the Lucene index */ public void addDocument(String htmlPath, IndexWriter indexWriter){ HTMLDocParser htmlParser = new HTMLDocParser(htmlPath); String path = htmlParser.getPath(); String title = htmlParser.getTitle(); Reader content = htmlParser.getContent(); Document document = new Document(); document.add(new Field("path",path,Field.Store.YES,Field.Index.NO)); document.add(new Field("title",title,Field.Store.YES,Field.Index.TOKENIZED)); document.add(new Field("content",content)); try { indexWriter.addDocument(document); } catch (IOException e) { e.printStackTrace(); } } /** * judge if the index exists already */ public boolean ifIndexExist(){ File directory = new File(indexDir); if(0 < directory.listFiles().length){ return true; }else{ return false; } } public String getDataDir(){ return this.dataDir; } public String getIndexDir(){ return this.indexDir; } }

�q�个�c�d��含两个私有属性，分别�?dataDir �?indexDir�?code>dataDir 代表存放�{�待�q�行索引�?HTML ��面的�\径，indexDir 代表了存�?Lucene 索引文�g的�\径。类 IndexManager 提供了三个方法，分别�?createIndex, addDocument �?ifIndexExist。如果烦引不存在的话�Q�你可以使用�Ҏ(gu��)�� createIndex ��d��Z��个新的烦引，用方�?addDocument ��d��一个烦引上��d��文档。在我们的场景中�Q�一个文档就是一�?HTML ��面。方�?addDocument �?x��)调用由�c?HTMLDocParser 提供的方法对 HTML 文档�q�行解析。你可以使用最后一个方�?ifIndexExist 来判�?Lucene 的烦引是否已�l�存在�?

现在我们来看一下放在包 sample.dw.paper.lucene.util 里面的类 HTMLDocParser。这个类用来�?HTML 文�g中提取出文本信息。这个类包含三个�Ҏ(gu��)��Q�分别是 getContent�Q?code>getTitle �?getPath。第一个方法返回去除了 HTML 标记的文本内容，�W�二个方法返�?HTML 文�g的标题，最后一个方法返�?HTML 文�g的�\径�?a cmimpressionsent="1">清单9 �l�出了这个类的源代码�?

清单9�Q�HTML 解析�?/strong>

package sample.dw.paper.lucene.util; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.io.Reader; import java.io.UnsupportedEncodingException; import org.apache.lucene.demo.html.HTMLParser; public class HTMLDocParser { private String htmlPath; private HTMLParser htmlParser; public HTMLDocParser(String htmlPath){ this.htmlPath = htmlPath; initHtmlParser(); } private void initHtmlParser(){ InputStream inputStream = null; try { inputStream = new FileInputStream(htmlPath); } catch (FileNotFoundException e) { e.printStackTrace(); } if(null != inputStream){ try { htmlParser = new HTMLParser(new InputStreamReader(inputStream, "utf-8")); } catch (UnsupportedEncodingException e) { e.printStackTrace(); } } } public String getTitle(){ if(null != htmlParser){ try { return htmlParser.getTitle(); } catch (IOException e) { e.printStackTrace(); } catch (InterruptedException e) { e.printStackTrace(); } } return ""; } public Reader getContent(){ if(null != htmlParser){ try { return htmlParser.getReader(); } catch (IOException e) { e.printStackTrace(); } } return null; } public String getPath(){ return this.htmlPath; } }

5�Q�在 Tomcat 5.0 上运行应用程�?/span>

现在我们可以�?Tomcat 5.0 上运行开发好的应用程序�?

右键单击 search.jsp�Q�然后选择 Run as > Run on Server�Q�如�?所�C��?

�?�Q�配�|?Tomcat 5.0

在弹出的�H�口中，选择 Tomcat v5.0 Server 作�ؓ(f��)目标 Web 应用�E�序服务器，然后点击 Next�Q�如�? 所�C�：(x��)

�?�Q�选择 Tomcat 5.0

现在需要指定用来运�?Web 应用�E�序�?Apache Tomcat 5.0 以及 JRE 的�\径。这里你所选择�?JRE 的版本必��d��你用来编�?Java 文�g�?JRE 的版本一致。配�|�好之后�Q�点�?Finish。如 �? 所�C��?

�?�Q�完成Tomcat 5.0的配�|?/strong>

配置好之后，Tomcat �?x��)自动运行，�q�且�?x��)�?search.jsp �q�行�~�译�q�显�C�给用户。如 �?0 所�C��?

�?0�Q�用��L(f��ng)��?/strong>

在输入框中输入关键词 “information” 然后单击 Search 按钮。然后这个页面上�?x��)显�C�出搜烦�l�果来，�?�?1 所�C��?

�?1�Q�搜索结�?/strong>

单击搜烦�l�果的第一个链接，��面上就�?x��)显�C�出所链接到的��面的内宏V��如 �?2 所�C?

�?2�Q�详�l�信�?/strong>

现在我们已经成功的完成了�C�Z��目的开发，�q�成功的用Lucene实现了搜索和索引功能。你可以下蝲�q�个��目的源代码�Q?a cmimpressionsent="1">下蝲�Q��?

回页�?/strong>

�ȝ��

Lucene 提供了灵�zȝ��接口使我们更加方便的设计我们�?Web 搜烦应用�E�序。如果你惛_��你的应用�E�序中加入搜索功能，那么 Lucene 是一个很好的选择。在设计你的下一个带有搜索功能的应用�E�序的时候可以考虑使用 Lucene 来提供搜索功能�?/p>

wyl 2008-09-19 11:19 发表评论

实战 Lucene�Q�第 1 部分: 初识 Lucene

wyl — Fri, 19 Sep 2008 03:16:00 GMT

�U�别�Q?初��

�?周登 (zhoudengpeng@yahoo.com.cn), 软�g工程�?br />

2006 �q?4 �?20 �?/p>
本文首先介绍了Lucene的一些基本概念，然后开发了一个应用程序演�C�Z��利用Lucene建立索引�q�在该烦引上�q�行搜烦的过�E��?/blockquote>
Lucene ��?/span>

Lucene 是一个基�?Java 的全文信息检索工具包�Q�它不是一个完整的搜烦应用�E�序�Q�而是��Z��的应用程序提供烦引和搜烦功能。Lucene 目前�?Apache Jakarta 家族中的一个开源项目。也是目前最为流行的��Z�� Java 开源全文检索工具包�?/p>
目前已经有很多应用程序的搜烦功能是基�?Lucene 的，比如 Eclipse 的帮助系�l�的搜烦功能。Lucene 能够为文本类型的数据建立索引�Q�所以你只要能把你要索引的数据格式�{化的文本的，Lucene ��p��对你的文档进行烦引和搜烦。比如你要对一�?HTML 文档�Q�PDF 文档�q�行索引的话你就首先需要把 HTML 文档�?PDF 文档转化成文本格式的�Q�然后将转化后的内容交给 Lucene �q�行索引�Q�然后把创徏好的索引文�g保存到磁盘或者内存中�Q�最后根据用戯��入的查询条�g在烦引文件上�q�行查询。不指定要烦引的文档的格式也�?Lucene 能够几乎适用于所有的搜烦应用�E�序�?/p>
�?1 表示了搜索应用程序和 Lucene 之间的关�p�，也反映了利用 Lucene 构徏搜烦应用�E�序的流�E�：(x��)

�?. 搜烦应用�E�序�?Lucene 之间的关�p?/strong>

回页�?/strong>

索引和搜�?/span>

索引是现代搜索引擎的核心�Q�徏立烦引的�q�程��是把源数据处理成非常方便查询的索引文�g的过�E�。�ؓ(f��)什么烦引这么重要呢�Q�试想你现在要在大量的文档中搜烦含有某个关键词的文档�Q�那么如果不建立索引的话你就需要把�q�些文档��序的读入内存，然后��查这个文章中是不是含有要查找的关键词�Q�这��L(f��ng)��话就�?x��)耗费非常多的旉��Q�想��x��索引擎可是在毫秒�U�的旉��内查扑և�要搜索的�l�果的。这��是�׃��建立了烦引的原因�Q�你可以把烦引想象成�q�样一�U�数据结构，他能够��你快速的随机讉K��存储在烦引中的关键词�Q�进而找到该关键词所兌��的文档。Lucene 采用的是一�U�称为反向烦引（inverted index�Q�的机制。反向烦引就是说我们�l�护了一个词/短语表，对于�q�个表中的每个词/短语�Q�都有一个链表描�q�C��有哪些文档包含了�q�个�?短语。这样在用户输入查询条�g的时候，��p��非常快的得到搜烦�l�果。我们将在本�p�d��文章的第二部分详�l�介�l?Lucene 的烦引机�Ӟ��׃�� Lucene 提供了简单易用的 API�Q�所以即使读者刚开始对全文本进行烦引的机制�q�不太了解，也可以非常容易的使用 Lucene 对你的文档实现烦引�?/p>
�Ҏ(gu��)��档徏立好索引后，��可以在�q�些索引上面�q�行搜烦了。搜索引擎首先会(x��)�Ҏ(gu��)��索的关键词进行解析，然后再在建立好的索引上面�q�行查找�Q�最�l�返回和用户输入的关键词相关联的文档�?/p>

回页�?/strong>

Lucene 软�g包分�?/span>

Lucene 软�g包的发布形式是一�?JAR 文�g�Q�下面我们分析一下这�?JAR 文�g里面的主要的 JAVA 包，使读者对之有个初步的了解�?/p>
Package: org.apache.lucene.document

�q�个包提供了一些�ؓ(f��)��装要烦引的文档所需要的�c�，比如 Document, Field。这��P��每一个文档最�l�被��装成了一�?Document 对象�?/p>
Package: org.apache.lucene.analysis

�q�个包主要功能是�Ҏ(gu��)��档进行分词，因�ؓ(f��)文档在徏立烦引之前必��要�q�行分词�Q�所以这个包的作用可以看成是为徏立烦引做准备工作�?/p>
Package: org.apache.lucene.index

�q�个包提供了一些类来协助创建烦引以及对创徏好的索引�q�行更新。这里面有两个基��的类�Q�IndexWriter �?IndexReader�Q�其�?IndexWriter 是用来创建烦引�ƈ��d��文档到烦引中的，IndexReader 是用来删除烦引中的文档的�?/p>
Package: org.apache.lucene.search

�q�个包提供了对在建立好的索引上进行搜索所需要的�c�R��比�?IndexSearcher �?Hits, IndexSearcher 定义了在指定的烦引上�q�行搜烦的方法，Hits 用来保存搜烦得到的结果�?/p>

回页�?/strong>

一个简单的搜烦应用�E�序

假设我们的电(sh��)脑的目录中含有很多文本文档，我们需要查扑֓�些文档含有某个关键词。�ؓ(f��)了实现这�U�功能，我们首先利用 Lucene 对这个目录中的文档徏立烦引，然后在徏立好的烦引中搜烦我们所要查扄��文档。通过�q�个例子读者会(x��)对如何利�?Lucene 构徏自己的搜索应用程序有个比较清楚的认识�?/p>

回页�?/strong>

建立索引

��Z��Ҏ(gu��)��档进行烦引，Lucene 提供了五个基��的类�Q�他们分别是 Document, Field, IndexWriter, Analyzer, Directory。下面我们分别介�l�一下这五个�cȝ��用途：(x��)

Document

Document 是用来描�q�文档的�Q�这里的文档可以指一�?HTML ��面�Q�一��电(sh��)子邮�Ӟ��或者是一个文本文件。一�?Document 对象由多�?Field 对象�l�成的。可以把一�?Document 对象惌��成数据库中的一个记录，而每�?Field 对象��是记录的一个字�D�c�?/p>
Field

Field 对象是用来描�q�C��个文档的某个属性的�Q�比如一��电(sh��)子邮件的标题和内容可以用两个 Field 对象分别描述�?/p>
Analyzer

在一个文档被索引之前�Q�首先需要对文档内容�q�行分词处理�Q�这部分工作��是�?Analyzer 来做的。Analyzer �c�L��一个抽象类�Q�它有多个实现。针对不同的语言和应用需要选择适合�?Analyzer。Analyzer 把分词后的内容交�l?IndexWriter 来徏立烦引�?/p>
IndexWriter

IndexWriter �?Lucene 用来创徏索引的一个核心的�c�，他的作用是把一个个�?Document 对象加到索引中来�?/p>
Directory

�q�个�c�M��表了 Lucene 的烦引的存储的位�|�，�q�是一个抽象类�Q�它目前有两个实玎ͼ��W�一个是 FSDirectory�Q�它表示一个存储在文�g�pȝ��中的索引的位�|�。第二个�?RAMDirectory�Q�它表示一个存储在内存当中的烦引的位置�?/p>
熟�?zh��n)�了徏立烦引所需要的�q�些�c�d��Q�我们就开始对某个目录下面的文本文件徏立烦引了�Q�清�?�l�出了对某个目录下的文本文�g建立索引的源代码�?/p>
清单 1. �Ҏ(gu��)��本文件徏立烦�?/strong>

package TestLucene; import java.io.File; import java.io.FileReader; import java.io.Reader; import java.util.Date; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; /** * This class demonstrate the process of creating index with Lucene * for text files */ public class TxtFileIndexer { public static void main(String[] args) throws Exception{ //indexDir is the directory that hosts Lucene's index files File indexDir = new File("D:\\luceneIndex"); //dataDir is the directory that hosts the text files that to be indexed File dataDir = new File("D:\\luceneData"); Analyzer luceneAnalyzer = new StandardAnalyzer(); File[] dataFiles = dataDir.listFiles(); IndexWriter indexWriter = new IndexWriter(indexDir,luceneAnalyzer,true); long startTime = new Date().getTime(); for(int i = 0; i < dataFiles.length; i++){ if(dataFiles[i].isFile() && dataFiles[i].getName().endsWith(".txt")){ System.out.println("Indexing file " + dataFiles[i].getCanonicalPath()); Document document = new Document(); Reader txtReader = new FileReader(dataFiles[i]); document.add(Field.Text("path",dataFiles[i].getCanonicalPath())); document.add(Field.Text("contents",txtReader)); indexWriter.addDocument(document); } } indexWriter.optimize(); indexWriter.close(); long endTime = new Date().getTime(); System.out.println("It takes " + (endTime - startTime) + " milliseconds to create index for the files in directory " + dataDir.getPath()); } }

在清�?中，我们注意到类 IndexWriter 的构造函数需要三个参敎ͼ��W�一个参数指定了所创徏的烦引要存放的位�|�，他可以是一�?File 对象�Q�也可以是一�?FSDirectory 对象或�?RAMDirectory 对象。第二个参数指定�?Analyzer �cȝ��一个实玎ͼ�也就是指定这个烦引是用哪个分词器�Ҏ(gu��)��挡内容进行分词。第三个参数是一个布?y��u)��(d��ng)型的变量，如果�?true 的话��׃��表创��Z��个新的烦引，�?false 的话��׃��表在原来索引的基��上进行操作。接着�E�序遍历了目录下面的所有文本文档，�q��ؓ(f��)每一个文本文档创��Z��一�?Document 对象。然后把文本文档的两个属性：(x��)路径和内容加入到了两�?Field 对象中，接着在把�q�两�?Field 对象加入�?Document 对象中，最后把�q�个文档�?IndexWriter �cȝ�� add �Ҏ(gu��)��加入到烦引中厅R��这��h��们便完成了烦引的创徏。接下来我们�q�入在徏立好的烦引上�q�行搜烦的部分�?/p>

回页�?/strong>

搜烦文档

利用Lucene�q�行搜烦��像建立索引一样也是非常方便的。在上面一部分中，我们已经��Z��个目录下的文本文档徏立好了烦引，现在我们��p��在这个烦引上�q�行搜烦以找到包含某个关键词或短语的文档。Lucene提供了几个基��的类来完成这个过�E�，它们分别是呢IndexSearcher, Term, Query, TermQuery, Hits. 下面我们分别介绍�q�几个类的功能�?/p>
Query

�q�是一个抽象类�Q�他有多个实玎ͼ�比如TermQuery, BooleanQuery, PrefixQuery. �q�个�cȝ��目的是把用户输入的查询字�W�串��装成Lucene能够识别的Query�?/p>
Term

Term是搜索的基本单位�Q�一个Term对象有两个String�c�d��的域�l�成。生成一个Term对象可以有如下一条语句来完成�Q�Term term = new Term(“fieldName”,”queryWord”); 其中�W�一个参��C��表了要在文档的哪一个Field上进行查找，�W�二个参��C��表了要查询的关键词�?/p>
TermQuery

TermQuery是抽象类Query的一个子�c�，它同时也是Lucene支持的最为基本的一个查询类。生成一个TermQuery对象由如下语句完成：(x��) TermQuery termQuery = new TermQuery(new Term(“fieldName”,”queryWord”)); 它的构造函数只接受一个参敎ͼ�那就是一个Term对象�?/p>
IndexSearcher

IndexSearcher是用来在建立好的索引上进行搜索的。它只能以只�ȝ��方式打开一个烦引，所以可以有多个IndexSearcher的实例在一个烦引上�q�行操作�?/p>
Hits

Hits是用来保存搜索的�l�果的�?/p>
介绍完这些搜索所必须的类之后�Q�我们就开始在之前所建立的烦引上�q�行搜烦了，清单2�l�出了完成搜索功能所需要的代码�?/p>
清单2 �Q�在建立好的索引上进行搜�?/strong>

package TestLucene; import java.io.File; import org.apache.lucene.document.Document; import org.apache.lucene.index.Term; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.TermQuery; import org.apache.lucene.store.FSDirectory; /** * This class is used to demonstrate the * process of searching on an existing * Lucene index * */ public class TxtFileSearcher { public static void main(String[] args) throws Exception{ String queryStr = "lucene"; //This is the directory that hosts the Lucene index File indexDir = new File("D:\\luceneIndex"); FSDirectory directory = FSDirectory.getDirectory(indexDir,false); IndexSearcher searcher = new IndexSearcher(directory); if(!indexDir.exists()){ System.out.println("The Lucene index is not exist"); return; } Term term = new Term("contents",queryStr.toLowerCase()); TermQuery luceneQuery = new TermQuery(term); Hits hits = searcher.search(luceneQuery); for(int i = 0; i < hits.length(); i++){ Document document = hits.doc(i); System.out.println("File: " + document.get("path")); } } }

在清�?中，�c�IndexSearcher的构造函数接受一个类型�ؓ(f��)Directory的对象，Directory是一个抽象类�Q�它目前有两个子�c�：(x��)FSDirctory和RAMDirectory. 我们的程序中传入了一个FSDirctory对象作�ؓ(f��)其参敎ͼ�代表了一个存储在��盘上的索引的位�|�。构造函数执行完成后�Q�代表了�q�个IndexSearcher以只�ȝ��方式打开了一个烦引。然后我们程序构造了一个Term对象�Q�通过�q�个Term对象�Q�我们指定了要在文档的内容中搜烦包含关键�?#8221;lucene”的文档。接着利用�q�个Term对象构造出TermQuery对象�q�把�q�个TermQuery对象传入到IndexSearcher的search�Ҏ(gu��)��中进行查询，�q�回的结果保存在Hits对象中。最后我们用了一个��@环语句把搜烦到的文档的�\径都打印了出来。好了，我们的搜索应用程序已�l�开发完毕，怎么��P��利用Lucene开发搜索应用程序是不是很简单�?/p>

回页�?/strong>

�ȝ��

本文首先介绍�?Lucene 的一些基本概念，然后开发了一个应用程序演�C�Z��利用 Lucene 建立索引�q�在该烦引上�q�行搜烦的过�E�。希望本文能够�ؓ(f��)学习(f��n) Lucene 的读者提供帮助�?/p>

关于作�?/span>

周登朋，软�g工程师，上�v交通大学研�I�生�Q�对 Java 技术以及信息检索技术很感兴��。�?zh��n)�可以通过 zhoudengpeng@yahoo.com.cn 与他联系�?/p>

wyl 2008-09-19 11:16 发表评论


		周登朋，软�g工程师，上�v交通大学研�I�生�Q�对 Java 技术以及信息检索技术很感兴��。�?zh��n)�可以通过 zhoudengpeng@yahoo.com.cn 与他联系�?/p>