Lucene 基础指南

RomKK — Tue, 24 Jul 2007 07:59:00 GMT

Lucene是apache�l�织的一个用java实现全文搜烦(ch��)引擎的开源项目。其功能非常的强大，但api其实很简单的�Q�它最主要��是做两件事:建立索引和进行搜索�?br>1. 建立索引时最重要的几个术�?br>
* Document�Q�一个要�q�行索引的单元，相当于数据库的一行纪录，��M��惌��被烦(ch��)引的数据�Q�都必须转化为Document对象存放�?br>* Field�Q�Document中的一个字�D�，相当于数据库中的Column �Q�Field是lucene比较多概念一个术语，详细见后�?br>* IndexWriter�Q�负责将Document写入索引文�g。通常情况�?IndexWriter的构造函数包括了(ji��n)以下3个参�?索引存放的�\�?分析器和是否重新创徏索引。特别注意的一点，当IndexWriter执行完addDocument�Ҏ(gu��)��后，一定要记得调用自��n的close�Ҏ(gu��)��来关闭它。只有在调用�?ji��n)close�Ҏ(gu��)��后，索引器才�?x��)将存放在内在中的所有内容写入磁盘�ƈ关闭输出��?br>* Analyzer:分析器，主要用于文本分词。常用的有StandardAnalyzer分析器，StopAnalyzer分析器，W(xu��)hitespaceAnalyzer分析器等�?br>* Directory:索引存放的位�|�。lucene提供�?ji��n)两�U�烦(ch��)引存攄��位置�Q�一�U�是��盘�Q�一�U�是内存。一般情况将索引攑֜��盘上；相应地l(f��)ucene提供�?ji��n)FSDirectory和RAMDirectory两个�c�R�?br>* �D�：(x��)Segment,是Lucene索引文�g的最基本的一个单位。Lucene说到底就是不断加入新的Segment�Q�然后按一定的规则��法合�ƈ不同的Segment以合成新的Segment�?br>
lucene建立索引的过�E�就是将待烦(ch��)引的对象转化为Lucene的Document对象�Q��用IndexWriter��其写入lucene 自定义格式的索引文�g中�?

待烦(ch��)引的对象可以来自文�g、数据库�{��Q意途径�Q�用戯��行编码遍历目录读取文件或者查询数据库表取得ResultSet�Q�Lucene的API只负责和字符串打交道�?br>1.1 Field 的解�?br>
从源代码中，可以看出Field 构造函数如下：(x��)

Field(String name, byte[] value, Field.Store store)
Field(String name, Reader reader)
Field(String name, Reader reader, Field.TermVector termVector)
Field(String name, String value, Field.Store store, Field.Index index)
Field(String name, String value, Field.Store store, Field.Index index, Field.TermVector termVector)

在Field当中有三个内部类�Q�Field.Index,Field.Store,Field.termVector。其�?br>
* Field.Index有四个属性，分别是：(x��)
Field.Index.TOKENIZED�Q�分词烦(ch��)�?br>Field.Index.UN_TOKENIZED�Q�分词进行烦(ch��)引，如作者名�Q�日期等�Q�Rod Johnson本��n��Z��单词�Q�不再需要分词�?br>Field.Index�Q�不�q�行索引�Q�存放不能被搜烦(ch��)的内容如文档的一些附加属性如文档�c�d��, URL�{��?br>Field.Index.NO_NORMS�Q�；
* Field.Store也有三个属性，分别是：(x��)
Field.Store.YES�Q�烦(ch��)引文件本来只存储索引数据, 此设计将原文内容直接也存储在索引文�g中，如文档的标题�?br>Field.Store.NO�Q�原文不存储在烦(ch��)引文件中�Q�搜索结果命中后�Q�再�Ҏ(gu��)��其他附加属性如文�g的Path�Q�数据库的主键等�Q�重新连接打开原文�Q�适合原文内容较大的情��c(di��n)�?br>Field.Store.COMPRESS 压羃存储�Q?br>* termVector是Lucene 1.4.3新增的它提供一�U�向量机制来�q�行模糊查询,很少用�?br>
上面所说的Field属性与lucene1.4.3版本的有比较大的不同�Q�在旧版�?.4.3里lucene是通过Field.Keyword (...),FieldUnIndexed(...),FieldUnstored(...)和Field.Text(...)来设�|�不同字�D늚��c�d��以达 ��C��同的用途，而当前版本由Field.Index和Field.Store两个字段的不同组合来辑ֈ�上述效果�?br>�q�有一点说�?其中的两个构造函数其默认的��gؓ(f��)Field.Store.NO和Field.Index.TOKENIZED。：(x��)

Field(String name, Reader reader)
Field(String name, Reader reader, Field.TermVector termVector)

* 限制Field的长�?
IndexWriter�c�L��供了(ji��n)一个setMaxFieldLength的方法来对Field的长度进行限�Ӟ��看一下源代码��q��道其默认��gؓ(f��)10000�Q?我们可以在��用时重新讄��此参数。如果��用默认��|��那么Lucene��׃��仅对文档的前面的10000个term�q�行索引�Q�超�q�这一个数的文档就不会(x��)被徏�?索引�?br>
1.2 索引的合�q�、删除、优�?br>
* IndexWriter中的addIndexes�Ҏ(gu��)��烦(ch��)引进行合�q?当在不同的地方创��Z��(ji��n)索引后，如果需要将索引合�ƈ�Q�这时候��用addIndexes�Ҏ(gu��)��显得很有意义�?br>* 可以通过IndexReader�c�M��索引中进行文档的删除。IndexReader是很特别的一个类�Q�看源代码就知道它主要是通过自��n的静(r��n)态方法来完成构造的。示例：(x��)

IndexReader reader = IndexReader.open("C:\\springside");
reader.deleteDocument(X); //�q�里的X是一个int的常敎ͼ�不推荐这一�U�删除方�?br>reader.deleteDocument(new Term("name","springside"));//�q�是另一�U�删除烦(ch��)引的�Ҏ(gu��)��Q�按字段来删除，推荐使用�q�一�U�做�?br>reader.close();

* 优化索引:可以使用IndexWriter�cȝ��optimize�Ҏ(gu��)��来进行优先，它会(x��)��多个Segment�q�行合�ƈ�Q�组成一个新的Segment,可以�?快徏立烦(ch��)引后搜烦(ch��)的速度。另外需要注意的一点，optimize�Ҏ(gu��)��?x��)降低徏立�?ch��)引的速度�Q�而且要求的磁盘空间会(x��)增加�?br>
2. �q�行搜烦(ch��)时最常用的几个术�?br>
* IndexSearcher:是lucene中最基本的检索工��P��所有的��(g��)索都�?x��)用到IndexSearcher工具。初始化IndexSearcher需要设�|�烦(ch��)引存攄��路径�Q�让查询器能定位索引而进行搜索�?br>* Query:查询�Q�lucene中支持模�p�查询，语义查询�Q�短语查询，�l�合查询�{�等,如有TermQuery,BooleanQuery,RangeQuery,WildcardQuery�{�一些类�?br>* QueryParser: 是一个解析用戯��入的工具�Q�可以通过扫描用户输入的字�W�串�Q�生成Query对象�?br>* Hits:在搜索完成之后，需要把搜烦(ch��)�l�果�q�回�q�显�C�给用户�Q�只有这��h��是完成搜烦(ch��)的目的。在lucene中，搜烦(ch��)的结果的集合是用Hits�cȝ��实例来表�C�的。Hits对象中主要方法有�Q?br>
length(): �q�回搜烦(ch��)�l�果的��L��,下面��单的用法中有用到Hit的这一个方�?br>doc(int n): �q�回�W�n个文�?br>iterator(): �q�回一个�P代器

�q�里再提一下Hits�Q�这也是Lucene比较�_�ֽ�的地方，熟�?zh��n)�hibernate的朋友都知道hibernate有一个�g�q�加载的属性，同样, Lucene也有。Hits对象也是采用延迟加蝲的方式返回结果的�Q�当要访问某个文档时�Q�Hits对象��在内部对Lucene的烦(ch��)引又�q�行一�ơ检索，最�?才将�l�果�q�回到页面显�C��?br>
3. 一个简单的实例�Q?br>
首先把lucene的包攑֜�classpath路径中去�Q�写下面一个简单的�c�：(x��)

public class FSDirectoryTest {
//建立索引的�\�?br>public static final String path = "c:\\index2";

public static void main(String[] args) throws Exception {
Document doc1 = new Document();
doc1.add( new Field("name", "lighter springside com",Field.Store.YES,Field.Index.TOKENIZED));

Document doc2 = new Document();
doc2.add(new Field("name", "lighter blog",Field.Store.YES,Field.Index.TOKENIZED));

IndexWriter writer = new IndexWriter(FSDirectory.getDirectory(path, true), new StandardAnalyzer(), true);
writer.addDocument(doc1);
writer.addDocument(doc2);
writer.close();

IndexSearcher searcher = new IndexSearcher(path);
Hits hits = null;
Query query = null;
QueryParser qp = new QueryParser("name",new StandardAnalyzer());

query = qp.parse("lighter");
hits = searcher.search(query);
System.out.println("查找\"lighter\" �? + hits.length() + "个结�?);

query = qp.parse("springside");
hits = searcher.search(query);
System.out.println("查找\"springside\" �? + hits.length() + "个结�?);

}
}

执行的结果：(x��)

查找"lighter" �?个结�?br>查找"springside" �?个结�?br>
4. 一个复杂一点的实例

* 在windows�pȝ��下的的C盘，��Z��个名叫s的文件夹,在该文�g多w��面随便徏三个txt文�g�Q�随便�v名啦�Q�就�?1.txt","2.txt"�?3.txt"�?br>其中1.txt的内容如下：(x��)

springside�C�֌�
更大�q�步�Q�吸引更多用�?更多贡献
2007�q?br>
�?2.txt"�?3.txt"的内容也可以随便写几写，�q�里懒写�Q�就复制一个和1.txt文�g的内容一样吧

* 下蝲lucene包，攑֜�classpath路径中，然后建立索引:

/**
* author lighter date 2006-8-7
*/
public class LuceneExample {
public static void main(String[] args) throws Exception {

File fileDir = new File("c:\\s"); // 指明要烦(ch��)引文件夹的位�|?�q�里是C盘的S文�g夹下
File indexDir = new File("c:\\index"); // �q�里攄��(ch��)引文件的位置
File[] textFiles = fileDir.listFiles();

Analyzer luceneAnalyzer = new StandardAnalyzer();
IndexWriter indexWriter = new IndexWriter(indexDir,luceneAnalyzer,true);
indexFile(luceneAnalyzer,indexWriter, textFiles);
indexWriter.optimize();//optimize()�Ҏ(gu��)��是对索引�q�行优化
indexWriter.close();
}

public static void indexFile(Analyzer luceneAnalyzer,IndexWriter indexWriter,File[] textFiles) throws Exception
{
//增加document到烦(ch��)引去
for (int i = 0; i < textFiles.length; i++) {
if (textFiles[i].isFile() && textFiles[i].getName().endsWith(".txt")) {
String temp = FileReaderAll(textFiles[i].getCanonicalPath(),"GBK");
Document document = new Document();
Field FieldBody = new Field("body", temp, Field.Store.YES,Field.Index.TOKENIZED);
document.add(FieldBody);
indexWriter.addDocument(document);
}
}
}
public static String FileReaderAll(String FileName, String charset)throws IOException {
BufferedReader reader = new BufferedReader(new InputStreamReader(
new FileInputStream(FileName), charset));
String line = "";
String temp = "";
while ((line = reader.readLine()) != null) {
temp += line;
}
reader.close();
return temp;
}
}

* 执行查询�Q?br>
public class TestQuery {
public static void main(String[] args) throws IOException, ParseException {
Hits hits = null;
String queryString = "�C�֌�";
Query query = null;
IndexSearcher searcher = new IndexSearcher("c:\\index");

Analyzer analyzer = new StandardAnalyzer();
try {
QueryParser qp = new QueryParser("body", analyzer);
query = qp.parse(queryString);
} catch (ParseException e) {
}
if (searcher != null) {
hits = searcher.search(query);
if (hits.length() > 0) {
System.out.println("扑ֈ�:" + hits.length() + " 个结�?");
}
}
}
}

* 执行�l�果�Q?br>扑ֈ�:3 个结�?

RomKK 2007-07-24 15:59 发表评论

国模精品一区,欧美日韩五码,亚洲女人天堂成人av在线

Lucene 基础指南