一区二区三区成人,超碰精品在线,传媒在线观看

lucene入门合集

dreamstone — Sun, 29 Jul 2007 12:09:00 GMT

dreamstone 2007-07-29 20:09 发表评论

lucene的中文分词器

dreamstone — Fri, 22 Jun 2007 01:15:00 GMT

lucene的中文分词器到现在还没有好的解决办法。下边介�l�了两个lucene自己提供的分词器和一个javaeye上的�|�友实现的分词器。关于各个分词器的不同见代码中的print信息。直接运行得到console的输出结果更�Ҏ��Ҏ��不同�?br>

package analyzer;

import java.io.Reader;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.cn.ChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.mira.lucene.analysis.IK_CAnalyzer;
import org.mira.lucene.analysis.MIK_CAnalyzer;

import com.sohospace.lucene.analysis.xanalyzer.XAnalyzer;
import com.sohospace.lucene.analysis.xanalyzer.XFactory;
import com.sohospace.lucene.analysis.xanalyzer.XTokenizer;
//中文分词使用了Paoding的分词技术，特表�C�感�?/span>
public class TestCJKAnalyzer {
    private static String testString1 = "中华人民共和国在1949�q�徏立，从此开始了��C��国的伟大��章";
    private static String testString2 = "比尔盖茨从事��饮业和服务业方面的工作";
    public static void testStandard(String testString) throws Exception{
        Analyzer analyzer = new StandardAnalyzer();
        Reader r = new StringReader(testString);
        StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
        System.err.println("=====standard analyzer====");
        System.err.println("分析�Ҏ��Q�默认没有词只有�?/span>");
        Token t;
        while ((t = sf.next()) != null) {
            System.out.println(t.termText());
        }
    }
    public static void testCJK(String testString) throws Exception{
        Analyzer analyzer = new CJKAnalyzer();
        Reader r = new StringReader(testString);
        StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
        System.err.println("=====cjk analyzer====");
        System.err.println("分析�Ҏ��:交叉双字分割");
        Token t;
        while ((t = sf.next()) != null) {
            System.out.println(t.termText());
        }
    }
    public static void testChiniese(String testString) throws Exception{
        Analyzer analyzer = new ChineseAnalyzer();
        Reader r = new StringReader(testString);
        TokenFilter tf = (TokenFilter) analyzer.tokenStream("", r);
        System.err.println("=====chinese analyzer====");
        System.err.println("分析�Ҏ��:基本�{�同StandardAnalyzer");
        Token t;
        while ((t = tf.next()) != null) {
            System.out.println(t.termText());
        }
    }
    public static void testPaoding(String testString) throws Exception{
        XAnalyzer analyzer = XFactory.getQueryAnalyzer();
        Reader r = new StringReader(testString);
        XTokenizer ts = (XTokenizer) analyzer.tokenStream("", r);
        System.err.println("=====paoding analyzer====");
        System.err.println("分析�Ҏ��:字典分词,��L��停止词。在字典不能匚w��的情况下使用CJKAnalyzer的分割发�?/span>");
        Token t;
        while ((t = ts.next()) != null) {
           System.out.println(t.termText());
        }
    }
    public static void testJe(String testString) throws Exception{
//        Analyzer analyzer = new MIK_CAnalyzer();
        Analyzer analyzer = new IK_CAnalyzer();
        Reader r = new StringReader(testString);
        TokenStream ts = (TokenStream)analyzer.tokenStream("", r);
        System.err.println("=====je analyzer====");
        System.err.println("分析�Ҏ��:字典分词,正反双向搜烦�Q�具体不�?/span>");
        Token t;
        while ((t = ts.next()) != null) {
           System.out.println(t.termText());
        }
    }
    public static void main(String[] args) throws Exception{
//        String testString = testString1;
        String testString = testString1;
        System.out.println(testString);

        testStandard(testString);
        testCJK(testString);
        testPaoding(testString);

//        testChiniese(testString);
//        testJe(testString);
    }

}

dreamstone 2007-06-22 09:15 发表评论

dreamstone — Thu, 21 Jun 2007 07:08:00 GMT

和上文一��P��列写lucene的查询用�?br>包括了RangeQuery prefixQuery phraseQuery wildcastQuery fuzzyQuery
被烦引查询的文�g�Q�按照需求自己构造即可�?br>

package search;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.text.SimpleDateFormat;
import java.util.Date;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.FuzzyQuery;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.PhraseQuery;
import org.apache.lucene.search.PrefixQuery;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.RangeQuery;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.WildcardQuery;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;

public class SearcherShow {
    private static Directory directory = new RAMDirectory();
    public static void preIndex() throws Exception{
        String fileName1 = "./data/searchShow.txt";
        String fileName2 = "./data/searchShow2.txt";
        String fileName3 = "./data/test.txt";
        IndexWriter writer = new IndexWriter(directory,new StandardAnalyzer(),true);
        Document doc1 = getDocument(fileName1);
        Document doc2 = getDocument(fileName2);
        Document doc3 = getDocument(fileName3);
        writer.addDocument(doc1);
        writer.addDocument(doc2);
        writer.addDocument(doc3);
        writer.close();

    }
    //先徏立烦引才能执�?br>
    //termQuery   rangeQuery   booleanQuery的查询在Searcher�c�M��
    public static void rangeQuery() throws Exception{
        Term startTerm = new Term("lastmodified","20070620");
        Term endTerm = new Term("lastmodified","20070622");
        RangeQuery query = new RangeQuery(startTerm,endTerm,true);
        IndexSearcher searcher = new IndexSearcher(directory);
        Hits hits = searcher.search(query);
        prtHits(hits);
    }
    public static void prefixQuery() throws Exception{
        Term term = new Term("fileName","searchShow.txt");
        Term prefixterm = new Term("fileName","searchShow");
        IndexSearcher searcher = new IndexSearcher(directory);
        Query query = new TermQuery(term);
        Query prefixQuery = new PrefixQuery(prefixterm);
        Hits hits = searcher.search(query);
        Hits prefixHits = searcher.search(prefixQuery);
        prtHits(hits);
        System.out.println("----------");
        prtHits(prefixHits);
    }
    public static void phraseQuery() throws Exception{
        IndexSearcher searcher = new IndexSearcher(directory);
        PhraseQuery query = new PhraseQuery();
        query.setSlop(2);
        query.add(new Term("contents","quick"));
        query.add(new Term("contents","fox"));
        Hits hits = searcher.search(query);
        prtHits(hits);
    }
    public static void wildcardQuery() throws Exception{
        IndexSearcher searcher = new IndexSearcher(directory);
        Query query = new WildcardQuery(new Term("contents","?ild*"));
        Hits hits = searcher.search(query);
        prtHits(hits);
    }
    public static void fuzzyQuery() throws Exception{
        IndexSearcher searcher = new IndexSearcher(directory);
        Term term = new Term("contents","wuzza");
        FuzzyQuery query = new FuzzyQuery(term);
        Hits hits = searcher.search(query);
        prtHits(hits);
    }
    public static Document getDocument(String fileName) throws Exception{
        File file = new File(fileName);
        Document doc = new Document();
        doc.add(Field.Keyword("fileName",file.getName() ));
        Date modified = new Date(file.lastModified());
        String lastmodified = new SimpleDateFormat("yyyyMMdd").format(modified);
        doc.add(Field.Keyword("lastmodified", lastmodified));
        BufferedReader br = new BufferedReader(new InputStreamReader(
                new FileInputStream(file)));
        StringBuffer sb = new StringBuffer();
        String line = null;
        while ((line = br.readLine()) != null) {
            sb.append(line);
        }
        br.close();
        doc.add(Field.Text("contents",sb.toString() ));
        return doc;
    }
    public static void prtHits(Hits hits) throws Exception{
        for(int i=0;i<hits.length();i++){
            Document doc = hits.doc(i);
            System.out.println(doc.get("fileName"));
            System.out.println(doc.get("lastmodified"));
        }
    }
    public static void main(String[] args) throws Exception{
        preIndex();
//        rangeQuery();
//        prefixQuery();
//        phraseQuery();
//        wildcardQuery();
        fuzzyQuery();
    }
}

dreamstone 2007-06-21 15:08 发表评论

lucene的丰富的各种查询(一)

dreamstone — Thu, 21 Jun 2007 07:06:00 GMT

lucene支持十分丰富的查询，�q�里列写其中一些比较常用的查询的用法�?br>term查询、queryParser查询 ,booleanQuery

package search;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

public class Searcher {
    public static void termQuery() throws Exception{
        Directory directory = FSDirectory.getDirectory("./index", false);
        IndexSearcher searcher = new IndexSearcher(directory);
        Term t = new Term("body","document");
        Query query = new TermQuery(t);
        Hits hits = searcher.search(query);
        System.out.println(hits.length());
    }
    public static void queryParser() throws Exception{
        Directory directory = FSDirectory.getDirectory("./index", false);
        IndexSearcher searcher = new IndexSearcher(directory);
        Query query = QueryParser.parse("text","body",new StandardAnalyzer());
        Hits hits = searcher.search(query);
        System.out.println(hits.length());
    }
    public static void booleanQuery() throws Exception{
        Query parseQuery = QueryParser.parse("text","body",new StandardAnalyzer());
        Term t = new Term("body","document");
        Query termQuery = new TermQuery(t);
        BooleanQuery boolQuery = new BooleanQuery();
        boolQuery.add(parseQuery,true,false);
        boolQuery.add(termQuery,true,false);

        Directory directory = FSDirectory.getDirectory("./index", false);
        IndexSearcher searcher = new IndexSearcher(directory);
        Hits hits = searcher.search(boolQuery);
        System.out.println(hits.length());
    }
    public static void main(String[] args) throws Exception{
        termQuery();
        queryParser();
        booleanQuery();
    }
}

dreamstone 2007-06-21 15:06 发表评论

比较lucene各种英文分析器Analyzer

dreamstone — Wed, 20 Jun 2007 08:46:00 GMT

比较常用的几�U�英文分析器�Q�他们之间的区别见程序中的注释�?br>SimpleAnalyzer
StandardAnalyzer
WhitespaceAnalyzer
StopAnalyzer

package analyzer;

import java.io.Reader;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.SimpleAnalyzer;
import org.apache.lucene.analysis.StopAnalyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.WhitespaceAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;

public class TestAnalyzer {
    private static String testString1 = "The quick brown fox jumped over the lazy dogs";
    private static String testString2 = "xy&z mail is - xyz@sohu.com";
    public static void testWhitespace(String testString) throws Exception{
        Analyzer analyzer = new WhitespaceAnalyzer();
        Reader r = new StringReader(testString);
        Tokenizer ts = (Tokenizer) analyzer.tokenStream("", r);
        System.err.println("=====Whitespace analyzer====");
        System.err.println("分析�Ҏ��Q�空格分�?/span>");
        Token t;
        while ((t = ts.next()) != null) {
           System.out.println(t.termText());
        }
    }
    public static void testSimple(String testString) throws Exception{
        Analyzer analyzer = new SimpleAnalyzer();
        Reader r = new StringReader(testString);
        Tokenizer ts = (Tokenizer) analyzer.tokenStream("", r);
        System.err.println("=====Simple analyzer====");
        System.err.println("分析�Ҏ��Q�空格及各种�W�号分割");
        Token t;
        while ((t = ts.next()) != null) {
           System.out.println(t.termText());
        }
    }
    public static void testStop(String testString) throws Exception{
        Analyzer analyzer = new StopAnalyzer();
        Reader r = new StringReader(testString);
        StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
        System.err.println("=====stop analyzer====");
        System.err.println("分析�Ҏ��Q�空格及各种�W�号分割,��L��停止词，停止词包�?nbsp;is,are,in,on,the�{�无实际意义的词");
        //停止�?/span>
        Token t;
        while ((t = sf.next()) != null) {
           System.out.println(t.termText());
        }
    }
    public static void testStandard(String testString) throws Exception{
        Analyzer analyzer = new StandardAnalyzer();
        Reader r = new StringReader(testString);
        StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
        System.err.println("=====standard analyzer====");
        System.err.println("分析�Ҏ��Q��؜合分�?包括了去掉停止词�Q�支持汉�?/span>");
        Token t;
        while ((t = sf.next()) != null) {
            System.out.println(t.termText());
        }
    }
    public static void main(String[] args) throws Exception{
//        String testString = testString1;
        String testString = testString2;
        System.out.println(testString);
        testWhitespace(testString);
        testSimple(testString);
        testStop(testString);
        testStandard(testString);
    }

}

dreamstone 2007-06-20 16:46 发表评论

lucene建立索引时候的用到的一些文��和目录操作

dreamstone — Wed, 20 Jun 2007 08:43:00 GMT

在前边的文章中多是用的添加一个document�Q�这里介�l�一下其它的文��操作
1,按照�~�号删除

public void deleteDoc(String indexDir) throws Exception{
        IndexReader reader = IndexReader.open(indexDir);
        reader.delete(1);
        reader.close();
    }

2,�Ҏ��term来删�?br>

public void deleteDocWithTerm(String indexDir) throws Exception{
        IndexReader reader = IndexReader.open(indexDir);
        reader.delete(new Term("city","beijing"));
        reader.close();
    }

3,取消删除

public void undeleteDoc(String indexDir) throws Exception{
        IndexReader reader = IndexReader.open(indexDir);
        reader.delete(1);
        reader.undeleteAll();
        reader.close();
    }

4,删除后优�?br>

public void mergeDoc(String indexDir) throws Exception{
        IndexReader reader = IndexReader.open(indexDir);
        reader.delete(new Term("city","beijing"));
        reader.close();

        IndexWriter writer = new IndexWriter(indexDir,new StandardAnalyzer(),true);
        writer.optimize();
        writer.close();
    }

5,把RAMDirectory中的索引合�ƈ到FSDirectroy�?br>

public void indexOperator(String indexDir) throws Exception{
        FSDirectory fsDir = FSDirectory.getDirectory(indexDir,true);
        RAMDirectory ramDir = new RAMDirectory();
        IndexWriter fsWriter = new  IndexWriter(fsDir,new SimpleAnalyzer(),true);
        IndexWriter ramWriter = new IndexWriter(ramDir,new SimpleAnalyzer(),true);
        //..ramWriter add doc
        fsWriter.addIndexes(new Directory[]{ramDir});
        ramWriter.close();

    }

6,把烦引的内容直接��d��内存

RAMDirectory ramDir = new RAMDirectory(indexDir);

dreamstone 2007-06-20 16:43 发表评论

lucene 索引非txt文�� (pdf word rtf html xml)

dreamstone — Thu, 14 Jun 2007 05:27:00 GMT

搜烦要首先要索引�Q�烦引的话最��单的方式是烦引txt文�g�Q�上文已�l�介�l�了。这里介�l�一下一些其它格式的文��的烦引，例如ms word ,pdf ,rtf�{��?br>索引�Ҏ��Q�就是先把各�U�文��先转化成纯文本再烦引，所以关键在转换上。幸好java世界中有太多的开源工�E�，很多都可以拿来直接��用。下边分别介�l�一下：
写在所有之前：下边所有介�l�中的is参数都是inputStream�Q�就是被索引的文件�?br>word文档�Q?br>把word文档转换成纯文本的开源工�E�可以��用：POI 或者TextMining
POI的��用方法：

WordDocument wd = new WordDocument(is);
      StringWriter docTextWriter = new StringWriter();
      wd.writeAllText(new PrintWriter(docTextWriter));
      docTextWriter.close();
      bodyText = docTextWriter.toString();

TextMining的��用方法更��单：

bodyText = new WordExtractor().extractText(is);

PDF文��Q?br>转换PDF文��可以使用的类库是PDFbox

COSDocument cosDoc = null;
   PDFParser parser = new PDFParser(is);
    parser.parse();
cosDoc = parser.getDocument()
if (cosDoc.isEncrypted()) {
        DecryptDocument decryptor = new DecryptDocument(cosDoc);
        decryptor.decryptDocument(password);
}
PDFTextStripper stripper = new PDFTextStripper();
String docText = stripper.getText(new PDDocument(cosDoc));

RTF文档�Q?br>rtf的�{换则在javax中就�?br>

DefaultStyledDocument styledDoc = new DefaultStyledDocument();
new RTFEditorKit().read(is, styledDoc, 0);
String bodyText = styledDoc.getText(0, styledDoc.getLength());

�q�样��可以烦引各�U�格式的文本�?br>
html和xml的处理方法同�?br>不同的是html的可用类库是�Q�JTidy
Xml可用的类库是SAX和digester

dreamstone 2007-06-14 13:27 发表评论

apache lucene 的核心类

dreamstone — Tue, 12 Jun 2007 01:52:00 GMT

下边介绍一下lucene的核心类�Q?参考lucene in action)
主要有两部分�l�成�Q�核心烦引类和核心搜索类�Q�顾名思意�Q�就是用来徏立烦引和用来搜烦的类�?br>
IndexWriter�Q�可以对索引�q�行写操作，但不能读取或者搜索。是唯一能写索引的类�?br>
Directory�Q�Directory�c�M��表一个Lucene索引的位�|�。它是一个抽象类�Q�允许它的子�c?其中的两个包含在Lucene�?在合适时存储索引。在我们的Indexer�C�Z��中，我们使用一个实际文件系�l�目录的路径传递给IndexWriter的构造函数来获得Directory的一个实例。IndexWriter然后使用Directory的一个具体实现FSDirectory�Q��ƈ在文件系�l�的一个目录中创徏索引。在你的应用�E�序中，你可能较喜欢��Lucene索引存储在磁盘上。这时可以��用FSDirectory�Q�一个包含文件系�l�真实文件列表的Driectory子类�Q�如同我们在Indexer中一栗��另一个Directory的具体子�c�L��RAMDirectory。尽��它提供了与FSDirectory相同的接口，RAMDirectory��它的所有数据加载到内存中。所以这个实现对较小索引很有用处�Q�可以全部加载到内存中�ƈ在程序关闭时销毁。因为所有数据加载到快速存取的内存中而不是在慢速的��盘上，RAMDirectory适合于你需要快速访问烦引的情况�Q�不��是索引或搜索。做为实例，Lucene的开发者在所有他们的单元��试中做了扩展��用：当测试运行时�Q�快速的内存�ȝ��索引被创建搜索，当测试结束时�Q�烦引自动销毁，不会在磁盘上留下��M��D�余。当�Ӟ��在将文�g�~�存到内存的操作�pȝ��中��用时RAMDirectory和FSDirectory之间的性能差别较小

Analyzer:分析文本内容�Q�提取关键字

Document:一个Document代表字段的集合。你可以把它惌��Z��后可获取的虚拟文��—一块数据，如一个网��c��一个邮件消息或一个文本文件。一个文��的字段代表�q�个文��或与�q�个文��相关的元数据

Field:在烦引中的每个Document含有一个或多个字段�Q�具体化为Field�c�R��每个字�D늛�应于数据的一个片�D�，��在搜烦时查询或从烦引中重新获取�?br>Lucene提供四个不同的字�D늱�型，你可以从中做出选择�Q?br>
Keyword—不被分析，但是被烦引�ƈ逐字存储到烦引中。这个类型适合于原始值需要保持原��L��字段�Q�如URL、文件系�l��\径、日期、个人名�U�、社会安全号码、电话号码等�{�。例如，我们在Indexer(列表1.1)中把文�g�pȝ��路径作�ؓKeyword字段�?br>
UnIndexed—不被分析也不被索引�Q�但是它的值存储到索引中。这个类型适合于你需要和搜烦�l�果一��h��C�的字段(如URL或数据库主键)�Q�但是你从不直接搜烦它的倹{��因��U�类型字�D늚�原始值存储在索引中，�q�种�c�d��不适合于存放比较巨大的��|��如果索引大小是个问题的话�?br>
UnStored—和UnIndexed相反。这个字�D늱�型被分析�q�烦引但是不存储在烦引中。它适合于烦引大量的文本而不需要以原始形式重新获得它。例如网��늚��M��或�Q休其它类型的文本文档�?br>
Text—被分析�q�烦引。这��意味着�q�种�c�d��的字�D�可以被搜烦�Q�但是要��心字段大小。如果要索引的数据是一个String�Q�它也被存储�Q�但如果数据(如我们的Indexer例子)是来自一个Reader�Q�它��׃��会被存储。这通常是�؜��q��来源�Q�所以在使用Field.Text时要注意�q�个区别�?br>所有字�D는�名称和值组成。你要��用哪�U�字�D늱�型取决于你要如何使用�q�个字段和它的倹{��严格来��_��Lucene只有一个字�D늱�型：以各自特征来区分的字�D�c��有些是被分析的�Q�有些不是；有些是被索引�Q�然面有些被逐字地存储等�{��?br>注意注意Field.Text(String, String)和Field.Text(String, Reader)之间的区别。String变量存储字段数据�Q�而Reader变量不存储。�ؓ索引一个String而又不想存储它，可以用Field.UnStored(String, String)

下边是核心搜索类�Q?br>IndexSearcher�Q�IndexSearcher用来搜烦而IndexWriter用来索引�Q�暴露几个搜索方法的索引的主要链接。你可以把IndexSearcher惌��Z��只读方式打开索引的一个类。它提供几个搜烦�Ҏ��Q�其中一些在抽象基类Searcher中实玎ͼ�最��单的接受单个Query对象做�ؓ参数�q�返回一个Hits对象。这个方法的典型应用�c�M��q�样�Q?br>

IndexSearcher is = new IndexSearcher(
FSDirectory.getDirectory(“/tmp/index”, false));
Query q = new TermQuery(new Term(“contents”, “lucene”));
Hits hits = is.search(q);

Term:
Term是搜索的基本单元。与Field对象�c�M��Q�它�׃��对字�W�串元素�l�成�Q�字�D늚�名称和字�D늚�倹{��注意Term对象也和索引�q�程有关。但是它们是由Lucene内部生成�Q�所以在索引时你
一般不必考虑它们。在搜烦�Ӟ��你可能创建Term对象�q�TermQuery同时使用�?br>Query q = new TermQuery(new Term(“contents”, “lucene”));
Hits hits = is.search(q);
�q�段代码使Lucene扑և�在contents字段中含有单词lucene的所有文��。因为TermQuery对象�l�承自它的抽象父�c�Query�Q�你可以在等式的左边用Query�c�d��?br>
Query
Lucene中包含一些Query的具体子�c�R��到目前为止�Q�在本章中我们仅提到�q�最基本的Lucene Query�Q�TermQuery。其它Query�c�d��有BooleanQuery�Q�PhraseQuery, PrefixQuery, PhrasePrefixQuery, RangeQuery, FilteredQuery和SpanQuery

TermQuery
TermQuery是Lucene支持的最基本的查询类型，�q�且它也是最原始的查询类型之一。它用来匚w��含有指定值的字段的文�?

Hits�c�L��一个搜索结�?匚w��l�定查询的文�?文档队列指针的简单容器。基于性能考虑�Q�Hits的实例�ƈ不从索引中加载所有匹配查询的所有文档，而是每次一��部�?

dreamstone 2007-06-12 09:52 发表评论

apache lucene 一个最��单的实例

dreamstone — Tue, 12 Jun 2007 01:46:00 GMT

摘要: ��像每个�E�序都有一个Hello World来让��Z��验它一��P��lucene也可以很��单的提供一个实例。如下（来自lucene in action的例子）有两个类�l�成�Q�一个是建立索引 package my;import java.io.File;import java.io.FileReader;import java.io.IOException;impor... 阅读全文

dreamstone 2007-06-12 09:46 发表评论

apache lucene介绍

dreamstone — Mon, 11 Jun 2007 02:42:00 GMT

什么是lucene
Apache Lucene是一个开放源�E�序的搜��d��引擎�Q�利用它可以��L��CؓJava软�g加入全文搜寻功能。Lucene的最主要工作是替文�g的每一个字作烦引，索引让搜�ȝ��效率比传�l�的逐字比较大大提高�Q�Lucen提供一�l�解读，�q��o�Q�分析文�Ӟ��~�排和��用烦引的API�Q�它的强大之处除了高效和��单外�Q�是最重要的是使��用者可以随时应自已需要自订其功能�?Lucene是apache软�g基金会项目组的一个子��目�Q�是一个开放源代码的全文检索引擎工具包�Q�即它不是一个完整的全文��索引擎，而是一个全文检索引擎的架构�Q�提供了完整的查询引擎和索引引擎�Q�部分文本分析引擎。Lucene的目的是��Y件开发�h员提供一个简单易用的工具包，以方便的在目标系�l�中实现全文��索的功能�Q�或者是以此为基��建立起完整的全文��索引擎�?

Lucene的作者：
Lucene的原作者是Doug Cutting�Q�他是一位资深全文烦�?��索专�Ӟ��曄��是V-Twin搜烦引擎的主要开发者，后在Excite担�Q高��pȝ��架构设计师，目前从事于一些Internet底层架构的研�I��?/p>

Lucene的历�Ԍ��
早先发布在作者自��q��http://www.lucene.com/�Q�后来发布在SourceForge�Q?001�q�年底成为apache软�g基金会jakarta的一个子��目�?现在则是apache的顶�U�项�?a >http://lucene.apache.org/

Lucene应用:
apache软�g基金会的�|�站使用了Lucene作�ؓ全文��索的引擎
IBM的开源��Y件eclipse也采用了Lucene作�ؓ帮助子系�l�的全文索引引擎�Q?br>相应的IBM的商业��Y件Web Sphere中也采用了Lucene�?br>著名的Jive论坛使用了它
Eyebrows�Q�EyeBrows是目前APACHE��目的主要邮件列表归档系�l�）邮�g列表HTML归��/��览/查询�pȝ��
也��用了�?br>Lucene以其开放源代码的特性、优异的索引�l�构、良好的�pȝ��架构获得了越来越多的应用�?br>Cocoon:��Z��XML的web发布框架�Q�全文检索部分��用了Lucene
到现在lucene已经有C++、C#、Python和Perl的版�?br>更多关于lucene的应用见�q�里�Q?a >http://wiki.apache.org/lucene-java/PoweredBy

Lucene能做什�?
Lucene使你可以��Z��的应用程序添加烦引和搜烦能力(�q�些功能��在1.3节中描述)。Lucene可以索引�q�能使得可以转换成文本格式的��M��数据能够被搜索。在�?.5可以看出�Q�Lucene�q�不兛_��数据的来源、格式甚臛_��的语�a��Q�只要你能将它�{换�ؓ文本。这��意味着你可�l�烦引�ƈ搜烦存放于文件中的数据：在远�E�服务器上的web��面�Q�存于本地文件系�l�的文��Q�简单的文本文�g�Q�微软Word文��Q�HTML或PDF文�g或�Q何其它能够提取出文本信息的格式�?

同样�Q�利用Lucene你可以烦引存放于数据库中的数据，提供�l�用户很多数据库没有提供�?/p>

全文搜烦的能力。一旦你集成了Lucene�Q�你的应用程序的用户��p��够像�q�样来搜索：+George +Rice –eat –pudding, Apple –pie +Tiger, animal:monkey AND food:banana�{�等。利用Lucene�Q�你可以索引和搜索email邮�g�Q�邮件列表��案，��x��聊天记录�Q�你的Wiki��面……�{�等更多�?

Lucene资料�Q?br>Lucene主页�Q?a >http://lucene.apache.org/

中文的lucene教程�Q?http://www.chedong.com/tech/lucene.html#intro

写的很好的lucene书：lucene in action

luceneAPI�Q?a >http://lucene.zones.apache.org:8080/hudson/job/Lucene-Nightly/javadoc/

lucene in action �C�Z��代码:http://www.manning.com/hatcher2

lucene 的wiki�Q?a >http://wiki.apache.org/lucene-java/FrontPage?action=show&redirect=FrontPageEN

Lucene的优点：
�Q?�Q�烦引文件格式独立于应用�q�_��。Lucene定义了一套以8位字节�ؓ基础的烦引文件格式，使得兼容�pȝ��或者不同��^台的应用能够�׃�n建立的烦引文件�?
�Q?�Q�在传统全文��索引擎的倒排索引的基��上，实现了分块烦引，能够针对新的文�g建立��文件烦引，提升索引速度。然后通过与原有烦引的合�ƈ�Q�达��C��化的目的�?
�Q?�Q�优�U�的面向对象的�pȝ��架构�Q��得对于Lucene扩展的学习难度降低，方便扩充新功能�?
�Q?�Q�设计了独立于语�a�和文件格式的文本分析接口�Q�烦引器通过接受Token��完成烦引文件的创立�Q�用��h��展新的语�a�和文件格式，只需要实现文本分析的接口�?
�Q?�Q�已�l�默认实��C��一套强大的查询引擎�Q�用��h��需自己�~�写代码即�ɾpȝ��可获得强大的查询能力�Q�Lucene的查询实��C��默认实现了布��操作、模�p�查询、分�l�查询等�{��?

Lucene的周�?br>Nutch vs Lucene
Lucene 不是完整的应用程序，而是一个用于实现全文检索的软�g库�?br>Nutch 是一个应用程序，可以�?Lucene 为基��实现搜烦引擎应用�?/p>

Nutch vs Larbin
"Larbin只是一个爬虫，也就是说larbin只抓取网��，至于如何parse的事情则��q��戯��己完成。另外，如何存储到数据库以及建立索引的事�?larbin也不提供Nutch vs Larbin
"Larbin只是一个爬虫，也就是说larbin只抓取网��，至于如何parse的事情则��q��戯��己完成。另外，如何存储到数据库以及建立索引的事�?larbin也不提供

Nutch 则还可以存储到数据库�q�徏立烦引�?br>

搜烦的概�?本段来自lucene in action原文)�Q?/span>

索引和搜�?span lang=EN-US>

所有搜索引擎的核心��是索引的概念：��原始数据处理成一个高效的交差引用的查扄��构以便于快速的搜烦。让我们对烦引和搜烦�q�程做一�ơ快速的高层�ơ的��览�?span lang=EN-US>

什么是索引�Q��ؓ什么它很重要？

惛_��一下，你需要搜索大量的文�g�Q��ƈ且你��x��出包含一个指定的词或短语的文件。你如何�~�写一个程序来做到�q�个�Q�一个幼�E�的�Ҏ��是针对给定的词或短语��序扫描每个文�g。这个方法有很多�~�点�Q�最明显的就是它不适合于大量的文�g或者文仉��常巨大的情况。这时就出现了烦引：��Z��快速搜索大量的文本�Q�你必须首先索引那个文本然后把它转化��Z��个可以让你快速搜索的格式�Q�除�ȝ��慢的��序地扫描过�E�。这个�{化过�E�称为烦引，它的输出�U�Cؓ一条烦引。你可以把烦引理解�ؓ一个可以让你快速随��问存于其内部的词的数据结构。它隐含的概�늱��g��一本书最后的索引�Q�可以让你快速找到讨论指定主题的��面。在Lucene中，一个烦引是一个精心设计的数据�l�构�Q�在文�g�pȝ��中存储�ؓ一�l�烦引文件。我们在附录B中详�l�地说明了烦引文件的�l�构�Q�但是目前你只须认�ؓLucene的烦引是一个能快速的词汇查找的工兗��?

什么是搜烦�Q?span lang=EN-US>

搜烦是在一个烦引中查找单词来找出它们所出现的文��的�q�程。一个搜索的质量用精��度和召回率来描�q�。召回率衡量搜烦�pȝ��搜烦到相��x��的能力�Q�精��度衡量�pȝ��q��o不相��x��的能力。然而，在考虑搜烦时你必须考虑其它一些因素。我们已�l�提到速度和快速搜索大量文本的能力。支持单个和多个词汇的查询，短语查询�Q�通配�W�，�l�果分��和排序也是很重要的，在输入这些查询的时候也是友好的语法�?/span>Lucene强大的��Y件库提供了大量的搜烦特征�?/span>bells�?/span>whistles�Q?/span>

dreamstone 2007-06-11 10:42 发表评论