成人网欧美在线视频,日本一区二区三区播放,亚洲第一影院

lucene评分分析

西瓜 — Fri, 15 Apr 2011 03:02:00 GMT

在IndexSearcher�c�M��有一个管理Lucene得分情况的方法，如下所�C�：

public Explanation explain(Weight weight, int doc) throws IOException {
return weight.explain(reader, doc);
}

�q�回的这个Explanation的实例解释了Lucene中Document的得分情��c��我们可以测试一下，直观地感觉一下到底这个Explanation的实例都记录了一个Document的哪些信息�?/span>

写一个测试类�Q�如下所�C�：

package org.shirdrn.lucene.learn;

import java.io.IOException;
import java.util.Date;

import net.teamhot.lucene.ThesaurusAnalyzer;

import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.index.TermDocs;
import org.apache.lucene.search.Explanation;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.store.LockObtainFailedException;

public class AboutLuceneScore {

private String path = "E:\\Lucene\\index";

public void createIndex(){
   IndexWriter writer;
   try {
    writer = new IndexWriter(path,new ThesaurusAnalyzer(),true);

    Field fieldA = new Field("contents","一�?,Field.Store.YES,Field.Index.TOKENIZED);
    Document docA = new Document();
    docA.add(fieldA);

    Field fieldB = new Field("contents","一�?之交一��Z��?,Field.Store.YES,Field.Index.TOKENIZED);
    Document docB = new Document();
    docB.add(fieldB);

    Field fieldC = new Field("contents","一�?之下一��Z��?,Field.Store.YES,Field.Index.TOKENIZED);
    Document docC = new Document();
    docC.add(fieldC);

    Field fieldD = new Field("contents","一�?做事一人当一人做事一人当",Field.Store.YES,Field.Index.TOKENIZED);
    Document docD = new Document();
    docD.add(fieldD);

    Field fieldE = new Field("contents","一�?做事一人當一人做事一人當",Field.Store.YES,Field.Index.TOKENIZED);
    Document docE = new Document();
    docE.add(fieldE);

    writer.addDocument(docA);
    writer.addDocument(docB);
    writer.addDocument(docC);
    writer.addDocument(docD);
    writer.addDocument(docE);

    writer.close();
   } catch (CorruptIndexException e) {
    e.printStackTrace();
   } catch (LockObtainFailedException e) {
    e.printStackTrace();
   } catch (IOException e) {
    e.printStackTrace();
   }
}

public static void main(String[] args) {
   AboutLuceneScore aus = new AboutLuceneScore();
   aus.createIndex();    // 建立索引
   try {
    String keyword = "一�?;
    Term term = new Term("contents",keyword);
    Query query = new TermQuery(term);
    IndexSearcher searcher = new IndexSearcher(aus.path);
    Date startTime = new Date();
    Hits hits = searcher.search(query);
    TermDocs termDocs = searcher.getIndexReader().termDocs(term);
    while(termDocs.next()){
     System.out.print("搜烦关键�?lt;"+keyword+">在编号�ؓ "+termDocs.doc());
     System.out.println(" 的Document中出现过 "+termDocs.freq()+" ��?);
    }
    System.out.println("********************************************************************");
    for(int i=0;i      System.out.println("Document的内部编号�ؓ �Q?"+hits.id(i));
     System.out.println("Document内容�?�Q?"+hits.doc(i));
     System.out.println("Document得分�?�Q?"+hits.score(i));
     Explanation e = searcher.explain(query, hits.id(i));
     System.out.println("Explanation�?�Q?\n"+e);
     System.out.println("Document对应的Explanation的一些参数值如下： ");
     System.out.println("Explanation的getValue()�?�Q?"+e.getValue());
     System.out.println("Explanation的getDescription()�?�Q?"+e.getDescription());
     System.out.println("********************************************************************");
    }
    System.out.println("共检索出�W�合条�g的Document "+hits.length()+" 个�?);
    Date finishTime = new Date();
    long timeOfSearch = finishTime.getTime() - startTime.getTime();
    System.out.println("本次搜烦所用的旉��?"+timeOfSearch+" ms");
   } catch (CorruptIndexException e) {
    e.printStackTrace();
   } catch (IOException e) {
    e.printStackTrace();
   }

}
}

该测试类中实��C��一个徏立烦引的�Ҏ��createIndex()�Ҏ��Q�然后通过��索一个关键字“一�?#8221;�Q�获取到与它相关的Document的信息�?/span>

打印出结果的�W�一部分为：�q�个��索关键字“一�?#8221;在每个Document中出现的�ơ数�?/span>

打印出结果的�W�二部分为：相关的Explanation及其得分情况的信息�?/span>

��试�l�果输出如下所�C�：

搜烦关键�?lt;一�?gt;在编号�ؓ 0 的Document中出现过 1 ��?br /> 搜烦关键�?lt;一�?gt;在编号�ؓ 1 的Document中出现过 1 ��?br /> 搜烦关键�?lt;一�?gt;在编号�ؓ 2 的Document中出现过 1 ��?br /> 搜烦关键�?lt;一�?gt;在编号�ؓ 3 的Document中出现过 2 ��?br /> 搜烦关键�?lt;一�?gt;在编号�ؓ 4 的Document中出现过 2 ��?br /> ********************************************************************
Document的内部编号�ؓ �Q?0
Document内容�?�Q?Document
Document得分�?�Q?0.81767845
Explanation�?�Q?
0.81767845 = (MATCH) fieldWeight(contents:一�?in 0), product of:
1.0 = tf(termFreq(contents:一�?=1)
0.81767845 = idf(docFreq=5)
1.0 = fieldNorm(field=contents, doc=0)

Document对应的Explanation的一些参数值如下：
Explanation的getValue()�?�Q?0.81767845
Explanation的getDescription()�?�Q?fieldWeight(contents:一�?in 0), product of:
********************************************************************
Document的内部编号�ؓ �Q?3
Document内容�?�Q?Document>
Document得分�?�Q?0.5059127
Explanation�?�Q?
0.5059127 = (MATCH) fieldWeight(contents:一�?in 3), product of:
1.4142135 = tf(termFreq(contents:一�?=2)
0.81767845 = idf(docFreq=5)
0.4375 = fieldNorm(field=contents, doc=3)

Document对应的Explanation的一些参数值如下：
Explanation的getValue()�?�Q?0.5059127
Explanation的getDescription()�?�Q?fieldWeight(contents:一�?in 3), product of:
********************************************************************
Document的内部编号�ؓ �Q?4
Document内容�?�Q?Document>
Document得分�?�Q?0.5059127
Explanation�?�Q?
0.5059127 = (MATCH) fieldWeight(contents:一�?in 4), product of:
1.4142135 = tf(termFreq(contents:一�?=2)
0.81767845 = idf(docFreq=5)
0.4375 = fieldNorm(field=contents, doc=4)

Document对应的Explanation的一些参数值如下：
Explanation的getValue()�?�Q?0.5059127
Explanation的getDescription()�?�Q?fieldWeight(contents:一�?in 4), product of:
********************************************************************
Document的内部编号�ؓ �Q?1
Document内容�?�Q?Document
Document得分�?�Q?0.40883923
Explanation�?�Q?
0.40883923 = (MATCH) fieldWeight(contents:一�?in 1), product of:
1.0 = tf(termFreq(contents:一�?=1)
0.81767845 = idf(docFreq=5)
0.5 = fieldNorm(field=contents, doc=1)

Document对应的Explanation的一些参数值如下：
Explanation的getValue()�?�Q?0.40883923
Explanation的getDescription()�?�Q?fieldWeight(contents:一�?in 1), product of:
********************************************************************
Document的内部编号�ؓ �Q?2
Document内容�?�Q?Document
Document得分�?�Q?0.40883923
Explanation�?�Q?
0.40883923 = (MATCH) fieldWeight(contents:一�?in 2), product of:
1.0 = tf(termFreq(contents:一�?=1)
0.81767845 = idf(docFreq=5)
0.5 = fieldNorm(field=contents, doc=2)

Document对应的Explanation的一些参数值如下：
Explanation的getValue()�?�Q?0.40883923
Explanation的getDescription()�?�Q?fieldWeight(contents:一�?in 2), product of:
********************************************************************
共检索出�W�合条�g的Document 5 个�?br /> 本次搜烦所用的旉��?79 ms

先从��试的输出结果进行分析，可以获得到如下信息：

�?��试�c�M��hits.score(i)的��g��Explanation的getValue()的值是一��L��Q�即Lucene默认使用的得分；

�?默认情况下，Lucene按照Document的得分进行排序检索结果；

�?默认情况下，如果两个Document的得分相同，按照Document的内部编可��行排序，比如上面�~�号�?3�?)�?1�?)是两�l�得分相同的Document�Q�结果排序时按照Document的编可��行了排序�Q?/span>

通过从IndexSearcher�c�M��的explain�Ҏ��Q?/span>

public Explanation explain(Weight weight, int doc) throws IOException {
return weight.explain(reader, doc);
}

可以看出�Q�实际上是调用了Weight接口�c�M��的explain()�Ҏ��Q�而Weight是与一个Query相关的，它记录了一�ơ查询构造的Query的情况，从而保证一个Query实例可以重用�?/span>

具体圎ͼ�可以在实现Weight接口的具体类TermWeight中追溯到explain()�Ҏ��Q�而TermWeight�c�L��一个内部类�Q�定义在TermQuery�c�d��部。TermWeight�cȝ��explain()�Ҏ��如下所�C�：

public Explanation explain(IndexReader reader, int doc)
throws IOException {

ComplexExplanation result = new ComplexExplanation();
result.setDescription("weight("+getQuery()+" in "+doc+"), product of:");

Explanation idfExpl = new Explanation(idf, "idf(docFreq=" + reader.docFreq(term) + ")");

      // explain query weight
      Explanation queryExpl = new Explanation();
      queryExpl.setDescription("queryWeight(" + getQuery() + "), product of:");

      Explanation boostExpl = new Explanation(getBoost(), "boost");
      if (getBoost() != 1.0f)
        queryExpl.addDetail(boostExpl);
      queryExpl.addDetail(idfExpl);

Explanation queryNormExpl = new Explanation(queryNorm,"queryNorm");
queryExpl.addDetail(queryNormExpl);

queryExpl.setValue(boostExpl.getValue() *idfExpl.getValue() *queryNormExpl.getValue());

result.addDetail(queryExpl);

      // 说明Field的权�?br />       String field = term.field();
      ComplexExplanation fieldExpl = new ComplexExplanation();
      fieldExpl.setDescription("fieldWeight("+term+" in "+doc+"), product of:");

      Explanation tfExpl = scorer(reader).explain(doc);
      fieldExpl.addDetail(tfExpl);
      fieldExpl.addDetail(idfExpl);

      Explanation fieldNormExpl = new Explanation();
      byte[] fieldNorms = reader.norms(field);
      float fieldNorm =
        fieldNorms!=null ? Similarity.decodeNorm(fieldNorms[doc]) : 0.0f;
      fieldNormExpl.setValue(fieldNorm);
      fieldNormExpl.setDescription("fieldNorm(field="+field+", doc="+doc+")");
      fieldExpl.addDetail(fieldNormExpl);

      fieldExpl.setMatch(Boolean.valueOf(tfExpl.isMatch()));
      fieldExpl.setValue(tfExpl.getValue() *idfExpl.getValue() *fieldNormExpl.getValue());

      result.addDetail(fieldExpl);
      result.setMatch(fieldExpl.getMatch());

      // combine them
      result.setValue(queryExpl.getValue() * fieldExpl.getValue());

if (queryExpl.getValue() == 1.0f)
return fieldExpl;

return result;
}

�Ҏ��索结果，以及上面的TermWeight�cȝ��explain()�Ҏ��Q�可以看��出的字符串部分正好一一对应�Q�比如：idf(Inverse Document Frequency�Q�即反�{文档频率)、fieldNorm、fieldWeight�?/span>

��索结果的�W�一个Document的信息：

Document的内部编号�ؓ �Q?0
Document内容�?�Q?Document
Document得分�?�Q?0.81767845
Explanation�?�Q?
0.81767845 = (MATCH) fieldWeight(contents:一�?in 0), product of:
1.0 = tf(termFreq(contents:一�?=1)
0.81767845 = idf(docFreq=5)
1.0 = fieldNorm(field=contents, doc=0)

Document对应的Explanation的一些参数值如下：
Explanation的getValue()�?�Q?0.81767845
Explanation的getDescription()�?�Q?fieldWeight(contents:一�?in 0), product of:

tf的计��?/span>

上面的tf值Term Frequency�Q�即词条频率�Q�可以在org.apache.lucene.search.Similarity�c�M��看到具体地说明。在Lucene中，�q�不是直接��用的词条的频率，而实际��用的词条频率的��^�Ҏ��Q�即�Q?/span>

tf(t in d) = frequency^½

�q�是使用org.apache.lucene.search.Similarity�cȝ��子类DefaultSimilarity中的�Ҏ��计算的，如下�Q?/span>

/** Implemented as sqrt(freq). */
public float tf(float freq) {
return (float)Math.sqrt(freq);
}

卻I��某个Document的tf = ��索的词条在该Document中出现次数freq取��^�Ҏ��?/span>

也就是freq的��^�Ҏ��?/span>

例如�Q�从我们的检索结果来看：

各个Document的tf计算如下所�C�：

�~�号�?的Document�?tf 为： (float)Math.sqrt(1) = 1.0�Q?br /> �~�号�?的Document�?tf 为： (float)Math.sqrt(1) = 1.0�Q?br /> �~�号�?的Document�?tf 为： (float)Math.sqrt(1) = 1.0�Q?br /> �~�号�?的Document�?tf 为： (float)Math.sqrt(2) = 1.4142135�Q?br /> �~�号�?的Document�?tf 为： (float)Math.sqrt(2) = 1.4142135�Q?/span>

idf的计��?/span>

��索结果中�Q�每个检索出来的Document的都对应一个idf�Q�在DefaultSimilarity�c�M��可以看到idf计算的实现方法，如下�Q?/span>

/** Implemented as log(numDocs/(docFreq+1)) + 1. */
public float idf(int docFreq, int numDocs) {
return (float)(Math.log(numDocs/(double)(docFreq+1)) + 1.0);
}

其中�Q�docFreq是根据指定关键字�q�行��索，��索到的Document的数量，我们��试的docFreq=5�Q�numDocs是指索引文�g中��d��的Document的数量，我们的测试比较特�D�，��全部的Document都检索出来了�Q�我们测试的numDocs=5�?/span>

各个Document的idf的计��如下所�C�：

�~�号�?的Document�?idf 为：(float)(Math.log(5/(double)(5+1)) + 1.0) = 0.81767845�Q?br /> �~�号�?的Document�?idf 为：(float)(Math.log(5/(double)(5+1)) + 1.0) = 0.81767845�Q?br /> �~�号�?的Document�?idf 为：(float)(Math.log(5/(double)(5+1)) + 1.0) = 0.81767845�Q?br /> �~�号�?的Document�?idf 为：(float)(Math.log(5/(double)(5+1)) + 1.0) = 0.81767845�Q?br /> �~�号�?的Document�?idf 为：(float)(Math.log(5/(double)(5+1)) + 1.0) = 0.81767845�Q?/span>

lengthNorm的计��?/span>

在DefaultSimilarity�c�M��可以看到lengthNorm计算的实现方法，如下�Q?/span>

public float lengthNorm(String fieldName, int numTerms) {
return (float)(1.0 / Math.sqrt(numTerms));
}

各个Document的lengthNorm的计��如下所�C�：

�~�号�?的Document�?lengthNorm 为：(float)(1.0 / Math.sqrt(1)) = 1.0/1.0 = 1.0�Q?br /> �~�号�?的Document�?lengthNorm 为：(float)(1.0 / Math.sqrt(1)) = 1.0/1.0 = 1.0�Q?br /> �~�号�?的Document�?lengthNorm 为：(float)(1.0 / Math.sqrt(1)) = 1.0/1.0 = 1.0�Q?br /> �~�号�?的Document�?lengthNorm 为：(float)(1.0 / Math.sqrt(2)) = 1.0/1.4142135 = 0.7071068�Q?br /> �~�号�?的Document�?lengthNorm 为：(float)(1.0 / Math.sqrt(2)) = 1.0/1.4142135 = 0.7071068�Q?/span>

关于fieldNorm

fieldNorm是在建立索引的时候写入的�Q�而检索的时候需要从索引文�g中读取，然后通过解码�Q�得到fieldNorm的float型��|��用于计算Document的得分�?/span>

在org.apache.lucene.search.TermQuery.TermWeight�c�M��Q�explain�Ҏ��通过打开的IndexReader��读取fieldNorm�Q�写入烦引文件的是byte[]�c�d��Q�需要解码，如下所�C�：

byte[] fieldNorms = reader.norms(field);
float fieldNorm = fieldNorms!=null ? Similarity.decodeNorm(fieldNorms[doc]) : 0.0f;

调用Similarity�cȝ��decodeNorm�Ҏ��Q�将byte[]�c�d��D�{化�ؓfloat��点��|��

public static float decodeNorm(byte b) {
return NORM_TABLE[b & 0xFF]; // & 0xFF maps negative bytes to positive above 127
}

�q�样�Q�一个��Q点型的fieldNorm的值就被读取出来了�Q�可以参加一些运��，最�l�实现Lucene的Document的得分的计算�?/span>

queryWeight的计��?/span>

queryWeight的计��可以在org.apache.lucene.search.TermQuery.TermWeight�c�M��的sumOfSquaredWeights�Ҏ��中看到计��的实现�Q?/span>

    public float sumOfSquaredWeights() {
      queryWeight = idf * getBoost();             // compute query weight
      return queryWeight * queryWeight;          // square it
    }

其实默认情况下，queryWeight = idf�Q�因为Lucune中默认的�Ȁ励因子boost = 1.0�?/span>

各个Document的queryWeight的计��如下所�C�：

queryWeight = 0.81767845 * 0.81767845 = 0.6685980475944025�Q?/span>

queryNorm的计��?/span>

queryNorm的计��在DefaultSimilarity�c�M��实现�Q�如下所�C�：

/** Implemented as 1/sqrt(sumOfSquaredWeights). */
public float queryNorm(float sumOfSquaredWeights) {
return (float)(1.0 / Math.sqrt(sumOfSquaredWeights));
}

�q�里�Q�sumOfSquaredWeights的计��是在org.apache.lucene.search.TermQuery.TermWeight�c�M��的sumOfSquaredWeights�Ҏ��实现�Q?/span>

    public float sumOfSquaredWeights() {
      queryWeight = idf * getBoost();             // compute query weight
      return queryWeight * queryWeight;          // square it
    }

其实默认情况下，sumOfSquaredWeights = idf * idf�Q�因为Lucune中默认的�Ȁ励因子boost = 1.0�?/span>

上面��试例子中sumOfSquaredWeights的计��如下所�C�：

sumOfSquaredWeights = 0.81767845*0.81767845 = 0.6685980475944025�Q?/span>

然后�Q�就可以计算queryNorm的��g��Q�计��如下所�C�：

queryNorm = (float)(1.0 / Math.sqrt(0.6685980475944025) = 1.2229746301862302962735534977105�Q?/span>

value的计��?/span>

org.apache.lucene.search.TermQuery.TermWeight�cȝ��中还定义了一个value成员�Q?/span>

private float value;

关于value的计��，可以在它的子�c�org.apache.lucene.search.TermQuery.TermWeight�c�M��看到计算的实玎ͼ�

    public void normalize(float queryNorm) {
      this.queryNorm = queryNorm;
      queryWeight *= queryNorm;                   // normalize query weight
      value = queryWeight * idf;                  // idf for document
    }

�q�里�Q��用normalize�Ҏ��计算value的��|��卻I��

value = queryNorm * queryWeight * idf;

上面��试例子中value的��D��如下：

value = 1.2229746301862302962735534977105 * 0.6685980475944025 * 0.81767845 = 0.66859804759440249999999999999973�Q?/span>

关于fieldWeight

从检索结果中�Q�可以看刎ͼ�

0.81767845 = (MATCH) fieldWeight(contents:一�?in 0), product of:

字符�?(MATCH) "的输在ComplexExplanation�c�M��的getSummary�Ҏ��中可以看刎ͼ�

protected String getSummary() {
    if (null == getMatch())
      return super.getSummary();

    return getValue() + " = "
      + (isMatch() ? "(MATCH) " : "(NON-MATCH) ")
      + getDescription();
}

�q�个fieldWeight的值其实和Document的得分是相等的，先看�q�个fieldWeight是如何计��出来的�Q�在org.apache.lucene.search.TermQuery.TermWeight�c�M��的explain�Ҏ��中可以看刎ͼ�

      ComplexExplanation fieldExpl = new ComplexExplanation();
      fieldExpl.setDescription("fieldWeight("+term+" in "+doc+
                               "), product of:");

      Explanation tfExpl = scorer(reader).explain(doc);
      fieldExpl.addDetail(tfExpl);
      fieldExpl.addDetail(idfExpl);

      result.addDetail(fieldExpl);
      result.setMatch(fieldExpl.getMatch());

      // combine them
      result.setValue(queryExpl.getValue() * fieldExpl.getValue());

if (queryExpl.getValue() == 1.0f)
return fieldExpl;

上面�Q�ComplexExplanation fieldExpl被设�|�了很多��内容，我们��׃��q�里来获取fieldWeight的计��的实现�?/span>

关键是在下面�q�行了计��：

fieldExpl.setValue(tfExpl.getValue() *
idfExpl.getValue() *
fieldNormExpl.getValue());

使用计算式表�C�就�?/span>

fieldWeight = tf * idf * fieldNorm

fieldNorm的值因为是在徏立烦引的时候写入到索引文�g中的�Q�烦引只需要从上面的测试结果中取来�Q�进行如下关于Document的分数的计算的验证�?/span>

使用我们�q�个例子来计��检索出来的Docuyment的fieldWeight�Q�需要用到前面计��出来的�l�果�Q�如下所�C�：

�~�号�?的Document�?fieldWeight 为：1.0 * 0.81767845 * 1.0 = 0.81767845�Q?br /> �~�号�?的Document�?fieldWeight 为：1.0 * 0.81767845 * 0.5 = 0.408839225�Q?br /> �~�号�?的Document�?fieldWeight 为：1.0 * 0.81767845 * 0.5 = 0.408839225�Q?br /> �~�号�?的Document�?fieldWeight 为：1.4142135 * 0.81767845 * 0.4375 = 0.5059127074089703125�Q?br /> �~�号�?的Document�?fieldWeight 为：1.4142135 * 0.81767845 * 0.4375 = 0.5059127074089703125�Q?/span>

�Ҏ��一下，其实��索结果中Document的得分就是这个fieldWeight的��|��验证后，正好相符(注意�Q�我�q�里没有�q�行舍入�q�算)�?/span>

�ȝ��说明

上面的计��得分是按照Lucene默认讄��的情况下�q�行的，比如�Ȁ励因子的默认��gؓ1.0�Q�它体现的是一个Document的重要性，��x��谓的fieldWeight�?/span>

不仅可以通过��Z��个Document讄��Ȁ励因子boost�Q�而且可以通过��Z��个Document中的Field讄��boost�Q�因��Z��个Document的权重体现在它当中的Field上，即上面计��出来的fieldWeight与Document的得分是相等的�?/span>

提高一个Document的激励因子boost�Q�可以��该Document被检索出来的默认排序靠前�Q�即说明比较重要。也��是��_��修改�Ȁ励因子boost能够改变��索结果的排序�?/span>

西瓜 2011-04-15 11:02 发表评论

Sphinx

西瓜 — Fri, 01 Apr 2011 06:13:00 GMT

首先我们要从 Sphinx 官网�?http://www.sphinxsearch.com/downloads.html 下蝲 mysql-5.0.45-sphinxse-0.9.8-win32.zip �? sphinx-0.9.8.1-win32.zip�Q�假设你已经安装好了 MySQL

先将 mysql 服务停掉解压 mysql-5.0.45-sphinxse-0.9.8-win32.zip ��?bin �?share 覆盖�?mysql 目录中的 bin �?share 解压 sphinx-0.9.8.1-win32.zip 到独立的目录�Q�如:d:/www/sphinx/�?

接着开�?mysql 服务�Q�徏�?"test" 数据库，�q�导�?sql 语句,如下�Q?

-----------------------------------------------------------

CREATE TABLE `documents` (
`id` int(11) NOT NULL auto_increment,
`group_id` int(11) NOT NULL,
`group_id2` int(11) NOT NULL,
`date_added` datetime NOT NULL,
`title` varchar(255) NOT NULL,
`content` text NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5;

INSERT INTO `documents` VALUES ('1', '1', '5', '2008-09-13 21:37:47', 'test one', 'this is my test document number one. also checking search within phrases.');
INSERT INTO `documents` VALUES ('2', '1', '6', '2008-09-13 21:37:47', 'test two', 'this is my test document number two');
INSERT INTO `documents` VALUES ('3', '2', '7', '2008-09-13 21:37:47', 'another doc', 'this is another group');
INSERT INTO `documents` VALUES ('4', '2', '8', '2008-09-13 21:37:47', 'doc number four', 'this is to test groups');

-------------------------------------------实际上，�q�个新徏立的表就�?Sphinx 中的 example.sql

我们的测试表已经建立完成�Q�接下来我们要配�|?sphinx-doc.conf 文�g�Q�重要）

先将 sphinx 下的 sphinx-min.conf 复制一份改名�ؓ sphinx-doc.conf�Q�接着修改�?

----------------------------------------------------------------------

#
# Minimal Sphinx configuration sample (clean, simple, functional)
#
# type----------------------------------------数据库类型，目前支持 mysql �?pgsql
# strip_html--------------------------------是否��L��html 标签
# sql_host----------------------------------数据库主机地址
# sql_user----------------------------------数据库用户名
# sql_pass----------------------------------数据库密�?
# sql_db-------------------------------------数据库名�U?
# sql_port-----------------------------------数据库采用的端口
# sql_query_pre--------------------------执行sql前要讄��的字�W�集�Q�用utf8必须SET NAMES utf8
# sql_query---------------------------------全文��索要昄��的内容，在这里尽可能不��用where�? group by�Q�将 where �?groupby 的内容交�l?sphinx�Q�由 sphinx �q�行条�g�q��o�?groupby 效率会更�?
# 注意: select 出来的字�D�必��至��包括一个唯一主键 (ARTICLESID) 以及要全文检索的字段�Q�你计划原本�?where 中要用到的字�D�也�?select 出来
# �q�里不用使用orderby
# sql_attr_ 开头的表示一些属性字�D�，你原计划要用�?where, orderby, groupby 中的字段要在�q�里定义(# ��己添加的注释内容)

#source 数据源名:

source documents
{
type             = mysql
sql_host     = localhost
sql_user      = root
sql_pass     = yourpassword
sql_db         = test
sql_port       = 3306 # optional, default is 3306

sql_query_pre     = SET NAMES utf8
sql_query     = \
   SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
   FROM documents

sql_attr_uint    = group_id
sql_attr_timestamp   = date_added

sql_query_info    = SELECT * FROM documents WHERE id=$id
}

index documents
{
source      = documents

#path   索引记录存放目录�Q�如 d:/sphinx/data/cgfinal ,实际存放时会存放�?d:/sphinx/data 目录�Q�然后创建多�?cgfinal 名称�Q�不同扩展名的烦引文件�?
path          = d:/www/sphinx/data/doc
docinfo      = extern
enable_star     = 1

min_word_len     = 3
min_prefix_len     = 0
min_infix_len     = 3
charset_type    = sbcs

# 其他的配�|�如 min_word_len, charset_type, charset_table, ngrams_chars, ngram_len �q�些则是支持中文��索需要设�|�的内容�?
# 如果��索的不是中文�Q�则 charset_table, ngrams_chars, min_word_len ��p��讄��不同的内容，具体官方�|�站的论坛中有很多，大家可以��L��索看看�?
}

# mem_limit 索引使用内存最大限�Ӟ��Ҏ��机器情况而定�Q�默认是32M�Q�太��的会媄响烦引的性能�?
indexer
{
mem_limit     = 32M
}

# 搜烦的守护进�E�配�|?
# 在进行全文检索过�E�中�Q�searchd要先开启，mysql在全文检索时才能�q�接到sphinx�Q�由sphinx�q�行全文��索，再将�l�果�q�回�l�mysql
# address 侦听��h��的地址�Q�不讄��则侦听所有地址
# port 侦听端口
searchd
{
port     = 3312
log       =d:/www/sphinx/logs/searched_doc.log
query_log     = d:/www/sphinx/logs/query_doc.log
read_timeout    = 5
max_children    = 30
pid_file     = d:/www/sphinx/logs/searched-doc.pid
max_matches     = 1000
seamless_rotate    = 0
preopen_indexes    = 0
unlink_old     = 1
}

----------------------------------------------------------------------

��Z��试�Q�我们的 Sphinx 配置文�g已经写好�Q�确保我们的 Mysql 数据库已�l�启动，如果没有启动则在 cmd 中键�? net start mysql "

接下来，我们的测试正式开始：

1�Q�生成数据烦引或重徏索引�Q?

�Q�最好再复制一�?sphinx-doc.conf 配置文�g�Q��ƈ把它攑օ� bin 文�g夹中�Q�下面的举例假设我们已经�q�样做）�Q?

�?cmd 模式下：输入�Q?

d:/www/sphinx/bin/indexer.exe --config d:/www/sphinx/bin/sphinx-doc.conf documents

2�Q�运行检索守护进�E?searchd.exe�Q?

d:/www/sphinx/bin/searchd.exe --config d:/www/sphinx/bin/sphinx-doc.conf

如过�q�两步没有报错的话，说明我们�?Sphinx 已经正常�q�行了！可以通过 netstat -an 查看是否 3312 端口是否处如监听状态�?

3�Q�现在来�?sphinx 自带的工�?search.exe 来测试一下：

��试�Q?

索引关键字： this is m

D:\www\sphinx\bin>search.exe -c d:/www/sphinx/bin/sphinx-doc.conf this is m

�l�果�Q?

Sphinx 0.9.8-release (r1371)
Copyright (c) 2001-2008, Andrew Aksyonoff

using config file 'd:/www/sphinx/bin/sphinx-doc.conf'...
WARNING: index 'documents': invalid morphology option 'extern' - IGNORED
index 'documents': query 'this is m ': returned 4 matches of 4 total in 0.000 s
c

displaying matches:
1. document=1, weight=1, group_id=1, date_added=Sat Sep 13 21:37:47 2008
        id=1
        group_id=1
        group_id2=5
        date_added=2008-09-13 21:37:47
        title=test one
        content=this is my test document number one. also checking search withi
phrases.
2. document=2, weight=1, group_id=1, date_added=Sat Sep 13 21:37:47 2008
        id=2
        group_id=1
        group_id2=6
        date_added=2008-09-13 21:37:47
        title=test two
        content=this is my test document number two
3. document=3, weight=1, group_id=2, date_added=Sat Sep 13 21:37:47 2008
        id=3
        group_id=2
        group_id2=7
        date_added=2008-09-13 21:37:47
        title=another doc
        content=this is another group
4. document=4, weight=1, group_id=2, date_added=Sat Sep 13 21:37:47 2008
        id=4
        group_id=2
        group_id2=8
        date_added=2008-09-13 21:37:47
        title=doc number four
        content=this is to test groups

words:
1. 'this': 4 documents, 4 hits

-------------------

索引关键字： this is another group

D:\www\sphinx\bin>search.exe -c d:/www/sphinx/bin/sphinx-doc.conf this is another group

�l�果�Q?

Sphinx 0.9.8-release (r1371)
Copyright (c) 2001-2008, Andrew Aksyonoff

-------------------

到此sphinx在win上算正常�q�行了，sphinx-doc.conf文�g配置比较灉|��Q�根据你需要烦引的数据库进行灵�z�配�|�来辑ֈ�你需要的效果

如果配置�q�程中出现运行参数配�|�问题可以查�?doc/sphinx.html文�g�Q�里面对各种参数都要详细的说�?

using config file 'd:/www/sphinx/bin/sphinx-doc.conf'...
WARNING: index 'documents': invalid morphology option 'extern' - IGNORED
index 'documents': query 'this is another group ': returned 1 matches of 1 total
in 0.000 sec

displaying matches:
1. document=3, weight=4, group_id=2, date_added=Sat Sep 13 21:37:47 2008
        id=3
        group_id=2
        group_id2=7
        date_added=2008-09-13 21:37:47
        title=another doc
        content=this is another group

words:
1. 'this': 4 documents, 4 hits
2. 'another': 1 documents, 2 hits
3. 'group': 1 documents, 1 hits

西瓜 2011-04-01 14:13 发表评论

lucene优化

西瓜 — Thu, 02 Sep 2010 01:56:00 GMT

Boosting Documents and Fields
setBoost(float) 讄��Documents和Fields在index中的重要�?br />
可以�l�document讄��boost�Q�也可以�l�field讄��boost
讄��boost会删除原来的document然后重新建立索引

doc.setBoost();
field.setBoost();

boost是怎样存储到index中的�Q�利用norms
在徏立烦引过�E�中生成的boosts会被�l�合在一起变成一个��Q�Ҏ��Q�然后每个文档每个字�D?br /> 都会存�ؓ一个byte。在查询�q�程中，每个field的norms会被装入内存�Q�重新解码�ؓ一个��Q�Ҏ��

即��norms在徏立烦引的�q�程中得刎ͼ�我们也可以用IndexReader的setNorm�Ҏ��来改�?br />
norms会在搜烦�q�程中消耗过多的内存
我们可以��norms关闭�Q�Field.setOmitNorms(true)�Q�这��h��可能影响评分�Q�但是媄响效�?br /> 可以忽略

indexing dates×
DataTools.dateToString(new Date(),DateTools.Resolution.DAY);

Indexing numbers
lucene利用词典�~�排来给field排序�Q�也��是说如果有3个数�Q?�Q?1�Q?0�Q�正常的排序是：7�Q?0�Q?1。但是词典排序是�Q?0�Q?�Q?1。一个简单和通用的方法是�l�数字加前缀0�Q?07�Q?20�Q?71

indexing fields for sorting
field建立索引但是不分词Field.Index.NOT_ANALYZED�Q�字�D�必��d��储Integers,Floats,Strings

Field truncation
比如说你只想�l�一个文档前200个字建立索引
在indexWriter的构造方法中传递MaxFieldLength参数
�pȝ��讑֮�的值MaxFieldLength.UNLIMITED和MaxFieldLength.LIMITED

可以调用setMaxFieldLength()�Ҏ��来修�?br />
IndexWriter.setInfoStream(System.out) 关于合�ƈ�Q�删除的信息以及当maxFieldLength到达会显�C�Z��?br />
Optimizing an index
索引优化只能提高搜烦的速度�Q�不会加快徏立烦引的速度,不进行优化也有可能获得很好的搜烦吞吐�?/p>

IndexWriter提供4个优化方�?/p>

optimize()�Q�将index减少��C��个segment�Q�只到操作完成才�q�回

optimize(int maxNumSeqments)�Q�部分优化，一般来��_��index合�ƈ到最后一个segment最消耗时��_��所以优化到5个segment会比优化�?个segment�?/li>

optimize(boolean doWait)�Q�同optimize()一��P��只是当doWait为false的时候，该方法会立刻�q�回�Q�合�q�烦引操作在后台�q�行

optimize(int maxNumSegments,boolean doWait)

西瓜 2010-09-02 09:56 发表评论

Lucene打分公式

西瓜 — Thu, 29 Jul 2010 07:15:00 GMT

在进行Lucene的搜索过�E�解析之前，有必要单独的一张把Lucene score公式的推��|��各部分的意义阐述一下。因为Lucene的搜索过�E�，很重要的一个步骤就是逐步的计��各部分的分数�?/p>

Lucene的打分公式非常复杂，如下�Q?/p>

在推��g��前，先逐个介绍每部分的意义�Q?/p>

t�Q�Term�Q�这里的Term是指包含域信息的Term�Q�也即title:hello和content:hello是不同的Term
coord(q,d)�Q�一�ơ搜索可能包含多个搜索词�Q�而一��文档中也可能包含多个搜索词�Q�此��表�C�，当一��文档中包含的搜索词��多�Q�则此文档则打分��高�?
queryNorm(q)�Q�计��每个查询条目的方差和，此值�ƈ不媄响排序，而仅仅��得不同的query之间的分数可以比较。其公式如下�Q?

tf(t in d)�Q�Term t在文档d中出现的词频
idf(t)�Q�Term t在几��文档中出现�q?
norm(t, d)�Q�标准化因子�Q�它包括三个参数�Q?
- Document boost�Q�此��D��大，说明此文档越重要�?
- Field boost�Q�此域越大，说明此域��重要�?
- lengthNorm(field) = (1.0 / Math.sqrt(numTerms))�Q�一个域中包含的Term��L��多�Q�也��x��档越长，此��D��，文档��短�Q�此��D��大�?

各类Boost�?
- t.getBoost()�Q�查询语句中每个词的权重�Q�可以在查询中设定某个词更加重要�Q�common^4 hello
- d.getBoost()�Q�文档权重，在烦引阶�D�写入nrm文�g�Q�表明某些文档比其他文档更重要�?
- f.getBoost()�Q�域的权重，在烦引阶�D�写入nrm文�g�Q�表明某些域比其他的域更重要�?

以上在Lucene的文档中已经详细提到�Q��ƈ在很多文章中也被阐述�q�，如何调整上面的各部分�Q�以影响文档的打分，请参�?a >有关Lucene的问�?4):影响Lucene�Ҏ��档打分的四种方式一文�?/p>

然而上面各部分��Z��么要�q�样计算在一起呢�Q�这么复杂的公式是怎么得出来的呢？下面我们来推对{�?/p>

首先�Q�将以上各部分代入score(q, d)公式�Q�将得到一个非常复杂的公式�Q�让我们忽略所有的boost�Q�因��些属于�h为的调整�Q�也省略coord�Q�这和公式所要表辄��原理无关。得��C��面的公式�Q?/p>

然后�Q�有Lucene学习�ȝ��之一�Q�全文检索的基本原理中的描述我们知道�Q�Lucene的打分机制是采用向量�I�间模型的：

我们把文档看作一�p�d��?Term)�Q�每一个词(Term)都有一个权�?Term weight)�Q�不同的�?Term)�Ҏ��自己在文档中的权重来影响文档相关性的打分计算�?

于是我们把所有此文档中词(term)的权�?term weight) 看作一个向量�?

Document = {term1, term2, …… ,term N}

Document Vector = {weight1, weight2, …… ,weight N}

同样我们把查询语句看作一个简单的文档�Q�也用向量来表示�?

Query = {term1, term 2, …… , term N}

Query Vector = {weight1, weight2, …… , weight N}

我们把所有搜索出的文档向量及查询向量攑ֈ�一个N�l�空间中�Q�每个词(term)是一�l��?

我们认�ؓ两个向量之间的夹角越��，相关性越大�?

所以我们计��夹角的余��u��g��为相��x��的打分�Q�夹角越��，余��u��D��大，打分��高�Q�相��x��越大�?

余��u公式如下�Q?/p>

下面我们假设�Q?/p>

查询向量为Vq =

文档向量为Vd =

向量�I�间�l�数为n�Q�是查询语句和文档的�q��的长度，当某个Term不在查询语句中出现的时候，w(t, q)为零�Q�当某个Term不在文档中出现的时候，w(t, d)为零�?/p>

w代表weight�Q�计��公式一般�ؓtf*idf�?/p>

我们首先计算余��u公式的分子部分，也即两个向量的点�U�：

Vq*Vd = w(t1, q)*w(t1, d) + w(t2, q)*w(t2, d) + …… + w(tn ,q)*w(tn, d)

把w的公式代入，则�ؓ

Vq*Vd = tf(t1, q)*idf(t1, q)*tf(t1, d)*idf(t1, d) + tf(t2, q)*idf(t2, q)*tf(t2, d)*idf(t2, d) + …… + tf(tn ,q)*idf(tn, q)*tf(tn, d)*idf(tn, d)

在这里有三点需要指出：

�׃��是点�U�，则此处的t1, t2, ……, tn只有查询语句和文档的�q��有非零��|��只在查询语句出现的或只在文档中出现的Term的项的��gؓ零�?
在查询的时候，很少有�h会在查询语句中输入同��L��词，因而可以假设tf(t, q)都�ؓ1
idf是指Term在多��篇文档中出现过�Q�其中也包括查询语句�q�篇��文档，因而idf(t, q)和idf(t, d)其实是一��L��Q�是索引中的文档��L��加一�Q�当索引中的文档��L��_��大的时候，查询语句�q�篇��文档可以忽略，因而可以假设idf(t, q) = idf(t, d) = idf(t)

��Z��上述三点�Q�点�U�公式�ؓ�Q?/p>

Vq*Vd = tf(t1, d) * idf(t1) * idf(t1) + tf(t2, d) * idf(t2) * idf(t2) + …… + tf(tn, d) * idf(tn) * idf(tn)

所以余弦公式变为：

下面要推导的��是查询语句的长度了�?/p>

�׃��面的讨论�Q�查询语句中tf都�ؓ1�Q�idf都忽略查询语句这��小文档�Q�得到如下公�?/p>

所以余弦公式变为：

下面推导的就是文档的长度了，本来文档长度的公式应该如下：

�q�里需要讨论的是，��Z��么在打分�q�程中，需要除以文档的长度呢？

因�ؓ在烦引中�Q�不同的文档长度不一��P��很显�Ӟ��对于��L��一个term�Q�在长的文档中的tf要大的多�Q�因而分��C��高�Q�这样对��的文档不公�q�I��举一�? 极端的例子，在一��?000万个词的鸿篇巨著中，"lucene"�q�个词出��C��11�ơ，而在一��?2个词的短��文档中�Q?lucene"�q�个词出��C��10 �ơ，如果不考虑长度在内�Q�当焉��`��巨著应该分数更高，然而显然这��小文档才是真正��x��"lucene"的�?/p>

然而如果按照标准的余��u计算公式�Q�完全消除文档长度的影响�Q�则又对长文档不公��^(毕竟它是包含了更多的信息)�Q�偏向于首先�q�回短小的文档的�Q�这样在实际应用中��得搜索结果很隄��?/p>

所以在Lucene中，Similarity的lengthNorm接口是开攑և�来，用户可以�Ҏ��自己应用的需要，改写lengthNorm的计��? 公式。比如我惛_��一个经��学论文的搜索系�l�，�l�过一定时间的调研�Q�发现大多数的经��学论文的长度在8000�?0000词，因而lengthNorm的公式应该是一个倒抛物线型的�Q?000�?10000词的论文分数最高，更短或更长的分数都应该偏低，方能够返回给用户最好的数据�?/p>

在默认状况下�Q�Lucene采用DefaultSimilarity�Q�认为在计算文档的向量长度的时候，每个Term的权重就不再考虑在内了，而是全部��Z��?/p>

而从Term的定义我们可以知道，Term是包含域信息的，也即title:hello和content:hello是不同的Term�Q�也即一个Term只可能在文档中的一个域中出现�?/p>

所以文档长度的公式为：

代入余��u公式�Q?/p>

再加上各�U�boost和coord�Q�则可得出Lucene的打分计��公式�?/p>

西瓜 2010-07-29 15:15 发表评论

Lucene的检索优化（转）

西瓜 — Mon, 19 Jul 2010 03:46:00 GMT

而尽可能减少IndexSearcher的创建和�Ҏ��索结果的前台的缓存也是必要的�?/p>

Lucene面向全文��索的优化在于首次索引��索后�Q��ƈ不把所有的记录�Q�Document�Q�具体内容读取出来，而是只将所有结果中匚w��度最高的�?br /> 100条结果（TopDocs�Q�的ID攑ֈ��l�果集缓存中�q�返回，�q�里可以比较一下数据库��索：如果是一�?0,000条的数据库检索结果集�Q�数据库是一�?br /> 要把所有记录内定w��取得以后再开始返回给应用�l�果集的。所以即使检索匹配��L��很多�Q�Lucene的结果集占用的内存空间也不会很多。对于一般的模糊��索应
用是用不到这么多的结果的�Q�头100条已�l�可以满��?0%以上的检索需求�?/p>

如果首批�~�存�l�果数用完后�q�要��d��更后面的�l�果时Searcher会再�ơ检索�ƈ生成一个上�ơ的搜烦�~�存数大1倍的�~�存�Q��ƈ再重新向后抓取。所以如�?br /> 构造一个Searcher��L��1�Q?20条结果，Searcher其实是进行了2�ơ搜索过�E�：�?00条取完后�Q�缓存结果用完，Searcher重新��?br /> 再构造一�?00条的�l�果�~�存�Q�依此类推，400条缓存，800条缓存。由于每�ơSearcher对象消失后，�q�些�~�存也访问那不到了，你有可能惛_��l�果
记录�~�存下来�Q�缓存数��量保证�?00以下以充分利用首�ơ的�l�果�~�存�Q�不让Lucene��费多次��索，而且可以分��q�行�l�果�~�存�?/p>

Lucene的另外一个特�Ҏ��在收集结果的�q�程中将匚w��度低的结果自动过滤掉了。这也是和数据库应用需要将搜烦的结果全部返回不同之处�?/p>

刚刚开始学Lucene�Q�看的是Lucene in
Action。顺着看下去，很自然的��是使用Hits来访问Search的结果。但是��用�v来，发现Search的速度是很快，不过如果�l�果很多的话�Q�比 �?W个）�Q�通过Hits讉K��所有的�l�果速度非常慢，��是��单地从每个结果中��M��个Field�Q�在我的机器上用了接�q?分钟。因为我的应用烦引的只是我的数据的两个域包含文本信息的域�Q�我本希望通过Lucene查找出符合需求的数据ID�Q�再通过ID��d��断数据库中的其他域来军_��最�l�的�l�果。这栯��取ID��? 需�?分钟�Q�我的应用可受不了�?/p>

�W�一个想到的�Ҏ��是把我的全部数据域都做成Lucene的烦引，然后全部通过Lucene��L��索。但是由于我的很多域是数字，全部转换�? Lucene能接受的字符�Ԍ��感觉性能不会好。另外如果我想针�Ҏ��索的�l�果做统计，也没法避免需要遍历全部的搜烦�l�果�Q�如�?W个结果就需�?分钟的话�Q? ��q��不用处理其他的域�Q�也是不能忍受的�?/p>

开源��Y件的好处��是可以��M��码。通过阅读Hits的代码，�l�于扑ֈ�了解决问题的办法�?/p>

Lucene
的代码看��h��q�不是特别Professional。比如下面这两个Hits的初始化函数。首先里面的q,s,f什么的让�h看�v来就不是太舒服（其他的代�? 里还用i,j做��@环变量）。其�ơ这两个函数只有o那一个赋��g��一��P��明显应该只写一个，让另一个来调用。最后程序里面直接用�?0�q�个常数�Q�编�E�的�? 忌。（50在其他函数里面也有）

Hits(Searcher s, Query q, Filter f) throws IOException {
    weight =
q.weight(s);
    searcher =
s;
    filter =
f;
    nDeletions =
countDeletions(s);

getMoreDocs(50); // retrieve 100 initially

lengthAtStart = length;
}

Hits(Searcher s, Query q, Filter f, Sort o)
throws IOException {
    weight =
q.weight(s);
    searcher =
s;
    filter =
f;
    sort =
o;
    nDeletions =
countDeletions(s);

getMoreDocs(50); // retrieve 100 initially

lengthAtStart = length;
}
通过�q�两个函敎ͼ�应该看出Hits初始化的时候只调入了前100个文档�?/p>

一般我们是通过Document doc(int
n)函数来访问的。这个函数里面先判断了有多少数据已经被调入了�Q�如果要讉K��的数据不在，��去调用getMoreDocs函数�Q�getMoreDocs�? 取得需要的2倍文档进来�?/p>

但是getMoreDocs的代码比较让人疑惑，里面一�D�代码是�q�样的：
    int n = min
* 2;    //
double # retrieved
    TopDocs
topDocs = (sort == null) ? searcher.search(weight, filter, n) :
searcher.search(weight, filter, n, sort);
�q�不成了每次��d��的时候都要去调search重新查找吗？除非search里面有缓存，否则性能一定指��C��降啊�Q?br /> 实际上Hits最�l��用的也是TopDocs�Q�Searcher�l�合来实现输出结果，那不如我们来直接使用下层一点的对象了。我原来的代码是�Q?/p>

Hits hits = searcher.search(query);
for( int i=0;i Document doc
= hits .doc(i );

szTest.add(doc);
}
现在改�ؓ�Q?br /> TopDocs topDoc = searcher.search(query.weight(searcher), null,
100000);//注意最后一个参敎ͼ�是search�q�回的结果数量，应该比你最大可能返回的数量大，否则ScoreDoc里面��是你设�|�的数量�?/p>

ScoreDoc[] scoreDocs = topDoc.scoreDocs;
for( int i=0;i Document doc
= searcher.doc(scoreDocs[i].doc );

szTest.add(doc);
}
�l�果�?2000个ID加入ArrayList用时0.4�U�，快了几百倍�?/p>

�{�等�Q�还没完�?br /> 我只需要ID字段�Q�但是返回整个Doc�Q�其他两个文本Field也返回了。因为Lucene是倒烦引保存信息的�Q�每一个文本Field需要重新组合成原始的字�W�串�Q�这也是要耗时间的。searcher的doc函数有一个可以限定只取部分域的：

Document doc(int n, FieldSelector fieldSelector)

我下面定义一个FieldSelector�Q�只取某一个给定名字的Field
class SpecialFieldSelector implements FieldSelector {
    protected
String m_szFieldName;
    public
SpecialFieldSelector( String szFieldName ) {

m_szFieldName = szFieldName;
    }

    public
FieldSelectorResult accept(String fieldName) {

if( fieldName.equalsIgnoreCase(m_szFieldName)) {

return FieldSelectorResult.LOAD;

}

else {

return FieldSelectorResult.NO_LOAD;

}

}
}
再修�Ҏ��的代码：
ScoreDoc[] scoreDocs = topDoc.scoreDocs;
ArrayList szTest = new
ArrayList();
FieldSelector fieldSelector = new
SpecialFieldSelector(FIELD_ID);
for( int i=0;i
Document doc = searcher.doc(scoreDocs[i].doc, fieldSelector);

szTest.add(doc);
}
现在�q�回1.2W个ID耗时0.25�U�。虽然比前面只少了大�U?50毫秒�Q�但是是接近40%的提高了�Q�在负蝲比较大的应用中还是很重要的�?/p>

注：
   有些可以借鉴�?br />

西瓜 2010-07-19 11:46 发表评论

Lucene�W�记

西瓜 — Fri, 16 Jul 2010 03:04:00 GMT

��先将关键词进行分�?br />

    // tokenStream分词
    public static String analyze(Analyzer analyzer, String keyword) throws IOException {
        StringBuffer sb = new StringBuffer();
        TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(keyword));
        for (Token token = new Token(); (token = tokenStream.next(token)) != null;) {

            sb.append(token.term() + " ");
        }
        return sb.toString();

    }

讄��关键词之间空格的与或关系

queryParser_and.setDefaultOperator(QueryParser.AND_OPERATOR);
queryParser_or.setDefaultOperator(QueryParser.OR_OPERATOR);

�q��o�Ҏ��字符

Query query_and = queryParser_and.parse(QueryParser.escape(keyword));

遇到多余一个空格后的处�?br />

    /**
     *
     * 把超�q�一个空格后面的转化�?nbsp;OR 可��辑ּ�
     *
     * @param wd
     * @return eg: ibm t60 mp3 液晶 ibm t60 OR mp3 OR 液晶
     */
    public static String nvl(String value) {
        return value == null ? "" : value;
    }

    public static String parseWd(String wd) {
        String retwd = nvl(wd).replaceAll("　", " ").replaceAll("  ", " ");
        String[] arr = nvl(retwd).split(" ");
        if (arr != null && arr.length > 2) {
            retwd = (arr[0].trim().equals("OR") ? "" : arr[0] + " ") + (arr[1].trim().equals("OR") ? "" : arr[1]);
            for (int i = 2; i < arr.length; i++) {
                if (!arr[i].trim().equals("OR")) {
                    retwd += " OR " + arr[i];
                }
            }
        }
        return retwd;
    }

西瓜 2010-07-16 11:04 发表评论

Lucene 2.9.0 使用

西瓜 — Mon, 12 Jul 2010 03:49:00 GMT

最�?.9的IndexWriter 建立方式�Q?/font>

Directory directory = new SimpleFSDirectory(new File(path),new SimpleFSLockFactory()); // 先要建立directory
IndexWriter writer = new IndexWriter(directory,new WhitespaceAnalyzer(), cover,IndexWriter.MaxFieldLength.UNLIMITED); // �q�里最大字�D�长度无限（大字�D�|��content�Q�，cover为true表示覆盖写用于初始化�Q�false用于更新�Q�这里就�? WhitespaceAnalyzer()分词�?nbsp;
Directory directory = new SimpleFSDirectory(new File(path),new SimpleFSLockFactory()); // 先要建立directory
IndexWriter writer = new IndexWriter(directory,new WhitespaceAnalyzer(), cover,IndexWriter.MaxFieldLength.UNLIMITED); // �q�里最大字�D�长度无限（大字�D�|��content�Q�，cover为true表示覆盖写用于初始化�Q�false用于更新�Q�这里就�? WhitespaceAnalyzer()分词�?/font>

IndexWriter 参数调整

writer.setMergeFactor(50); // 多少个合�q�一��?nbsp;
writer.setMaxMergeDocs(5000); // 一个segment最多有多少个document�Q�nbsp;
writer.setMergeFactor(50); // 多少个合�q�一��?br style="word-wrap: break-word;" /> writer.setMaxMergeDocs(5000); // 一个segment最多有多少个document�Q?font>

把其他格式�{化�ؓlucene需要的document�Q�式

document�Q�doc = new document�Q?; //每一个doc相当于数据库的一条记�?nbsp;
doc.add(new Field("uid", line.getUid().toString(), Store.YES,Index.NO)); //每一个field�Q�相当于数据库的字段

doc.add(new Field("title", line.getTitle(), Store.NO,Index.ANALYZED));
doc.add(new Field("content", line.getContent(),Store.NO, Index.ANALYZED));
document�Q�doc = new document�Q?; //每一个doc相当于数据库的一条记�?br style="word-wrap: break-word;" /> doc.add(new Field("uid", line.getUid().toString(), Store.YES,Index.NO)); //每一个field�Q�相当于数据库的字段

doc.add(new Field("title", line.getTitle(), Store.NO,Index.ANALYZED));
doc.add(new Field("content", line.getContent(),Store.NO, Index.ANALYZED));

向IndexWriter��d��doc�Q�可以插入多条doc

writer.adddocument�Q�doc);
writer.adddocument�Q�doc2);
writer.adddocument�Q�doc3);
writer.adddocument�Q�doc);
writer.adddocument�Q�doc2);
writer.adddocument�Q�doc3);

开始写入（close的时候�ؓ实际写入�q�程�Q?/p>

writer.close();
writer = null;
writer.close();
writer = null;

��d��写入的烦引数

writer.numDocs()
writer.maxDoc()
writer.numDocs()
writer.maxDoc()

在close之前可以�q�行优化�Q�不��在徏立烦引时候��用）

writer.optimize()

2、清�I�烦�?br style="word-wrap: break-word;" /> Directory directory = new SimpleFSDirectory(new File(path),new SimpleFSLockFactory());
IndexWriter.unlock(directory); //关键是这一步要�q�行目录解锁�Q�这里解的是write.lock�?nbsp;
IndexWriter writer = new IndexWriter(directory,new WhitespaceAnalyzer(), false,IndexWriter.MaxFieldLength.LIMITED);
writer.deleteAll(); //标识删除全部
writer.optimize(); //�q�个步骤才是实际删除的过�E?nbsp;
writer.close();
Directory directory = new SimpleFSDirectory(new File(path),new SimpleFSLockFactory());
IndexWriter.unlock(directory); //关键是这一步要�q�行目录解锁�Q�这里解的是write.lock�?br style="word-wrap: break-word;" /> IndexWriter writer = new IndexWriter(directory,new WhitespaceAnalyzer(), false,IndexWriter.MaxFieldLength.LIMITED);
writer.deleteAll(); //标识删除全部
writer.optimize(); //�q�个步骤才是实际删除的过�E?br style="word-wrap: break-word;" /> writer.close();

3、删除指定烦引（和清�I�差不多�Q?br style="word-wrap: break-word;" /> writer.deletedocument�Q?new Term("uri", uri)); //�q�里是删除term满��条�g的一条或多条
writer.deletedocument�Q?query); //�q�里是删除一个查询出来的内容
writer.deletedocument�Q?new Term("uri", uri)); //�q�里是删除term满��条�g的一条或多条
writer.deletedocument�Q?query); //�q�里是删除一个查询出来的内容

4、更新烦�?br style="word-wrap: break-word;" /> ��是先删除再��d��的过�E�，没有直接update的办�?/p>

5、读取徏立的索引分词
TermEnum terms = indexReader.terms(new Term(index, ""));
Term term = terms.term(); //获取一条烦�?nbsp;
term().field(); //获取索引的field�Q�字�D�名�Q?nbsp;
term().text(); //获取索引的�?nbsp;
TermEnum terms = indexReader.terms(new Term(index, ""));
Term term = terms.term(); //获取一条烦�?br style="word-wrap: break-word;" /> term().field(); //获取索引的field�Q�字�D�名�Q?br style="word-wrap: break-word;" /> term().text(); //获取索引的�?/p>

6、搜�?br style="word-wrap: break-word;" /> 最�?.9的IndexSearcher 建立方式�Q?/p>

Directory directory = new SimpleFSDirectory(new File(path),new SimpleFSLockFactory());
IndexSearcher indexSearcher = new IndexSearcher(directory, true);
Directory directory = new SimpleFSDirectory(new File(path),new SimpleFSLockFactory());
IndexSearcher indexSearcher = new IndexSearcher(directory, true);

创徏查询条�g�Q�这里徏一个最复杂的，�Ҏ��多个限定条�g查找�Q��ƈ 且有的限定条件放在多个field中查找，有精��限定和范围限定�Q?/p>

BooleanQuery bQuery = new BooleanQuery();
Query query1 = null, query2 = null, query3 = null;
BooleanClause.Occur[] flags = new BooleanClause.Occur[] {BooleanClause.Occur.SHOULD, BooleanClause.Occur.SHOULD };
query1 = MultiFieldQueryParser.parse(params.get("keywords"),new String[] { "title", "content" }, flags, new WhitespaceAnalyzer());
bQuery.add(query1, Occur.MUST); //query1是把关键字分别在title和content中匹配！
query2 = new TermQuery(new Term("startgui", params.get("startgui")));
bQuery.add(query2, Occur.MUST); //query2是精��匹�?nbsp;
Long minPriceLong = Long.parseLong(params.get("minPrice"));
Long maxPriceLong = Long.parseLong(params.get("maxPrice"));
query5 = NumericRangeQuery.newLongRange("price", minPriceLong,
maxPriceLong, true, true);
bQuery.add(query5, Occur.MUST); //query3是按范围匚w��
BooleanQuery bQuery = new BooleanQuery();
Query query1 = null, query2 = null, query3 = null;
BooleanClause.Occur[] flags = new BooleanClause.Occur[] {BooleanClause.Occur.SHOULD, BooleanClause.Occur.SHOULD };
query1 = MultiFieldQueryParser.parse(params.get("keywords"),new String[] { "title", "content" }, flags, new WhitespaceAnalyzer());
bQuery.add(query1, Occur.MUST); //query1是把关键字分别在title和content中匹配！
query2 = new TermQuery(new Term("startgui", params.get("startgui")));
bQuery.add(query2, Occur.MUST); //query2是精��匹�?br style="word-wrap: break-word;" /> Long minPriceLong = Long.parseLong(params.get("minPrice"));
Long maxPriceLong = Long.parseLong(params.get("maxPrice"));
query5 = NumericRangeQuery.newLongRange("price", minPriceLong,
maxPriceLong, true, true);
bQuery.add(query5, Occur.MUST); //query3是按范围匚w��

排序情况

SortField[] sortField = new SortField[] { SortField.FIELD_SCORE,new SortField(null, SortField.DOC, true) }; // 默认排序
SortField sortPriceField = new SortField("sortPrice",SortField.LONG, sortPrice);
sortField = new SortField[] { sortPriceField,SortField.FIELD_SCORE,new SortField(null, SortField.DOC, true) }; //按自定义��h��排序
SortField[] sortField = new SortField[] { SortField.FIELD_SCORE,new SortField(null, SortField.DOC, true) }; // 默认排序
SortField sortPriceField = new SortField("sortPrice",SortField.LONG, sortPrice);
sortField = new SortField[] { sortPriceField,SortField.FIELD_SCORE,new SortField(null, SortField.DOC, true) }; //按自定义��h��排序

2.9最新查询方式，只是获取id

TopFieldDocs docs = indexSearcher.search(query, null, indexSearcher.maxDoc(), new Sort(sortField));
ScoreDoc[] scoreDocs = docs.scoreDocs;
docCount = scoreDocs.length;
TopFieldDocs docs = indexSearcher.search(query, null, indexSearcher.maxDoc(), new Sort(sortField));
ScoreDoc[] scoreDocs = docs.scoreDocs;
docCount = scoreDocs.length;

加入分页

List int max = ((startIndex + pageSize) >= docCount) ? docCount : (startIndex + pageSize); // max防止arrayindexoutofbounds
for (int i = startIndex; i < max; i++) {
    ScoreDoc scoredoc = scoreDocs[i];
    document�Q�doc = indexSearcher.doc(scoredoc.doc); // 新的使用�Ҏ��
    docList.add(doc);
}
List int max = ((startIndex + pageSize) >= docCount) ? docCount : (startIndex + pageSize); // max防止arrayindexoutofbounds
for (int i = startIndex; i < max; i++) {
ScoreDoc scoredoc = scoreDocs[i];
document�Q�doc = indexSearcher.doc(scoredoc.doc); // 新的使用�Ҏ��
docList.add(doc);
}

循环解析docList中的document�Q�取所需要的�?/p>

doc.get("title");

...

7、关于分�?br style="word-wrap: break-word;" /> 注意建立索引和搜索时候的analyzer必须一��_��而且建立索引和搜索时候目录也要保持一�?/p>

lucene自带的一些分词器

StandardAnalyzer() 会按�I�格和标点符号划�?/p>

WhitespaceAnalyzer() 会按�I�格划分

中文分词�q�里使用的是paoding的中文分�?/p>

是先按词库划分，当词库中不存在时按二分法�q�行划分

西瓜 2010-07-12 11:49 发表评论