日韩中文av,亚洲青青一区,欧美极品欧美精品欧美视频

lucene实时搜烦相关

leekiang — Mon, 22 Nov 2010 09:18:00 GMT

在做一个网站站内搜索中�Q��用lucene实现实时搜烦�Ӟ��我遇��C��一对矛盾：在��用一个IndexSearcher单例�Ӟ��搜烦的效率极高，但是�?indexSearcher实例新徏后新增的索引�Q�这个单例是不可见的�Q�除非我定时的去触发��这个IndexSearcher重新��Z��ơ，否则��׃��能搜索出最新的信息。假如我每来一�?request�Q�就新徏一个IndexSearcher实例�Q�则可以搜烦出最新的信息�Q�但是，效率非常低。不知道大家有什么好的策略或插�g�Q�提出来讨论讨论。（我现在的�{�略是定时的reopen下insexSearcher�Q?

可以使用�q�样的策略：
使用一个独立的�U�程�ȝ��护这个IndexSearcher,当烦引有更新�Ӟ��记录下烦引已更新�Q�当有request�Ӟ��先去��验一下烦引是否有更新�Q�有则reopen后再查，无则直接查�?

最��单的�Ҏ��Q�用timer定时生成下indexSearcher�Q�全文引擎有略微的�g时也是可以接受的�?

�?.3的包,有一个reopen()的方�?只会加蝲变化的烦引片�D�c�?br />每次索引更新之后�Q�对于当前正在��用的IndexReader来说不是可见的，必须重新open一�ơIndex�Q�才能保证能够搜索到新加入的 document�Q?.3相当于做了一�ơ增量的open�?
每一�ơreopen前可以先判断一下是不是当前的烦引文�?主要看有没有更新,
如果有更�?用reopen()�Ҏ��打开,看它文档上说明是只加载更��C��的烦引文�?�q�样��׃��用全部重新打开�?旉��主要耗在�q�里,如果判断�l�果是没有更新则直接�q�回那个实例��p��?br />IndexReader.reopen一直是没有实现的？

比如在你加了索引之后新生成一个searcher把那个单例给替换�?�Q�但是，当几十的�q�发增量索引�q�来的时候，��׃��能这么触发了�Q�我现在只是弄了个timer�Q�定�?0�U�钟来换个IndexSearcher实例�?br />
the singleton of IndexSearcher will be more efficient.
see http://wiki.apache.org/lucene-java/ImproveSearchingSpeed

�׃��前一章所�q�的Lucene的事务性，使得Lucene可以增量的添加一个段�Q�我们知道，倒排索引是有一定的格式的，而这个格式一旦写入是非常难以改变的，那么如何能够增量建烦引呢�Q�Lucene使用�D�这个概念解决了�q�个问题�Q�对于每个已�l�生成的�D�，其倒排索引�l�构不会再改变，而增量添加的文档��d��到新的段中，�D�之间在一定的时刻�q�行合�ƈ�Q�从而�Ş成新的倒排索引�l�构�?br />然而也正因为Lucene的事务性，使得Lucene的烦引不够实�Ӟ��如果想Lucene实时�Q�则必须新添加的文档后IndexWriter需要commit�Q�在搜烦的时候IndexReader需要重新的打开�Q�然而当索引在硬盘上的时候，��其是烦引非常大的时候，IndexWriter的commit操作和IndexReader的open操作都是非常慢的�Q�根本达不到实时性的需要�?br />好在Lucene提供了RAMDirectory�Q�也卛_��存中的烦引，能够很快的commit和open�Q�然而又存在如果索引很大�Q�内存中不能够放下的问题�?br />
所以要构徏实时的烦引，��需要内存中的烦引RAMDirectory和硬盘上的烦�?FSDirectory�怺�配合来解决问题�?br />
Zoie 是linkedin支持的基于Lucene开源实时搜索引擎项�?br />
Solr ( http://lucene.apache.org/solr/ )
说明�Q�基�?Lucene 的企业��搜烦的开��即用的解决�Ҏ��
优点�Q�比较成熟的解决�Ҏ��Q�也有很多的成功案例。Lucene 子项目，实现了大部分常见的搜索功能需求，包括 facet 搜烦�Q�搜索结果分�c�过滤）�{��?br />�~�点�Q�可定制性比 Lucene 要差�Q�一些不常见的需求，定制的难度比直接�?Lucene 上做要大的多。性能上，�׃�� Solr 的徏索引和搜索是同一个进�E�，耦合度比较高�Q�对于性能调优有一定的影响�?br />
直接使用 Lucene ( http://lucene.apache.org )
说明�Q�Lucene 是一�?JAVA 搜烦�c�d��Q�它本��n�q�不是一个完整的解决�Ҏ��Q�需要额外的开发工�?br />优点�Q�成熟的解决�Ҏ��Q�有很多的成功案例。apache��目�Q�正在持�l�快速的�q�步。庞大而活跃的开发社区，大量的开发�h员。它只是一个类库，有��够的定制和优化空��_��l�过��单定�Ӟ��可以满��绝大部分常见的需求；�l�过优化�Q�可以支�?0�? 量��的搜索�?br />�~�点�Q�需要额外的开发工作。所有的扩展�Q�分布式�Q�可靠性等都需要自己实玎ͼ�非实�Ӟ��从徏索引到可以搜索中间有一个时间�g�q�，而当前的“近实时�?(Lucene Near Real Time search)搜烦�Ҏ��的可扩展性有待进一步完�?br />
2.9新版本引入了IndexWriter.getReader()�Ҏ��Q�它可用于搜索目前完整的索引�Q�包括当前IndexWriter会话中还没有提交的改变，�q�带来了接近于实时搜索的能力。此外，你还可以调用IndexWriter.setMergedSegmentWarmer()�Ҏ��q�行“预热”，�q�样那些片断便可以立��x��入��用了�?br />
2.9版本之前的版本，都是��Z��文本搜烦的，因�ؓ对于很多数字的处理方式就很头��|��例如在我们项目中遇到的很多问题都是由于把数字当作了文本处理出现的 BUG�Q?、搜索�h格的5�Q�把包含.5的也搜烦出来了；2、排序（降序�Q�时�Q�把800排到5000前面�Q�……这些都是由于Lucene把所有的都作为文本处理的方式造成的问题。Lucene 2.9以后已经自带�Ҏ��字的处理方式。Field和Query�c�M��采取合适的�_�ֺ��q�行索引和搜索，�q�样大大降低了需要搜索的关键字数量，使查询的响应能力得以显著提高�?br />
我们web应用是好几台机器�Q�而烦引也有好几种�Q�如果用lucene的话�Q�定时更��C��能保证所有服务器同步。如果用mount方式�Q�lucen也有问题�Q? 所以想用solr�l�一��理所有烦引。然后让其它服务器从一个统一的地�Ҏ��询烦引�?br />http://lucene-group.group.javaeye.com/group/topic/23507

亿��数据的高�q�发通用搜烦引擎架构设计 http://blog.s135.com/post/385/
http://lucene-group.group.javaeye.com/group/topic/2786
http://blog.fulin.org/2010/11/search_solutions_compare.html
http://www.javaeye.com/topic/117212
Twitter新搜索架构将采用开源Lucene http://cloud.csdn.net/a/20101008/280220.html?1286504886
�?Lucene构徏实时的烦�?http://www.cnblogs.com/forfuture1978/archive/2010/06/08/1753642.html
��Z��lucene实现自己的推荐引�?http://blog.fulin.org/2010/10/recommendation_system_based_lucene.html
Lucene3.0(2.9)的主要变�?http://www.ourys.com/post/lucene3-0_about.html
Katta is a scalable, failure tolerant, distributed, data storage for real time access.

leekiang 2010-11-22 17:18 发表评论

lucene集群

leekiang — Fri, 19 Nov 2010 09:37:00 GMT

Lucene是作为嵌入式的工具包的�Ş式出现的�Q�在核心代码上没有提供对��集的支持。实现对Lucene的群集有三种方式�Q?、��承实��C��个Directory�Q?、��用Solr 3、��?Nutch+Hadoop�Q��用Solr你不得不用他的Index Server �Q�而��用Nutch你又不得不集成抓取的模块�Q?
不选择使用lucene�?大原�?http://forchenyun.javaeye.com/blog/473779

Lucene集群 lucene in a cluster
http://blog.csdn.net/jsea/archive/2006/06/16/803043.aspx
http://hi.baidu.com/lucenehc/blog/item/4d83c387881ea22fc65cc3a1.html

Compass的Lucene Jdbc Directory implementation
Compass simplifies the creation of distributed Lucene index by allowing to store the Lucene index in a database, as well as storing the index simply with Data Grid products such as GigaSpaces, Coherence and Terracotta
�q�部分代码完全独立于Compass 的其他模块，可以使用在纯Lucene实现的环境中
http://robbank.blogbus.com/logs/3509279.html
http://robbank.blogbus.com/logs/4698460.html

solr本��n支持分布式烦引，是利用rsync来做�?br />http://paradise-qingfeng.javaeye.com/blog/123673

Nut是一个Lucene+Hadoop分布式搜索框�?br />http://code.google.com/p/nutla/
http://www.aygfsteel.com/nianzai/

Nutch 0.9版中�Q�分布式搜烦的核心部分只用了不到1000行代码就搞定了�?br />clustering是把查询��h��分发到多台计��机上，主要是解军_ƈ发量的问题�?br />Distributed指的是多台计��机�q�行处理一个查询请求，使单个请求的��索时间降�?br />http://lucene-group.group.javaeye.com/group/topic/8983

谈谈Hadoop和分布式 Lucene http://www.chinacloud.cn/show.aspx?id=50&cid=12

1�Q�Doug Cutting �Q�Lucene�Q�Nutch�Q�Hadoop 创始人简介）http://zhutuncun0.javaeye.com/blog/746019
2�Q�luke,lucene索引查看工具 http://code.google.com/p/luke/
3�Q�Alfresco 看看�q�种CMS在集��环境下如何使用lucene
http://wiki.alfresco.com/wiki/Cluster_Configuration_V2.1.3_and_Later#Lucene_index_synchronization

leekiang 2010-11-19 17:37 发表评论

lucene�U�程相关

leekiang — Thu, 22 Jan 2009 07:29:00 GMT

1�Q�Lucene 中的同步与线�E�安�?br />http://arbow.spaces.live.com/blog/cns!A25DE6AC7A5B029E!142.entry

附带:
MultiSearcher在多个烦引上搜烦

leekiang 2009-01-22 15:29 发表评论

lucene�W�记之二

leekiang — Tue, 23 Dec 2008 15:22:00 GMT

1,范围查询�Q�例�?br />Term begin=new Term("publishdate","1999-01-01");
Term end=new Term ("publishdate","1999-10-15");
RangeQuery q=new RangeQuery(begin,end,true);

1)�Q?br />Lucene-2.2.0 源代码阅��d��?/a>
2)
Lucene 中自定义排序的实�?/a>
3�Q?br />lucene学习�W�记
4�Q?br />http://www.lucene.com.cn/sj.htm
5�Q�LRU
LRU(最�q�最��用算�? and MRU(最�q�最�怋�用算�? 所谓的LRU(Least recently used)��法的基本概忉|��:当内存的剩余的可用空间不够时,�~�冲区尽可能的先保留使用者最�怋�用的数据,换句话说��是优先清除”较不常使用的数据�?�q��攑օ��I�间.之所以”较不常使用的数据”要用引��h��因�ؓ�q�里判断所谓的较不�怋�用的标准是�h为的、不严格�?所谓的MRU(Most recently used)��法的意义正好和LRU��法相反.
oracle�~�存用到了LRU
http://bluepopopo.javaeye.com/blog/180236
6�Q?a >Apache lucene知识汇集
7�Q?a >Lucene 2.3.1 阅读学习�Q?1�Q?/a>
8�Q?a >Lucene的score()实现
9�Q?a >Lucene 的排序修�?/a>
10�Q?大原因让你不选择使用Lucene
11�Q�解决lucene范围搜烦中的TooManyClauses exception

leekiang 2008-12-23 23:22 发表评论

background merge hit exception错误

leekiang — Fri, 12 Sep 2008 10:37:00 GMT

Exception in thread "Thread-12" org.apache.lucene.index.MergePolicy$MergeException: java.io.FileNotFoundException: /doc/lucene/_5zk.fnm (没有该文件或目录 (errno:2))
   at org.apache.lucene.index.ConcurrentMergeScheduler$MergeThread.run(ConcurrentMergeScheduler.java:271)
Caused by: java.io.FileNotFoundException: /doc/lucene/_5zk.fnm (没有该文件或目录 (errno:2))
   at java.io.RandomAccessFile.open(Native Method)
   at java.io.RandomAccessFile.(RandomAccessFile.java:212)
   at org.apache.lucene.store.FSDirectory$FSIndexInput$Descriptor.(FSDirectory.java:506)
   at org.apache.lucene.store.FSDirectory$FSIndexInput.(FSDirectory.java:536)
   at org.apache.lucene.store.FSDirectory$FSIndexInput.(FSDirectory.java:531)
   at org.apache.lucene.store.FSDirectory.openInput(FSDirectory.java:440)
   at org.apache.lucene.index.FieldInfos.(FieldInfos.java:57)
   at org.apache.lucene.index.SegmentReader.initialize(SegmentReader.java:298)
   at org.apache.lucene.index.SegmentReader.get(SegmentReader.java:262)
   at org.apache.lucene.index.SegmentReader.get(SegmentReader.java:221)
   at org.apache.lucene.index.IndexWriter.mergeMiddle(IndexWriter.java:3093)
   at org.apache.lucene.index.IndexWriter.merge(IndexWriter.java:2834)
   at org.apache.lucene.index.ConcurrentMergeScheduler$MergeThread.run(ConcurrentMergeScheduler.java:240)
java.io.IOException: background merge hit exception: _5zk:C2223 _5zl:c1 _5zm:c1 _5zn:c1 into _5zo [optimize]
   at org.apache.lucene.index.IndexWriter.optimize(IndexWriter.java:1749)
   at org.apache.lucene.index.IndexWriter.optimize(IndexWriter.java:1689)
   at org.apache.lucene.index.IndexWriter.optimize(IndexWriter.java:1669)
   at com.lucene.index.ArticleIndex.addIndex(ArticleIndex.java:93)

   ------------------------------------------------------------------------
   Caused by: java.io.FileNotFoundException: /doc/lucene/_5zk.fnm (没有该文件或目录 (errno:2))
   at java.io.RandomAccessFile.open(Native Method)
   at java.io.RandomAccessFile.(RandomAccessFile.java:212)
   at org.apache.lucene.store.FSDirectory$FSIndexInput$Descriptor.(FSDirectory.java:506)
   at org.apache.lucene.store.FSDirectory$FSIndexInput.(FSDirectory.java:536)
   at org.apache.lucene.store.FSDirectory$FSIndexInput.(FSDirectory.java:531)
   at org.apache.lucene.store.FSDirectory.openInput(FSDirectory.java:440)
   at org.apache.lucene.index.FieldInfos.(FieldInfos.java:57)
   at org.apache.lucene.index.SegmentReader.initialize(SegmentReader.java:298)
   at org.apache.lucene.index.SegmentReader.get(SegmentReader.java:262)
   at org.apache.lucene.index.SegmentReader.get(SegmentReader.java:221)
   at org.apache.lucene.index.IndexWriter.mergeMiddle(IndexWriter.java:3093)
   at org.apache.lucene.index.IndexWriter.merge(IndexWriter.java:2834)
   at org.apache.lucene.index.ConcurrentMergeScheduler$MergeThread.run(ConcurrentMergeScheduler.java:240)
org.apache.lucene.index.MergePolicy$MergeException: java.io.FileNotFoundException: /doc/lucene/_5zk.fnm (没有该文件或目录 (errno:2))
   at org.apache.lucene.index.ConcurrentMergeScheduler$MergeThread.run(ConcurrentMergeScheduler.java:271)
Caused by: java.io.FileNotFoundException: /doc/lucene/_5zk.fnm (没有该文件或目录 (errno:2))
   at java.io.RandomAccessFile.open(Native Method)
   at java.io.RandomAccessFile.(RandomAccessFile.java:212)
   at org.apache.lucene.store.FSDirectory$FSIndexInput$Descriptor.(FSDirectory.java:506)
   at org.apache.lucene.store.FSDirectory$FSIndexInput.(FSDirectory.java:536)
   at org.apache.lucene.store.FSDirectory$FSIndexInput.(FSDirectory.java:531)
   at org.apache.lucene.store.FSDirectory.openInput(FSDirectory.java:440)
   at org.apache.lucene.index.FieldInfos.(FieldInfos.java:57)
   at org.apache.lucene.index.SegmentReader.initialize(SegmentReader.java:298)
   at org.apache.lucene.index.SegmentReader.get(SegmentReader.java:262)
   at org.apache.lucene.index.SegmentReader.get(SegmentReader.java:221)
   at org.apache.lucene.index.IndexWriter.mergeMiddle(IndexWriter.java:3093)
   at org.apache.lucene.index.IndexWriter.merge(IndexWriter.java:2834)
   at org.apache.lucene.index.ConcurrentMergeScheduler$MergeThread.run(ConcurrentMergeScheduler.java:240)
org.apache.lucene.store.LockObtainFailedException: Lock obtain timed out: SimpleFSLock@/doc/lucene/write.lock
   at org.apache.lucene.store.Lock.obtain(Lock.java:85)
   at org.apache.lucene.index.IndexWriter.init(IndexWriter.java:691)
   at org.apache.lucene.index.IndexWriter.(IndexWriter.java:502)
   at com.lucene.index.AttachIndex.addIndex(AttachIndex.java:80)
   at com.myapp.Article.uploadAttach(Article.java:793)
   at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
   at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
   at java.lang.reflect.Method.invoke(Method.java:585)

leekiang 2008-09-12 18:37 发表评论

lucene�W�记

leekiang — Thu, 27 Mar 2008 08:15:00 GMT

1,Field.Store与Field.Index
Field.Store.COMPRESS:用压�~�的格式存储最初的Field�?br /> Field.Store.NO:不存储该Field的原始�?br /> Field.Store.YES:存储该Field的原始�?br />
Field.Index.NO:不烦引Field的�?br /> Field.Index.NO_NORMS:
Field.Index.TOKENIZED:作分词处�?br /> Field.Index.UN_TOKENIZED:不分词，直接作�ؓ完整的信息段��索，可以支持全匹配和�怼�匚w��Q�跟数据库中的like很类伹{�?br />
2,实现Filter接口

    public BitSet bits(IndexReader reader) throws IOException {
        final BitSet bits = new BitSet(reader.maxDoc());// 默认所有都为false
        // 讄��所有的都不能检索到
        // bits.set(0, bits.size() - 1, false);
        bits.set(3, true);
        bits.set(4);//讄��为true
        int[] docs = new int[1000];
        int[] freqs = new int[1000];
        TermDocs termDocs = reader.termDocs(new Term("title", "��试"));
        int count = termDocs.read(docs, freqs);//
        for (int i = 0; i < docs.length; i++) {
            System.out.println(docs[i]+"--"+freqs[i]);
            bits.set(docs[i]);
        }
        return bits;
    }

3,Term t = new Term("content", "电力");
Query query = new TermQuery(t);
以上搜不到结�?原因�?电力"不是一个Term,�?�?�?�?则可以�?br />
4,reader.terms()�q�回索引中的所有term,没有重复。而TermDocs存放term兌��的Doc

TermEnum enumerator = reader.terms();
while (enumerator.next()) {
Term term = enumerator.term();
System.out.println(term.field() + " " + term.text());
}

5,lucene不支持中文的* ?匚w��
因�ؓ英文是基于词�? 中文是基于字�?
英文mo?ey可以匚w��到money ,因�ؓmoney是一个term, 中文怎么办？除非中文有个好的分词�Ҏ��
6�Q�两�ơ过滤后�Q�query对象的tostring:
filtered(filtered(title:oracle content:oracle)->com.lucene.search.PrivilegeFilter@133d0fc)->com.lucene.search.CategoryFilter@dd5415
7,Hyper Estraier是一个用C语言开发的全文��索引�?
��h��高速度,高稳定�?高可扩展�?提供java,ruby的调用方�?br /><�q�速搭建全文搜索��^台——开源搜索引擎实战教�E?gt;
http://www.162cm.com/archives/date/2007/07/18

8�Q�Hits hits = searcher.search (filteredquery, new Sort("fieldname"));//可根据第二个参数�q�行排序
int n=hits.id(2) //参数是在hits中的下标,�q�回的结果是在过滤和排序之前在directory中的原始下标

9�Q?br />new一个BitSet(950)�q�不�{�于建立一�?50大小的bs
只是说构建出来的bs初始大小臛_��能容�U?50个bit,大小永远是系�l�控制的。而且他的大小�?4的倍数�Q�就��BitSet(1),他的大小也是64�?br />bitset.set(1, 4) 讄��的是1,2,3,没有4

10�Q�对Field再进行切词就是Term?Term和Token的区�?br />
11�Q�BooleanQuery的例�?
      BooleanQuery bq = new BooleanQuery();
    Query q1 = new TermQuery (new Term ("field", "one"));
    Query q2 = new TermQuery (new Term ("sorter", "b"));
    bq.add(q1, Occur.MUST);
    bq.add(q2, Occur.MUST);
    Hits hits = searcher.search(bq);

12�Q�可用RAMDirectory作测试，见lucene自带的测�?br />    RAMDirectory directory = new RAMDirectory();
    IndexWriter writer = new IndexWriter (directory, new WhitespaceAnalyzer(), true)

13�Q�进行过滤时如果有多个filter�Q�则某个doc是否能查到取决于�q�多个filter各自�q�回的bitset的综合结果：要查得某一位置的doc�Q�所有的filter的该位必��d��部�ؓtrue。所以查询结果与filter的先后顺序无兟�?br />
14�Q?-按user为tom�q�行�q��o
    Filter f1 = new Filter() {
            public BitSet bits(IndexReader reader) throws IOException {
                BitSet bitset = new BitSet(reader.maxDoc());
                TermDocs termDocs = reader.termDocs();// 实际是SegmentTermDocs
                Term term = new Term("user", "tom");
                termDocs.seek(term);//相当于持有了所有含有user为tom的doc的集合，但freq()和doc()�q�需要去文�g中读�?
                while (termDocs.next()) {
                    System.out.println("freq:"+termDocs.freq());
                    bitset.set(termDocs.doc());
                }
                return bitset;
            }
        };

15�Q�Trie�Q�又�U�单词查找树�Q�是一�U�特�D�的树�Ş�l�构�Q�用于保存大量的字符丌Ӏ�它的优�Ҏ��Q�利用字�W�串的公共前�~�来节�U�存储空间�?br />http://www.javaeye.com/topic/299826

16,
doc相当于表中的记录
field相当于字�D?br />不同的doc可能有相同的field�Q�也可能有不一��L��
我感觉比较适合用json格式存储
field+分词的关键字=term,是唯一�?br />term出现在哪些doc中，索引文�g里有记蝲�Q?br />用Luke(http://code.google.com/p/luke)可以查看索引文�g详细信息

leekiang 2008-03-27 16:15 发表评论

lucene查询

leekiang — Fri, 21 Mar 2008 05:56:00 GMT

http://www.cnblogs.com/bysshijiajia/archive/2008/01/24/1051317.html
http://hi.baidu.com/myj2ee/blog/item/2a6b2f1b110c3c1d8618bfb8.html

leekiang 2008-03-21 13:56 发表评论

lucene问题记录

leekiang — Thu, 21 Feb 2008 07:20:00 GMT

1,删烦引时如果解锁�Q�会不会有问�?
    IndexReader reader = IndexReader.open(directory);
            if (IndexReader.isLocked(directory)) {
                IndexReader.unlock(directory);
            }
            reader.deleteDocuments(term);
            reader.close();
2,到底是reader.deleteDocuments(term)�q�是writer.deleteDocuments(term)

3,writer.setUseCompoundFile(true)
创徏索引库时�Q�会合�ƈ多个 Segments 文�g��C��?.cfs 中。此方式有助于减��烦引文件数量，减少同时打开的文件数量�?br /> 可以使用 CompoundFileReader 查看 .cfs 文�g内容�?

CompoundFileReader reader = new CompoundFileReader(FSDirectory.GetDirectory("y:\\index", false), "_1oa.cfs");
foreach (string filename in reader.List())
{
Console.WriteLine(filename);
}

leekiang 2008-02-21 15:20 发表评论

lucene相关文档

leekiang — Wed, 20 Feb 2008 07:16:00 GMT

1�Q?a >某�h设计的中文分词算�?/a>
2�Q?a >Lucene中文分词�l��g JE-Analysis 1.5.1
3�Q?a >转一��lucene的��用的文章�Q�写的比较全
   lucene使用与优�?/a>
4�Q?a >��Z��字符串匹配的中文分词
5�Q?a >计算所开源的FirteX介绍
6, 庖丁分词
   http://www.javaeye.com/topic/49441?page=1
   http://qieqie.javaeye.com/blog/126943
   http://code.google.com/p/paoding/
   http://groups.google.com/group/paoding/topics
7�Q?a target="_top" >http://www.chedong.com/tech/lucene.html(车东)
8�Q�http://blog.donews.com/withshare/archive/2007/06/10/1173923.aspx

leekiang 2008-02-20 15:16 发表评论