久久久久午夜电影,国内精品在线视频,在线综合欧美

Lucene In Action Ch6 �W�记

Lansing — Fri, 05 Jan 2007 02:27:00 GMT

摘要: Lucene In Action ch 6(I) �W�记 --自定义排�? ----- 2006-2-16 使用 Lucene 来搜索内�?搜烦(ch��)�l�果的显�C�顺序当然是比较重要�?Lucene中Build-in的几个排序定义在大多数情况下是不适合我们使用�?要适合自己的应用程序的场景,��只能自定义排序功能,本节... 阅读全文

Lansing 2007-01-05 10:27 发表评论

Lucene In Action Ch4 �W�记

Lansing — Fri, 05 Jan 2007 02:14:00 GMT

摘要: Lucene In Action ch 4 �W�记(I) -- Analysis ----- 2006-2-12 本章详细的讨��Z��(ji��n) Lucene的分析处理过�E�和几个Analyzer. 在indexing�q�程中要把需要indexing的text分析处理一�? �l�过处理和切�?然后建立index. 而不通的Ana... 阅读全文

Lansing 2007-01-05 10:14 发表评论

Lucene In Action Ch3 �W�记

Lansing — Fri, 05 Jan 2007 02:11:00 GMT

摘要: 1. 实现一个简单的search feature 在本章中只限于讨论简单Lucene 搜烦(ch��)API, 有下面几个相关的�c? Lucene 基本搜烦(ch��)API: �c? ... 阅读全文

Lansing 2007-01-05 10:11 发表评论

Lucene In Action Ch2 �W�记

Lansing — Fri, 05 Jan 2007 02:10:00 GMT

摘要: Lucene In Action ch2 �pȝ��的讲解了(ji��n) indexing,下面��来看看�? 1,indexing 的处理过�E? 首先要把indexing的数据�{换�ؓ(f��)text,因�ؓ(f��)Lucene只能索引text,然后由Analysis来过虑text,把一些ch1中提到的所谓的stop words �q��o(h��)�? 然后�?.. 阅读全文

Lansing 2007-01-05 10:10 发表评论

ORACLE 全文索引功能实现

Lansing — Thu, 17 Aug 2006 01:33:00 GMT

ORACLE 全文索引功能实现学习(f��n)�W�记

前言�Q?数据库工�E�师众所周知的一个事实是�Q�当�Ҏ(gu��)��据库里的文本字段�q�行like��(g��)索的时候，��M��数据索引都是不�v作用的，�q�样也就��D��pȝ��?x��)承担额外的开销和负载压力，对于庞大的数据记录，对其中的文本字段�q�行关键字匹配，��p��定会(x��)存在非常严重的效率障��和性能障碍。因此，��Z��文本的全文烦(ch��)引技术也��逐渐兴�v�?
全文索引的技术原理�ƈ不复杂，�Ҏ(gu��)��落性的文本内容�q�行逐词分解�Q��ƈ针对词出现频率，出现位置�q�行标记�Q�按照词本��n的编码顺序存储�ؓ(f��)索引文�g。这��P��在针对关键词�q�行��(g��)索的时候，��׃��?x��)遍历所有的文本数据记录�Q�而是�Ҏ(gu��)��索引文�g�q�行有序查找�Q�这里面一个显见的事实是，通过有序索引查找关键词，对于��量的数据记录而言�Q�也只需要很��次数的指针跌��{�Q�（数量为X的烦(ch��)引记录，查询特定记录的指针蟩转次数最多�ؓ(f��)Log2(x)。）(j��)卛_��完成搜烦(ch��)�Q�而无��d��整遍历整个数据表或文仉��?
但是全文索引技术的实现却�ƈ不简单，针对中文的尤其如此，英文文本中，�I�格是天然的分词标记�Q�而中文段落却无法通过�q�样��单的途径分词�Q�因此基于常用语词典和一些语�a�识别规则的分词技术成��Z��U�非帔R��的技术门槛，�q�好�Q�很多商业公司提供了(ji��n)非常成熟的商业��品，使我�{�可以坐享其成，快速搭建全文搜索的�q�_��?

ORACLE INTERMEDIA介绍
ORACLE Intermedia是ORACLE公司官方发布的用来管理多媒体数据的数据库��理模块�Q�通过它可以进行有效的视频�Q�音频，囄��{�文件的�l�一存储�Q�调用和相关处理�Q�同时其中也包括一个Oracle Intermdedia Text功能模块�Q�能够对多种格式文档�q�行分词索引处理�Q�也提供�?ji��n)��用自然语法或高��查询��?gu��)��q�行跨文本查询的途径�Q�可以查询word, PDF,RTF�{�格式的文�g和数据�?
Oracle Intermedia 的烦(ch��)引效率和查询效率�Q�据一些公开数据上看要远高于Microsoft的Index Server�Q�而且本��n��h��q�_��无关�Ҏ(gu��)��，另外作�ؓ(f��)数据库��品，可以很好的和数据库应用进行整合，�q�一点也是纯�_�的文�g索引�pȝ��所无法实现的。当�?d��ng)��作��?f��)通用的数据库产品�Q�Oracle不可能针对全文烦(ch��)引做到最大限度的优化�Q�因此对于高�q�发大容量的搜烦(ch��)引擎应用�Q�Oracle的方案可能就无法满��Q�这一点也是必��L��前声明的�?

全文索引实现步骤
步骤1�Q�查看Oracle Intermedia是否正确安装。Oracle Intermdeia是Oracle的一个附带模块，安装�q�程中选择卛_��?
步骤2�Q�设�|�词法解析器
oracle�Ҏ(gu��)��不同语言�Q�有不同的词法解析器�Q�以下说明我们可能用到的三个
basic_lexer�Q�针对英语环境，以空��gؓ(f��)分词标记�Q�同时能分��L一些“噪音”单词，�?“if�? “is”等�?
chinese_vgram_lexer�Q�专用的汉语分析器，按字为单元分析中文，��法��单，可以一�|�打��中文用词，但是效率差强人意�?
chinese_lexer�Q�可以识别大部分常用短语和词汇，不会(x��)产生大量冗余数据�Q�有很好的实用性，但是语言支持只能为UTF-8�~�码�Q�不支持zhs16gbk字符集�?
以ctxsys用户登陆�pȝ��Q�执行：(x��)
begin ctx_ddl.create_preference('my_lexer','chinese_vgram_lexer'); end;
�q�里假设我们的语法解析器命名为my_lexer�Q�这个名�U�C��可以�Ҏ(gu��)��实际应用变化�?
步骤3�Q�徏立烦(ch��)引字�D?
我的��试用例保存在system�I�间�Q�表名�ؓ(f��)my_docs�Q�字�D�名为doc�Q�字�D늱�型�ؓ(f��)blob�Q�存储标准word doc文�g�?
仍旧保持ctxsys帐户登陆�Q�执行如下操�?
create index system.myindex on system.my_docs(doc) indextype is ctxsys.context parameters(‘lexer�?’my_lexer�? ;
步骤4�Q�同步操作（sync�Q�及(qi��ng)优化操作
以system 登陆�Q�同步操作执�?
exec ctx_ddl.sync_index('myindex');

创徏同步定时��d��代码如下
VARIABLE jobno number;
BEGIN
　　DBMS_JOB.SUBMIT(:jobno,'ctx_ddl.sync_index(''myindex'');',
　　SYSDATE, 'SYSDATE + (1/24/4)');
　　commit;
　　END;
/
以system登陆�Q�优化烦(ch��)引操作执�?
exec ctx_ddl.optimize_index('myindex','FULL');
创徏优化定时��d��代码如下
VARIABLE jobno number;
　　BEGIN
　　DBMS_JOB.SUBMIT(:jobno,'ctx_ddl.optimize_index(''myindex'',''FULL'');',
　　SYSDATE, 'SYSDATE + 1');
　　commit;
　　END;
/
步骤5�Q�测�?
select id from my_docs where contains(doc,'关键�?)>0
�ȝ��Q?
该学�?f��n)笔记内容大部分可以通过搜烦(ch��)引擎扑ֈ��Q��ƈ非本人原创内容，本文全部�l�个人在windows�q�_��下，在oracle 9i下测试完成，留档记录�Q��ؓ(f��)日后的项目和产品开发做技术准备�?

Lansing 2006-08-17 09:33 发表评论

全文索引—CONTAINS语法

Lansing — Thu, 17 Aug 2006 01:31:00 GMT

全文索引—CONTAINS语法

全文索引—CONTAINS语法
全文索引——CONTAINS 语法
我们通常�?WHERE 子句中��?CONTAINS �Q�就象这��P��(x��)SELECT * FROM table_name WHERE CONTAINS(fullText_column,'search contents')�?

我们通过例子来学�?f��n)，假设有�?students�Q�其中的 address 是全文本��(g��)索的列�?br />1. 查询住址在北京的学生
SELECT student_id,student_name
FROM students
WHERE CONTAINS( address, 'beijing' )
remark: beijing是一个单词，要用单引��h��h��?br />
2. 查询住址在河北省的学�?br />SELECT student_id,student_name
FROM students
WHERE CONTAINS( address, '"HEIBEI province"' )
remark: HEBEI province是一个词�l�，在单引号里还要用双引��h��h��?br />
3. 查询住址在河北省或北京的学生
SELECT student_id,student_name
FROM students
WHERE CONTAINS( address, '"HEIBEI province" OR beijing' )
remark: 可以指定逻辑操作�W?包括 AND �Q�AND NOT�Q�OR )�?br />
4. 查询�?'南京�? 字样的地址
SELECT student_id,student_name
FROM students
WHERE CONTAINS( address, 'nanjing NEAR road' )
remark: 上面的查询将�q�回包含 'nanjing road'�Q?nanjing east road'�Q?nanjing west road' �{�字��L(f��ng)��地址�?br />       A NEAR B�Q�就表示条�g�Q?A 靠近 B�?br />
5. 查询�?'�? 开头的地址
SELECT student_id,student_name
FROM students
WHERE CONTAINS( address, '"hu*"' )
remark: 上面的查询将�q�回包含 'hubei'�Q?hunan' �{�字��L(f��ng)��地址�?br />       ��C��?*�Q�不�?%�?br />
6. �c�M��加权的查�?br />SELECT student_id,student_name
FROM students
WHERE CONTAINS( address, 'ISABOUT (city weight (.8), county wright (.4))' )
remark: ISABOUT 是这�U�查询的关键字，weight 指定�?ji��n)一个介�?0~1之间的数�Q�类似系�?我的理解)。表�C�Z��同条件有不同的侧重�?br />
7. 单词的多态查�?br />SELECT student_id,student_name
FROM students
WHERE CONTAINS( address, 'FORMSOF (INFLECTIONAL,street)' )
remark: 查询��返回包�?'street'�Q?streets'�{�字��L(f��ng)��地址�?br />       对于动词��返回它的不同的时态，如：(x��)dry�Q�将�q�回 dry�Q�dried�Q�drying �{�等�?img src ="http://www.aygfsteel.com/machilansing/aggbug/64048.html" width = "1" height = "1" />

Lansing 2006-08-17 09:31 发表评论

��Z��Java的全文烦(ch��)�?��(g��)索引擎——Lucene

Lansing — Thu, 17 Aug 2006 01:08:00 GMT

��Z��Java的全文烦(ch��)�?��(g��)索引擎——Lucene

Lucene不是一个完整的全文索引应用�Q�而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各�U�应用中实现针对应用的全文烦(ch��)�?��(g��)索功能�?/p>

Lucene的作者：(x��)Lucene的�A(ch��)献�?a >Doug Cutting是一位资深全文烦(ch��)�?��(g��)索专�Ӟ��曄��是V-Twin搜烦(ch��)引擎(Apple的Copland操作�pȝ��的成��׃��一)的主要开发者，后在Excite担�Q高��pȝ��架构设计师，目前从事于一些INTERNET底层架构的研�I�。他贡献出的Lucene的目标是为各�U�中��型应用�E�序加入全文��(g��)索功能�?/p>

Lucene的发展历�E�：(x��)早先发布在作者自��q��www.lucene.com�Q�后来发布在SourceForge�Q?001�q�年底成为APACHE基金�?x��)jakarta的一个子��目�Q?a >http://jakarta.apache.org/lucene/

已经有很多Java��目都��用了(ji��n)Lucene作�ؓ(f��)其后台的全文索引引擎�Q�比较著名的有：(x��)

J ive�Q�WEB论坛�pȝ��Q?
Eyebrows�Q�邮件列表HTML归档/��览/查询�pȝ��Q�本文的主要参考文档�?a >TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows�pȝ��的主要开发者之一�Q�而EyeBrows已经成�ؓ(f��)目前APACHE��目的主要邮件列表归档系�l��?
Cocoon:��Z��XML的web发布框架�Q�全文检索部分��用了(ji��n)Lucene
Eclipse:��Z��Java的开攑ּ�发��^収ͼ�帮助部分的全文烦(ch��)引��用了(ji��n)Lucene

对于中文用户来说�Q�最兛_��(j��)的问题是其是否支持中文的全文��(g��)索。但通过后面对于Lucene的结构的介绍�Q�你�?x��)�?ji��n)解到�׃��Lucene良好架构设计�Q�对中文的支持只需对其语言词法分析接口�q�行扩展��p��实现对中文检索的支持�?/p>

全文��(g��)索的实现机制

Lucene的API接口设计的比较通用�Q�输入输出结构都很像数据库的�?=>记录==>字段�Q�所以很多传�l�的应用的文件、数据库�{�都可以比较方便的映��到Lucene的存储结�?接口中。��M��上看�Q�可以先�?b>Lucene当成一个支持全文烦(ch��)引的数据库系�l?/b>�?/p>

比较一下Lucene和数据库�Q?/p>

Lucene	数据�?/td>
索引数据源：(x��)doc(field1,field2...) doc(field1,field2...) \ indexer / _____________ \| Lucene Index\| -------------- / searcher \ �l�果输出�Q�Hits(doc(field1,field2) doc(field1...))	索引数据源：(x��)record(field1,field2...) record(field1..) \ SQL: insert/ _____________ \| DB Index \| ------------- / SQL: select \ �l�果输出�Q�results(record(field1,field2..) record(field1...))
Document�Q�一个需要进行烦(ch��)引的“单元�?br />一个Document由多个字�D늻��?/td>	Record�Q�记录，包含多个字段
Field�Q�字�D?/td>	Field�Q�字�D?/td>
Hits�Q�查询结果集�Q�由匚w��的Document�l�成	RecordSet�Q�查询结果集�Q�由多个Record�l�成

全文��(g��)�?�?like "%keyword%"

通常比较厚的书籍后面常常附关键词索引表（比如�Q�北京：(x��)12, 34��，上�v�Q?,77��……）(j��)�Q�它能够帮助读者比较快地找到相兛_��容的��늠�。而数据库索引能够大大提高查询的速度原理也是一��P��惛_��一下通过书后面的索引查找的速度要比一��一��地��d��定w��多少倍……而烦(ch��)引之所以效率高�Q�另外一个原因是它是排好序的�?b>对于��(g��)索系�l�来说核�?j��)是一个排序问�?/b>�?/p>

�׃��数据库烦(ch��)引不是�ؓ(f��)全文索引设计的，因此�Q?b>使用like "%keyword%"�Ӟ��数据库烦(ch��)引是不�v作用�?/b>�Q�在使用like查询�Ӟ��搜烦(ch��)�q�程又变成类��g��一��页��M��的遍历过�E�了(ji��n)�Q�所以对于含有模�p�查询的数据库服务来��_(d��)��LIKE�Ҏ(gu��)��能的危��x��极大的。如果是需要对多个关键词进行模�p�匹配：(x��)like"%keyword1%" and like "%keyword2%" ...其效率也��可惌��知�?ji��n)�?/p>

所以徏立一个高效检索系�l�的关键是徏立一个类��g��U�技索引一��L(f��ng)��反向索引机制�Q�将数据源（比如多篇文章�Q�排序顺序存储的同时�Q�有另外一个排好序的关键词列表�Q�用于存储关键词==>文章映射关系�Q�利用这��L(f��ng)��映射关系索引�Q�[关键�?=>出现关键词的文章�~�号�Q�出现次敎ͼ�甚至包括位置�Q��v始偏�U�量�Q�结束偏�U�量�Q�，出现频率]�Q�检索过�E�就是把模糊查询变成多个可以利用索引的精��查询的逻辑�l�合的过�E?/b>。从而大大提高了(ji��n)多关键词查询的效率，所以，全文��(g��)索问题归�l�到最后是一个排序问题�?/p>

由此可以看出模糊查询相对数据库的�_��查询是一个非�怸��定的问题，�q�也是大部分数据库对全文��(g��)索支持有限的原因。Lucene最核心(j��)的特征是通过�Ҏ(gu��)��的烦(ch��)引结构实��C��(ji��n)传统数据库不擅长的全文烦(ch��)引机�Ӟ��q�提供了(ji��n)扩展接口�Q�以方便针对不同应用的定制�?/p>

可以通过一下表格对比一下数据库的模�p�查询：(x��)

　 Lucene全文索引引擎数据�?/td>

索引 ��数据源中的数据都通过全文索引一一建立反向索引对于LIKE查询来说�Q�数据传�l�的索引是根本用不上的。数据需要逐个便利记录�q�行GREP式的模糊匚w��Q�比有烦(ch��)引的搜烦(ch��)速度要有多个数量�U�的下降�?/td>

匚w��效果通过词元(term)�q�行匚w��Q�通过语言分析接口的实玎ͼ�可以实现对中文等非英语的支持�?/td> 使用�Q�like "%net%" �?x��)把netherlands也匹配出来，
多个关键词的模糊匚w��Q��用like "%com%net%"�Q�就不能匚w��词序颠倒的xxx.net..xxx.com

匚w��?/td> 有匹配度��法�Q�将匚w��E�度�Q�相似度�Q�比较高的结果排在前面�?/td> 没有匚w��E�度的控�Ӟ��(x��)比如有记录中net出现5词和出现1�ơ的�Q�结果是一��L(f��ng)��?/td>

�l�果输出通过特别的算法，��最匚w��度最高的�?00条结果输出，�l�果集是�~�冲式的��批量读取的�?/td> �q�回所有的�l�果集，在匹配条目非常多的时候（比如上万条）(j��)需要大量的内存存放�q�些临时�l�果集�?/td>

可定制�?/td> 通过不同的语�a�分析接口实现�Q�可以方便的定制出符合应用需要的索引规则�Q�包括对中文的支持）(j��) 没有接口或接口复杂，无法定制

�l�论高负载的模糊查询应用�Q�需要负责的模糊查询的规则，索引的资料量比较�?/td> 使用率低�Q�模�p�匹配规则简单或者需要模�p�查询的资料量少

全文��(g��)索和数据库应用最大的不同在于�Q�让最相关�?/span> �?00条结果满��?8%以上用户的需�?br />
Lucene的创��C��处：(x��)

大部分的搜烦(ch��)�Q�数据库�Q�引擎都是用B�?w��i)结构来�l�护索引�Q�烦(ch��)引的更新�?x��)导致大量的IO操作�Q�Lucene在实��C��Q�对此稍微有所改进�Q�不是维护一个烦(ch��)引文�Ӟ��而是在扩展烦(ch��)引的时候不断创建新的烦(ch��)引文�Ӟ��然后定期的把�q�些新的��烦(ch��)引文件合�q�到原先的大索引中（针对不同的更新策略，�Ҏ(gu��)��的大��可以调��_(d��)��(j��)�Q�这样在不媄(ji��ng)响检索的效率的前提下�Q�提高了(ji��n)索引的效率�?/p>
Lucene和其他一些全文检索系�l?应用的比较：(x��)

　 Lucene 其他开源全文检索系�l?/td>

增量索引和批量烦(ch��)�?/td> 可以�q�行增量的烦(ch��)�?Append)�Q�可以对于大量数据进行批量烦(ch��)引，�q�且接口设计用于优化扚w��索引和小扚w��的增量烦(ch��)引�?/td> 很多�pȝ��只支持批量的索引�Q�有时数据源有一点增加也需要重建烦(ch��)引�?/td>

数据�?/td> Lucene没有定义具体的数据源�Q�而是一个文档的�l�构�Q�因此可以非常灵�zȝ��适应各种应用�Q�只要前端有合适的转换器把数据源�{换成相应�l�构�Q�，很多�pȝ��只针对网��，�~�Z��其他格式文档的灵�z�L��?/td>

索引内容抓取 Lucene的文档是由多个字�D늻�成的�Q�甚臛_��以控刉��些字�D�需要进行烦(ch��)引，那些字段不需要烦(ch��)引，�q�一步烦(ch��)引的字段也分为需要分词和不需要分词的�c�d��Q?br /> 需要进行分词的索引�Q�比如：(x��)标题�Q�文章内容字�D?br /> 不需要进行分词的索引�Q�比如：(x��)作�?日期字段 �~�Z��通用性，往往��文档整个烦(ch��)引了(ji��n)

语言分析通过语言分析器的不同扩展实现�Q?br />可以�q��o(h��)掉不需要的词：(x��)an the of �{�，
西文语法分析�Q�将jumps jumped jumper都归�l�成jump�q�行索引/��(g��)�?br />非英文支持：(x��)对亚�z�语�a��Q�阿拉伯语言的烦(ch��)引支�?/td> �~�Z��通用接口实现

查询分析通过查询分析接口的实玎ͼ�可以定制自己的查询语法规则：(x��)
比如�Q?多个关键词之间的 + - and or关系�{?/td> 　

�q�发讉K�� 能够支持多用��L(f��ng)��使用　

　

关于亚洲语言的的切分词问�?Word Segment)

对于中文来说�Q�全文烦(ch��)引首先还要解决一个语�a�分析的问题，对于英文来说�Q�语句中单词之间是天焉��过�I�格分开的，但亚�z�语�a�的中日韩文语句中的字是一个字挨一个，所有，首先要把语句中按“词”进行烦(ch��)引的话，�q�个词如何切分出来就是一个很大的问题�?/p>
首先�Q�肯定不能用单个字符�?si-gram)为烦(ch��)引单元，否则查“上��”时�Q�不能让含有“�v上”也匚w��?/p>
但一句话�Q�“北京天安门”，计算机如何按照中文的语言�?f��n)惯�q�行切分呢？
“北�?天安门�?�q�是“北 �?天安门”？让计��机能够按照语言�?f��n)惯�q�行切分�Q�往往需要机器有一个比较丰富的词库才能够比较准��的识别�?gu��)��句中的单词�?/p>
另外一个解决的办法是采用自动切分算法：(x��)��单词按�?元语�?bigram)方式切分出来�Q�比如：(x��)
"北京天安�? ==> "北京京天天安安门"�?/p>
�q�样�Q�在查询的时候，无论是查�?北京" �q�是查询"天安�?�Q�将查询词组按同��L(f��ng)��规则�q�行切分�Q?北京"�Q?天安安门"�Q�多个关键词之间按与"and"的关�pȝ��合，同样能够正确地映��到相应的烦(ch��)引中。这�U�方式对于其他亚�z�语�a��Q�韩文，日文都是通用的�?/p>
��Z��自动切分的最大优�Ҏ(gu��)��没有词表�l�护成本�Q�实现简单，�~�点是烦(ch��)引效率低�Q�但对于中小型应用来��_(d��)��Z��2元语法的切分�q�是够用的。基�?元切分后的烦(ch��)引一般大��和源文件差不多�Q�而对于英文，索引文�g一般只有原文�g�?0%-40%不同�Q?/p>

自动切分词表切分

实现实现非常��?/td> 实现复杂

查询增加�?ji��n)查询分析的复杂�E�度�Q?/td> 适于实现比较复杂的查询语法规�?/td>

存储效率索引冗余大，索引几乎和原文一样大索引效率高，为原文大��的30�Q�左�?/td>

�l�护成本无词表维护成�?/td> 词表�l�护成本非常高：(x��)中日韩等语言需要分别维护�?br />�q�需要包括词频统计等内容

适用领域嵌入式系�l�：(x��)�q�行环境资源有限
分布式系�l�：(x��)无词表同步问�?br />多语�a�环境�Q�无词表�l�护成本 �Ҏ(gu��)��询和存储效率要求高的专业搜烦(ch��)引擎

目前比较大的搜烦(ch��)引擎的语�a�分析��法一般是��Z��以上2个机制的�l�合。关于中文的语言分析��法�Q�大家可以在Google查关键词"wordsegment search"能找到更多相关的资料�?/p>
安装和��?/b>

下蝲�Q?a >http://jakarta.apache.org/lucene/

注意�Q�Lucene中的一些比较复杂的词法分析是用JavaCC生成的（JavaCC�Q�JavaCompilerCompiler�Q�纯Java的词法分析生成器�Q�，所以如果从源代码编译或需要修改其中的QueryParser、定制自��q��词法分析器，�q�需要从https://javacc.dev.java.net/下蝲javacc�?/p>
lucene的组成结构：(x��)对于外部应用来说索引模块(index)和检索模�?search)是主要的外部应用入口

org.apache.Lucene.search/ 搜烦(ch��)入口

org.apache.Lucene.index/ 索引入口

org.apache.Lucene.analysis/ 语言分析�?/td>

org.apache.Lucene.queryParser/ 查询分析�?/td>

org.apache.Lucene.document/ 存储�l�构

org.apache.Lucene.store/ 底层IO/存储�l�构

org.apache.Lucene.util/ 一些公用的数据�l�构

��单的例子演示一下Lucene的��用方法：(x��)
索引�q�程�Q�从命��o(h��)行读取文件名�Q�多个）(j��)�Q�将文�g分�\�?path字段)和内�?body字段)2个字�D�进行存储，�q�对内容�q�行全文索引�Q�烦(ch��)引的单位是Document对象�Q�每个Document对象包含多个字段Field对象�Q�针对不同的字段属性和数据输出的需求，对字�D�还可以选择不同的烦(ch��)�?存储字段规则�Q�列表如下：(x��)
�Ҏ(gu��)�� 切词索引存储用�?/th>
Field.Text(String name, String value) Yes Yes Yes 切分词烦(ch��)引�ƈ存储�Q�比如：(x��)标题�Q�内容字�D?/td>
Field.Text(String name, Reader value) Yes Yes No 切分词烦(ch��)引不存储�Q�比如：(x��)META信息�Q?br />不用于返回显�C�，但需要进行检索内�?/td>
Field.Keyword(String name, String value) No Yes Yes 不切分烦(ch��)引�ƈ存储�Q�比如：(x��)日期字段
Field.UnIndexed(String name, String value) No No Yes 不烦(ch��)引，只存储，比如�Q�文件�\�?/td>
Field.UnStored(String name, String value) Yes Yes No 只全文烦(ch��)引，不存�?/td>
public class IndexFiles {
//使用�Ҏ(gu��)��Q? IndexFiles [索引输出目录] [索引的文件列表] ...
public static void main(String[] args) throws Exception {
String indexPath = args[0];
IndexWriter writer;
//用指定的语言分析器构造一个新的写索引器（�W?个参数表�C�是否�ؓ(f��)�q�加索引�Q?br /> writer = new IndexWriter(indexPath, new SimpleAnalyzer(), false);

for (int i=1; i System.out.println("Indexing file " + args[i]);
InputStream is = new FileInputStream(args[i]);

//构造包�?个字�D�Field的Document对象
//一个是路径path字段�Q�不索引�Q�只存储
//一个是内容body字段�Q�进行全文烦(ch��)引，�q�存�?br /> Document doc = new Document();
doc.add(Field.UnIndexed("path", args[i]));
doc.add(Field.Text("body", (Reader) new InputStreamReader(is)));
//��文档写入烦(ch��)�?br /> writer.addDocument(doc);
is.close();
};
//关闭写烦(ch��)引器
writer.close();
}
}
　
索引�q�程中可以看刎ͼ�(x��)
语言分析器提供了(ji��n)抽象的接口，因此语言分析(Analyser)是可以定制的�Q�虽然lucene�~�省提供�?个比较通用的分析器SimpleAnalyser和StandardAnalyser�Q�这2个分析器�~�省都不支持中文�Q�所以要加入对中文语�a�的切分规则，需要修改这2个分析器�?
Lucene�q�没有规定数据源的格式，而只提供�?ji��n)一个通用的结构（Document对象�Q�来接受索引的输入，因此输入的数据源可以是：(x��)数据库，W(xu��)ORD文档�Q�PDF文档�Q�HTML文档……只要能够设计相应的解析转换器将数据源构造成成Docuement对象卛_��q�行索引�?
对于大批量的数据索引�Q�还可以通过调整IndexerWrite的文件合�q��率属性（mergeFactor�Q�来提高扚w��索引的效率�?
��(g��)索过�E�和�l�果昄��Q?/p>
搜烦(ch��)�l�果�q�回的是Hits对象�Q�可以通过它再讉K��Document==>Field中的内容�?/p>
假设�Ҏ(gu��)��body字段�q�行全文��(g��)索，可以��查询结果的path字段和相应查询的匚w��?score)打印出来�Q?/p>
public class Search {
public static void main(String[] args) throws Exception {
String indexPath = args[0], queryString = args[1];
//指向索引目录的搜索器
Searcher searcher = new IndexSearcher(indexPath);
//查询解析器：(x��)使用和烦(ch��)引同��L(f��ng)��语言分析�?br /> Query query = QueryParser.parse(queryString, "body",
new SimpleAnalyzer());
//搜烦(ch��)�l�果使用Hits存储
Hits hits = searcher.search(query);
//通过hits可以讉K��到相应字�D늚�数据和查询的匚w��?br /> for (int i=0; i System.out.println(hits.doc(i).get("path") + "; Score: " +
hits.score(i));
};
}
}
在整个检索过�E�中�Q�语�a�分析器，查询分析器，甚至搜烦(ch��)器（Searcher�Q�都是提供了(ji��n)抽象的接口，可以�Ҏ(gu��)��需要进行定制�?
Hacking Lucene
��化的查询分析�?/b>
个�h感觉lucene成�ؓ(f��)JAKARTA��目后，��d��?ji��n)太多的旉��用于调试日趋复杂QueryParser�Q�而其中大部分是大多数用户�q�不很熟�(zh��n)�的�Q�目前LUCENE支持的语法：(x��)
Query ::= ( Clause )*
Clause ::= ["+", "-"] [ ":"] ( | "(" Query ")")
中间的逻辑包括�Q�and or + - &&||�{�符��P��而且�q�有"短语查询"和针对西文的前缀/模糊查询�{�，个�h感觉对于一般应用来��_(d��)��q�些功能有一些华而不实，其实能够实现目前�c�M��于Google的查询语句分析功能其实对于大多数用户来说已经够了(ji��n)。所以，Lucene早期版本的QueryParser仍是比较好的选择�?/p>
��d��修改删除指定记录�Q�Document�Q?/b>
Lucene提供�?ji��n)�?ch��)引的扩展机制�Q�因此烦(ch��)引的动态扩展应该是没有问题的，而指定记录的修改也似乎只能通过记录的删除，然后重新加入实现。如何删除指定的记录呢？删除的方法也很简单，只是需要在索引时根据数据源中的记录ID专门另徏索引�Q�然后利用IndexReader.delete(Termterm)�Ҏ(gu��)��通过�q�个记录ID删除相应的Document�?/p>
�Ҏ(gu��)��某个字段值的排序功能
lucene�~�省是按照自��q��相关度算法（score�Q�进行结果排序的�Q�但能够�Ҏ(gu��)��其他字段�q�行�l�果排序是一个在LUCENE的开发邮件列表中�l�常提到的问题，很多原先��Z��数据库应用都需要除�?ji��n)基于匹配度�Q�score�Q�以外的排序功能。而从全文��(g��)索的原理我们可以�?ji��n)解刎ͼ��M��不基于烦(ch��)引的搜烦(ch��)�q�程效率都会(x��)��D��效率非常的低�Q�如果基于其他字�D늚�排序需要在搜烦(ch��)�q�程中访问存储字�D�，速度回大大降低，因此非常是不可取的�?/p>
但这里也有一个折中的解决�Ҏ(gu��)��Q�在搜烦(ch��)�q�程中能够媄(ji��ng)响排序结果的只有索引中已�l�存储的docID和score�q?个参敎ͼ�所以，��Z��score以外的排序，其实可以通过��数据源预先排好序，然后�Ҏ(gu��)��docID�q�行排序来实现。这样就避免�?ji��n)在LUCENE搜烦(ch��)�l�果外对�l�果再次�q�行排序和在搜烦(ch��)�q�程中访问不在烦(ch��)引中的某个字�D�倹{�?/p>
�q�里需要修改的是IndexSearcher中的HitCollector�q�程�Q?/p>
...
　scorer.score(new HitCollector() {
private float minScore = 0.0f;
public final void collect(int doc, float score) {
if (score > 0.0f && // ignore zeroed buckets
(bits==null || bits.get(doc))) { // skip docs not in bits
totalHits[0]++;
if (score >= minScore) {
/* 原先�Q�Lucene��docID和相应的匚w��度score例入�l�果命中列表中：(x��)
* hq.put(new ScoreDoc(doc, score)); // update hit queue
* 如果用doc �?1/doc 代替 score�Q�就实现�?ji��n)根据docID��排或逆排
* 假设数据源烦(ch��)引时已经按照某个字段排好�?ji��n)序�Q�而结果根据docID排序也就实现�?br /> * 针对某个字段的排序，甚至可以实现更复杂的score和docID的拟合�?br /> */
hq.put(new ScoreDoc(doc, (float) 1/doc ));
if (hq.size() > nDocs) { // if hit queue overfull
hq.pop(); // remove lowest in hit queue
minScore = ((ScoreDoc)hq.top()).score; // reset minScore
}
}
}
}
}, reader.maxDoc());
更通用的输入输出接�?/b>
虽然lucene没有定义一个确定的输入文档格式�Q�但��来��多的�h惛_��使用一个标准的中间格式作�ؓ(f��)Lucene的数据导入接口，然后其他数据�Q�比如PDF只需要通过解析器�{换成标准的中间格式就可以�q�行数据索引�?ji��n)。这个中间格式主要以XML��Z��Q�类似实现已�l�不�?�Q?个：(x��)
数据�? WORD PDF HTML DB other
\ | | | /
XML中间格式
|
Lucene INDEX
目前�q�没有针对MSWord文档的解析器�Q�因为Word文档和基于ASCII的RTF文档不同�Q�需要��用COM对象机制解析。这个是我在Google上查的相兌��料：(x��)http://www.intrinsyc.com/products/enterprise_applications.asp
另外一个办法就是把Word文档转换成text�Q?a >http://www.winfield.demon.nl/index.html

索引�q�程优化
索引一般分2�U�情况，一�U�是��批量的索引扩展�Q�一�U�是大批量的索引重徏。在索引�q�程中，�q�不是每�ơ新的DOC加入�q�去索引都重新进行一�ơ烦(ch��)引文件的写入操作�Q�文件I/O是一仉��常消耗资源的事情�Q��?/p>
Lucene先在内存中进行烦(ch��)引操作，�q�根据一定的扚w��q�行文�g的写入。这个批�ơ的间隔��大�Q�文件的写入�ơ数��少�Q�但占用内存�?x��)很多。反之占用内存少�Q�但文�gIO操作频繁�Q�烦(ch��)引速度�?x��)很慢。在IndexWriter中有一个MERGE_FACTOR参数可以帮助你在构造烦(ch��)引器后根据应用环境的情况充分利用内存减少文�g的操作。根据我的��用经验：(x��)�~�省Indexer是每20条记录烦(ch��)引后写入一�ơ，每将MERGE_FACTOR增加50倍，索引速度可以提高1倍左叟�?br />
搜烦(ch��)�q�程优化
lucene支持内存索引�Q�这��L(f��ng)��搜烦(ch��)比基于文件的I/O有数量��的速度提升�?br />http://www.onjava.com/lpt/a/3273
而尽可能减少IndexSearcher的创建和�Ҏ(gu��)��索结果的前台的缓存也是必要的�?br />
Lucene面向全文��(g��)索的优化在于首次索引��(g��)索后�Q��ƈ不把所有的记录�Q�Document�Q�具体内容读取出来，而�v只将所有结果中匚w��度最高的�?00条结果（TopDocs�Q�的ID攑ֈ��l�果集缓存中�q�返回，�q�里可以比较一下数据库��(g��)索：(x��)如果是一�?0,000条的数据库检索结果集�Q�数据库是一定要把所有记录内定w��取得以后再开始返回给应用�l�果集的。所以即使检索匹配��L��很多�Q�Lucene的结果集占用的内存空间也不会(x��)很多。对于一般的模糊��(g��)索应用是用不到这么多的结果的�Q�头100条已�l�可以满��?0%以上的检索需求�?br />
如果首批�~�存�l�果数用完后�q�要��d��更后面的�l�果时Searcher�?x��)再�ơ检索�ƈ生成一个上�ơ的搜烦(ch��)�~�存数大1倍的�~�存�Q��ƈ再重新向后抓取。所以如果构造一个Searcher��L��1�Q?20条结果，Searcher其实是进行了(ji��n)2�ơ搜索过�E�：(x��)�?00条取完后�Q�缓存结果用完，Searcher重新��(g��)索再构造一�?00条的�l�果�~�存�Q�依此类推，400条缓存，800条缓存。由于每�ơSearcher对象消失后，�q�些�~�存也访问那不到�?ji��n)，你有可能惛_��l�果记录�~�存下来�Q�缓存数��量保证�?00以下以充分利用首�ơ的�l�果�~�存�Q�不让Lucene��费多次��(g��)索，而且可以分��q�行�l�果�~�存�?br />
Lucene的另外一个特�Ҏ(gu��)��在收集结果的�q�程中将匚w��度低的结果自动过滤掉�?ji��n)。这也是和数据库应用需要将搜烦(ch��)的结果全部返回不同之处�?/p>
我的一些尝�?/a>�Q?/p>
支持中文的Tokenizer�Q�这里有2个版本，一个是通过JavaCC生成的，对CJK部分按一个字�W�一个TOKEN索引�Q�另外一个是从SimpleTokenizer改写的，对英文支持数字和字母TOKEN�Q�对中文按�P代烦(ch��)引�?
��Z��XML数据源的索引器：(x��)XMLIndexer�Q�因此所有数据源只要能够按照DTD转换成指定的XML�Q�就可以用XMLIndxer�q�行索引�?ji��n)�?
�Ҏ(gu��)��某个字段排序�Q�按记录索引��序排序�l�果的搜索器�Q�IndexOrderSearcher�Q�因此如果需要让搜烦(ch��)�l�果�Ҏ(gu��)��某个字段排序�Q�可以让数据源先按某个字�D�|��好序�Q�比如：(x��)PriceField�Q�，�q�样索引后，然后在利用这个按记录的ID��序��(g��)索的搜烦(ch��)器，�l�果��是相当于是那个字段排序的结果了(ji��n)�?
从Lucene学到更多
Luene的确是一个面对对象设计的典范
所有的问题都通过一个额外抽象层来方便以后的扩展和重用：(x��)你可以通过重新实现来达到自��q��目的�Q�而对其他模块而不需要；
��单的应用入口Searcher, Indexer�Q��ƈ调用底层一�p�d��l��g协同的完成搜索�Q务；
所有的对象的�Q务都非常专一�Q�比如搜索过�E�：(x��)QueryParser分析��查询语句�{换成一�p�d��的精��查询的�l�合(Query),通过底层的烦(ch��)引读取结构IndexReader�q�行索引的读取，�q�用相应的打分器�l�搜索结果进行打�?排序�{�。所有的功能模块原子化程度非帔R��Q�因此可以通过重新实现而不需要修改其他模块。�?
除了(ji��n)灉|��的应用接口设计，Lucene�q�提供了(ji��n)一些适合大多数应用的语言分析器实玎ͼ�SimpleAnalyser,StandardAnalyser�Q�，�q�也是新用户能够很快上手的重要原因之一�?
�q�些优点都是非常值得在以后的开发中学习(f��n)借鉴的。作��Z��个通用工具包，Lunece的确�l�予�?ji��n)需要将全文��(g��)索功能嵌入到应用中的开发者很多的便利�?/p>
此外�Q�通过对Lucene的学�?f��n)和使用�Q�我也更深刻地理解了(ji��n)��Z��么很多数据库优化设计中要求，比如�Q?/p>
��可能对字段�q�行索引来提高查询速度�Q�但�q�多的烦(ch��)引会(x��)�Ҏ(gu��)��据库表的更新操作变慢�Q�而对�l�果�q�多的排序条�Ӟ��实际上往往也是性能的杀手之一�?
很多商业数据库对大批量的数据插入操作�?x��)提供一些优化参敎ͼ��q�个作用和烦(ch��)引器的merge_factor的作用是�c�M��的，
20%/80%原则�Q�查的结果多�q�不�{�于质量好，��其对于�q�回�l�果集很大，如何优化�q�头几十条结果的质量往往才是最重要的�?
��可能让应用从数据库中获得比较小的结果集�Q�因为即使对于大型数据库�Q�对�l�果集的随机讉K��也是一个非常消耗资源的操作�?br />
参考资料：(x��)
Apache: Lucene Project
http://jakarta.apache.org/lucene/
Lucene开�?用户邮�g列表归档
Lucene-dev@jakarta.apache.org
Lucene-user@jakarta.apache.org
The Lucene search engine: Powerful, flexible, and free
http://www.javaworld.com/javaworld/jw-09-2000/jw-0915-Lucene_p.html
Lucene Tutorial
http://www.darksleep.com/puff/lucene/lucene.html
Notes on distributed searching with Lucene
http://home.clara.net/markharwood/lucene/
中文语言的切分词
http://www.google.com/search?sourceid=navclient&hl=zh-CN&q=chinese+word+segment
搜烦(ch��)引擎工具介绍
http://searchtools.com/
Lucene作者Cutting的几��论文和专利
http://lucene.sourceforge.net/publications.html
Lucene�?NET实现�Q�dotLucene
http://sourceforge.net/projects/dotlucene/
Lucene作者Cutting的另外一个项目：(x��)��Z��Java的搜索引擎Nutch
http://www.nutch.org/ http://sourceforge.net/projects/nutch/
关于��Z��词表和N-Gram的切分词比较
http://china.nikkeibp.co.jp/cgi-bin/china/news/int/int200302100112.html

2005-01-08 Cutting在Pisa大学做的关于Lucene的讲座：(x��)非常详细的Lucene架构解说

Lansing 2006-08-17 09:08 发表评论

	Lucene全文索引引擎	数据�?/td>
索引	��数据源中的数据都通过全文索引一一建立反向索引	对于LIKE查询来说�Q�数据传�l�的索引是根本用不上的。数据需要逐个便利记录�q�行GREP式的模糊匚w��Q�比有烦(ch��)引的搜烦(ch��)速度要有多个数量�U�的下降�?/td>
匚w��效果	通过词元(term)�q�行匚w��Q�通过语言分析接口的实玎ͼ�可以实现对中文等非英语的支持�?/td>	使用�Q�like "%net%" �?x��)把netherlands也匹配出来，多个关键词的模糊匚w��Q��用like "%com%net%"�Q�就不能匚w��词序颠倒的xxx.net..xxx.com
匚w��?/td>	有匹配度��法�Q�将匚w��E�度�Q�相似度�Q�比较高的结果排在前面�?/td>	没有匚w��E�度的控�Ӟ��(x��)比如有记录中net出现5词和出现1�ơ的�Q�结果是一��L(f��ng)��?/td>
�l�果输出	通过特别的算法，��最匚w��度最高的�?00条结果输出，�l�果集是�~�冲式的��批量读取的�?/td>	�q�回所有的�l�果集，在匹配条目非常多的时候（比如上万条）(j��)需要大量的内存存放�q�些临时�l�果集�?/td>
可定制�?/td>	通过不同的语�a�分析接口实现�Q�可以方便的定制出符合应用需要的索引规则�Q�包括对中文的支持）(j��)	没有接口或接口复杂，无法定制
�l�论	高负载的模糊查询应用�Q�需要负责的模糊查询的规则，索引的资料量比较�?/td>	使用率低�Q�模�p�匹配规则简单或者需要模�p�查询的资料量少

	Lucene	其他开源全文检索系�l?/td>
增量索引和批量烦(ch��)�?/td>	可以�q�行增量的烦(ch��)�?Append)�Q�可以对于大量数据进行批量烦(ch��)引，�q�且接口设计用于优化扚w��索引和小扚w��的增量烦(ch��)引�?/td>	很多�pȝ��只支持批量的索引�Q�有时数据源有一点增加也需要重建烦(ch��)引�?/td>
数据�?/td>	Lucene没有定义具体的数据源�Q�而是一个文档的�l�构�Q�因此可以非常灵�zȝ��适应各种应用�Q�只要前端有合适的转换器把数据源�{换成相应�l�构�Q�，	很多�pȝ��只针对网��，�~�Z��其他格式文档的灵�z�L��?/td>
索引内容抓取	Lucene的文档是由多个字�D늻�成的�Q�甚臛_��以控刉��些字�D�需要进行烦(ch��)引，那些字段不需要烦(ch��)引，�q�一步烦(ch��)引的字段也分为需要分词和不需要分词的�c�d��Q?br /> 需要进行分词的索引�Q�比如：(x��)标题�Q�文章内容字�D?br /> 不需要进行分词的索引�Q�比如：(x��)作�?日期字段	�~�Z��通用性，往往��文档整个烦(ch��)引了(ji��n)
语言分析	通过语言分析器的不同扩展实现�Q?br />可以�q��o(h��)掉不需要的词：(x��)an the of �{�，西文语法分析�Q�将jumps jumped jumper都归�l�成jump�q�行索引/��(g��)�?br />非英文支持：(x��)对亚�z�语�a��Q�阿拉伯语言的烦(ch��)引支�?/td>	�~�Z��通用接口实现
查询分析	通过查询分析接口的实玎ͼ�可以定制自己的查询语法规则：(x��) 比如�Q?多个关键词之间的 + - and or关系�{?/td>
�q�发讉K��	能够支持多用��L(f��ng)��使用

	自动切分	词表切分
实现	实现非常��?/td>	实现复杂
查询	增加�?ji��n)查询分析的复杂�E�度�Q?/td>	适于实现比较复杂的查询语法规�?/td>
存储效率	索引冗余大，索引几乎和原文一样大	索引效率高，为原文大��的30�Q�左�?/td>
�l�护成本	无词表维护成�?/td>	词表�l�护成本非常高：(x��)中日韩等语言需要分别维护�?br />�q�需要包括词频统计等内容
适用领域	嵌入式系�l�：(x��)�q�行环境资源有限分布式系�l�：(x��)无词表同步问�?br />多语�a�环境�Q�无词表�l�护成本	�Ҏ(gu��)��询和存储效率要求高的专业搜烦(ch��)引擎

org.apache.Lucene.search/	搜烦(ch��)入口
org.apache.Lucene.index/	索引入口
org.apache.Lucene.analysis/	语言分析�?/td>
org.apache.Lucene.queryParser/	查询分析�?/td>
org.apache.Lucene.document/	存储�l�构
org.apache.Lucene.store/	底层IO/存储�l�构
org.apache.Lucene.util/	一些公用的数据�l�构

�Ҏ(gu��)��	切词	索引	存储	用�?/th>
Field.Text(String name, String value)	Yes	Yes	Yes	切分词烦(ch��)引�ƈ存储�Q�比如：(x��)标题�Q�内容字�D?/td>
Field.Text(String name, Reader value)	Yes	Yes	No	切分词烦(ch��)引不存储�Q�比如：(x��)META信息�Q?br />不用于返回显�C�，但需要进行检索内�?/td>
Field.Keyword(String name, String value)	No	Yes	Yes	不切分烦(ch��)引�ƈ存储�Q�比如：(x��)日期字段
Field.UnIndexed(String name, String value)	No	No	Yes	不烦(ch��)引，只存储，比如�Q�文件�\�?/td>
Field.UnStored(String name, String value)	Yes	Yes	No	只全文烦(ch��)引，不存�?/td>