Lucene倒排索引原理(�?

Fri, 17 Oct 2008 01:43:00 GMT

Lucene是一个高性能的java全文��索工具包�Q�它使用的是倒排文�g索引�l�构。该�l�构及相应的生成��法如下�Q?br />
0�Q�设有两��文�?�?
文章1的内容�ؓ�Q�Tom lives in Guangzhou,I live in Guangzhou too.
文章2的内容�ؓ�Q�He once lived in Shanghai.

1)�׃��lucene是基于关键词索引和查询的�Q�首先我们要取得�q�两��文章的关键词，通常我们需要如下处理措�?br />a.我们现在有的是文章内容，即一个字�W�串�Q�我们先要找出字�W�串中的所有单词，卛_��词。英文单词由于用�I�格分隔�Q�比较好处理。中文单词间是连在一��L��需要特�D�的分词处理�?br />b.文章中的”in�? “once” “too”等词没有什么实际意义，中文中的“的”“是”等字通常也无具体含义�Q�这些不代表概念的词可以�q��o�?br />c.用户通常希望查“He”时能把含“he”，“HE”的文章也找出来�Q�所以所有单词需要统一大小写�?br />d.用户通常希望查“live”时能把含“lives”，“lived”的文章也找出来�Q�所以需要把“lives”，“lived”还原成“live�?br />e.文章中的标点�W�号通常不表�C�某�U�概念，也可以过滤掉
在lucene中以上措施由Analyzer�c�d��?br />
�l�过上面处理�?br />    文章1的所有关键词为：[tom] [live] [guangzhou] [i] [live] [guangzhou]
    文章2的所有关键词为：[he] [live] [shanghai]

2) 有了关键词后�Q�我们就可以建立倒排索引了。上面的对应关系是：“文章号”对“文章中所有关键词”。倒排索引把这个关�p�d��过来，变成�Q�“关键词”对“拥有该关键词的所有文章号”。文�?�Q?�l�过倒排后变�?br />关键词   文章号
guangzhou  1
he         2
i           1
live       1,2
shanghai   2
tom         1

通常仅知道关键词在哪些文章中出现�q�不够，我们�q�需要知道关键词在文章中出现�ơ数和出现的位置�Q�通常有两�U�位�|�：a)字符位置�Q�即记录该词是文章中�W�几个字�W�（优点是关键词亮显时定位快�Q�；b)关键词位�|�，卌��录该词是文章中第几个关键词（优点是节�U�烦引空间、词�l�（phase�Q�查询快�Q�，lucene中记录的��是�q�种位置�?br />
加上“出现频率”和“出��C��|�”信息后�Q�我们的索引�l�构变�ؓ�Q?br />关键词   文章号[出现频率]   出现位置
guangzhou 1[2]               3�Q?
he       2[1]               1
i         1[1]               4
live      1[2],2[1]           2�Q?�Q?
shanghai  2[1]               3
tom      1[1]               1

以live �q�行��Z��我们说明一下该�l�构�Q�live在文�?中出��C��2�ơ，文章2中出��C��一�ơ，它的出现位置为�?,5,2”这表示什么呢�Q�我们需要结合文章号和出现频率来分析�Q�文�?中出��C��2�ơ，那么�?,5”就表示live在文�?中出现的两个位置�Q�文�?中出��C��一�ơ，剩下的�?”就表示live是文�?中第 2个关键字�?br />
以上��是lucene索引�l�构中最核心的部分。我们注意到关键字是按字�W�顺序排列的�Q�lucene没有使用B树结构）�Q�因此lucene可以用二元搜索算法快速定位关键词�?br />
实现时 lucene��上面三列分别作��典文�Ӟ��Term Dictionary�Q�、频率文�?frequencies)、位�|�文�?(positions)保存。其中词典文件不仅保存有每个关键词，�q�保留了指向频率文�g和位�|�文件的指针�Q�通过指针可以扑ֈ�该关键字的频率信息和位置信息�?br />
    Lucene中��用了field的概念，用于表达信息所在位�|�（如标题中�Q�文章中�Q�url中）�Q�在建烦引中�Q�该field信息也记录在词典文�g中，每个关键词都有一个field信息(因�ؓ每个关键字一定属于一个或多个field)�?br />
     ��Z��减小索引文�g的大��，Lucene对烦引还使用了压�~�技术。首先，对词典文件中的关键词�q�行了压�~�，关键词压�~��ؓ<前缀长度�Q�后�~�>�Q�例如：当前词�ؓ“阿拉伯语”，上一个词为“阿拉伯”，那么“阿拉伯语”压�~��ؓ<3�Q�语>。其�ơ大量用到的是对数字的压�~�，数字只保存与上一个值的差��|��q�样可以减小数字的长度，�q�而减��保存该数字需要的字节敎ͼ�。例如当前文章号�?6389�Q�不压羃要用3个字节保存）�Q�上一文章��h��16382�Q�压�~�后保存7�Q�只用一个字节）�?br />
    下面我们可以通过对该索引的查询来解释一下�ؓ什么要建立索引�?br />假设要查询单词 “live”，lucene先对词典二元查找、找到该词，通过指向频率文�g的指针读出所有文章号�Q�然后返回结果。词兔R��常非常��，因而，整个�q�程的时间是毫秒�U�的�?br />而用普通的��序匚w��法�Q�不建烦引，而是�Ҏ��有文章的内容�q�行字符串匹配，�q�个�q�程��会相当�~�慢�Q�当文章数目很大�Ӟ��旉��往往是无法忍受的�?

金家�?/a> 2008-10-17 09:43 发表评论

欧美一区二区三区日韩,中文字幕佐山爱一区二区免费,国产福利在线观看

Lucene倒排索引原理(�?