Lucene�Q�基于Java的全文检索引擎简�?转蝲)

pinuo — Sun, 02 Mar 2008 13:35:00 GMT

摘要: ��Z��Java的全文烦引引擎Lucene��介：关于作者和Lucene的历�? 全文��索的实现�Q�Luene全文索引和数据库索引的比�? 中文切分词机制简介：��Z��词库和自动切分词��法的比�? 具体的安装和使用��介：�pȝ��l�构介绍和演�C? Hacking Lucene�Q�简化的查询分析器，删除的实玎ͼ�定制的排序，应用接口的扩�? �?.. 阅读全文

pinuo 2008-03-02 21:35 发表评论

�?Page Rank �?Google 的民主表军_��|�页排名技�?转蝲)

pinuo — Sun, 02 Mar 2008 11:54:00 GMT

大家可能听说�q�，Google 革命性的发明是它名�ؓ “Page Rank” 的网��|��名算法，�q�项技术彻底解决了搜烦�l�果排序的问题。其实最先试囄��互联�|�上的众多网站排序的�q�不�?/span> Google�?/span>Yahoo�Q?/span>公司最�?/span>�W�一个用目录分类的方式让用户通过互联�|�检索信息，但由于当时计��机定w��和速度的限�Ӟ��当时�?/span> Yahoo�Q?/span>和同时代的其它搜索引擎都存在一个共同的问题�Q?/span>收录的网��太��，而且只能对网��中常见内容相关的实际用词进行烦引。那�Ӟ��用户很难扑ֈ�很相关信息。我记得 1999 �q�以前查找一��论文，要换好几个搜索引擎。后�?/span> DEC 公司开发了 AltaVista 搜烦引擎�Q�只用一�?/span> ALPHA 服务器，却收录了比以往引擎都多的网��，而且寚w��面的每个词进行烦引�?/span>AltaVista 虽然让用��h��索到大量�l�果�Q�但大部分结果却与查询不太相养I��有时找想看的�|�页需要翻好几��c��所以最初的 AltaVista 在一定程度上解决了覆盖率的问题，但不能很好地对结果进行排序�?/span>

Google �?/span> “Page Rank” �Q�网��|��名）是怎么回事呢？其实��单说��是民主表决。打个比方，假如我们要找李开复博士，有一百个��Z�D手说自己是李开复。那么谁是真的呢�Q�也许有好几个真的，但即使如此谁又是大家真正��x��的呢�Q?/span>:-) 如果大家都说�?/span> Google 公司的那个是真的�Q�那么他��是真的�?/span>

在互联网上，如果一个网��被很多其它�|�页所链接�Q�说明它受到普遍的承认和信赖�Q�那么它的排名就高。这��是 Page Rank 的核心思想�?/span>当然 Google �?/span> Page Rank ��法实际上要复杂得多。比如说�Q�对来自不同�|�页的链接对待不同，本��n�|�页排名高的链接更可靠，于是�l�这些链接予较大的权重�?/span>Page Rank 考虑了这个因素，可是现在问题又来了，计算搜烦�l�果的网��|��名过�E�中需要用到网��|��w�的排名�Q�这不成了先有鸡�q�是先有蛋的问题了吗�Q?/span>

Google 的两个创始�h拉里•佩奇�Q?/span>Larry Page �Q�和谢尔�?/span>•布林 (Sergey Brin) 把这个问题变成了一个二�l�矩�늛�乘的问题�Q��ƈ且用�q�代的方法解决了�q�个问题。他们先假定所有网��늚�排名是相同的�Q��ƈ且根据这个初始��|��出各个�|�页的第一�ơ�P代排名，然后再根据第一�ơ�P代排名算出第二次的排名。他们两��Z��理论上证明了不论初始值如何选取�Q�这�U�算法都保证了网��|��名的估计��D��收敛��C��们的真实倹{��值得一提的事，�q�种��法是完全没有�Q何�h工干预的�?/span>

理论问题解决了，又遇到实际问题。因��Z��联网上网��늚�数量是巨大的�Q�上面提到的二维矩阵从理��Z��讲有�|�页数目�q�x��之多个元素。如果我们假定有十亿个网��，那么�q�个矩阵��有一百亿亿个元素。这样大的矩�늛�乘，计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计��的技巧，大大的简化了计算量，�q�实��C��q�个�|�页排名��法。今�?/span> Google 的工�E�师把这个算法移植到�q�行的计��机中，�q�一步羃短了计算旉��Q��ɾ|�页更新的周期比以前短了许多�?/span>

我来 Google 后，拉里 (Larry) 在和我们几个新员工��谈时�Q�讲起他当年和谢��盖(Sergey) 是怎么惛_��|�页排名��法的。他��_��"当时我们觉得整个互联�|�就像一张大的图�Q?/span>Graph)�Q�每个网站就像一个节点，而每个网��늚�链接��像一个弧。我惻I��互联�|�可以用一个图或者矩阉|��q�ͼ�我也许可以用�q�个发现做个博士论文�?/span>" 他和谢尔盖就�q�样发明�?/span> Page Rank 的算法�?/span>

�|�页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中�W�合了系�l�论的观炏V��相比之下，以前的信息检索大多把每一个网��当作独立的个体对待�Q�很多�h当初只注意了�|�页内容和查询语句的相关性，忽略了网��之间的关系�?/span>

今天�Q?/span>Google 搜烦引擎比最初复杂、完善了许多。但是网��|��名在 Google 所有算法中依然是至关重要的。在学术�?/span>, �q�个��法被公认�ؓ是文献检索中最大的贡献之一�Q��ƈ且被很多大学引入了信息检索课�E?/span> (Information Retrieval) 的教�E��?/span>

pinuo 2008-03-02 19:54 发表评论

数学之美�p�d��(转蝲)

pinuo — Sun, 02 Mar 2008 11:50:00 GMT

只有注册用户��d��后才能阅读该文�?a href='http://www.aygfsteel.com/pinuo/archive/2008/03/02/183288.html'>阅读全文

pinuo 2008-03-02 19:50 发表评论

97se亚洲综合,国产美女高潮在线,538国产精品视频一区二区

Lucene�Q�基于Java的全文检索引擎简�?转蝲)

�?Page Rank �?Google 的民主表军_���|�页排名技�?转蝲)

数学之美�p�d��(转蝲)

�?Page Rank �?Google 的民主表军_��|�页排名技�?转蝲)