毛片网站在线看,蜜桃视频在线免费,青草av.久久免费一区

Blogger Rank

weidagang2046 — Tue, 02 Jan 2007 05:47:00 GMT

写博客就要写的短��精悍，逻辑清晰�Q�太长的博客基本上没人看�Q�又长又枯燥的博客就更没有�h看了�?/span> 我估�?a onclick="return top.js.OpenExtLink(window,event,this)" target="_blank">老白是少数有毅力能够把我的博客读完的��Z��一。有此䆾毅力�Q�何事不�?wbr>。所以，老白也是我敬仰敬重的人�?/span>

不过谈到�q�个排名和打分问题，咱哥们儿�q�是应该在一�?/span> 合计合计�q�个事儿 �Q?/span>

1. ��Z��么要搞公共排名，而不是个人排名？

个�h排名�Q�读�?a onclick="return top.js.OpenExtLink(window,event,this)" target="_blank">老白的文�?/a>之后�Q�才理解�q�是一个个人知识管理的问题。其实绝大多��C�h�q�不订阅那么多博客，他们每天读读 Keso 和老白的网摘，在到 365key �?/span> donews 的主��上转一圈，基本��׃��会漏掉什么重要内宏V��如果这仅仅是老白�{?wbr>��数人的困扰�Q�那�Ҏ��很多了�Q�大不了老白自己手工�l�计一�?wbr>�Q�辛苦老白一个，能造福千万人�?

谈到打分�Q�更是这��P��没有排名和比较，分数��没有意�?wbr>。老白其实也可以根据自己心中的分数搞出来一个老白阅读�?wbr>�Q�和胡润财富榜一��h��为大安��d��客的重要参照依据�?/p>

我没有老白�?/span> Keso �q�样大的影响力，也没有许多时间来一一甄别和评判众多博�?wbr>�Q�只好和大家一��P��要么期盼老白或�?/span> Keso 能够搞出来一个，要么��p��跟潮��，看看有没有社会化评�h的体�p�d��?wbr>法�?/span>

2. ��Z��么没有��用页面访问量�Q?/strong>

�q�个东西太容易造假�Q�而且不能反映博客的水�q�_��质量。常在互联网��L��兄弟们虽然没有徐博客那��L��明星出生 �Q�但是想要搞炚w��面访问量�Q�先不说那些技术手�D�，�q�是有其他许多方法：起一些危�a�耸听或者吸引眼球的标题�Q�脓些带擦边球的囄��Q�经�怸�注一下百度和新浪搜烦排前几名的关键字�Q�经常�{载一些从 ChinaBBS �Q?/span> Qihoo 上来的热门脓。博客可以搞的臭气熏天，��面讉K��量倒也可以同步增长。回复数�Q? TrackBack 因�ؓ SPAM 的原因同样不太可靠�?/span>

3. ��Z��么没有��用订阅数�Q?/strong>

没有使用订阅者倒不是因为担心造假�Q�这个问题比较复杂�?/p>

仅有订阅数是不��以表明博客的价倹{��比如，有两�?/span> Blogger �Q?/span> A �?/span> B �?/span> A �?/span> 10 个订阅者， B �?/span> 15 个订阅者，能简单的�?/span> B ��比 A 更有价值吗�Q�如果说 A 的订阅者都是象老白�Q?/span> Keso �q�样的大牛，�?/span> B 的订阅者都是自己刚开始写博客的小兄弟们， A �?/span> B 的�h值那个高�Q�这��很难说了�?/span>

所�?/span> Blogger 有没有�h��D��要看订阅者的权倹{��这��L��话，问题��来了。凭什么说�Q�老白的权值是 100 �Q?/span> Keso 的权��g��?/span> 100 �Q�而小兄弟的权值就只有 1 呢？�q�里的依据是什么？老白肯定认�ؓ与小兄弟相比�Q�自��q��权值应该是 1000 �Q�因��Z��的订阅者都是象 keso �q�样的大牛，你看�q?/span> keso 都说老白的文章是要认真对待的。自��q��值应该是 Keso �q�群大牛的加权��^均倹{��可�?/span> Keso 的��g��什么地�Ҏ��呢？他的订阅者中也有老白啊。这不就变成了死循环了吗�Q?/span> Page Rank 的�A献就在这里：他先假设所有�h初始权值都是相同的�Q�每增加一个�h订阅或者链接就增加一份权��|��q�样通过反复叠代�Q�就能够收敛到最�l�的权倹{�?

�q�个思�\不仅仅能用在�|�页链接的排名上�Q�同栯��可以用在订阅关系�?wbr>博客之间的相互链接上。不�q�最�q�有人告诉我�Q�以色列数学家找��Z�� Page Rank 的缺��P��认�ؓ PR ��法没有考虑��面的更新程度，一旦一个页面被一�?/span> PR 值高的页面链接了�Q�那��׃��x��怺��Q�不用更��C��能保持很高的 PR 倹{��有兴趣的�h可以参看一�?�q�里。我们在此略�q�不表�?/span>

如果使用了类�?/span> PR ��法的订阅数�Q�这个可行吗�Q�基本上�q�是不可行的�Q�因�?/span> Blogger 是无法知道自��q��博客被多��h订阅和观看的�Q�不同的客户�?wbr>�Q�还有许多象 Bloglines �Q?/span> Gougou �q�样的中转站�Q�不同的标准�Q�根本无法统计�?/span>

4. ��Z��么没有给别�h打分呢？

在公认的排名中，�l�别人打分，也有个信用度的问�?wbr>。象老白�q�样德高望重�Q�品学兼优的人打出来的分数就可靠�?wbr>�Q�小兄弟们打出来的分数就没有那么可靠。所以，在打分之前也涉及�? 一个权值或者信用度的问题。可是权重和信用度从什么地�Ҏ��呢？

�l�文章打分而不是给人打分，�q�也比较复杂。博�?/span> A 一月�� 5 ��博客，��篇都是�_�֓��Q�博�?/span> B 一月�� 10 ��，其中 3 ��是�_�֓��Q?/span> 7 ��是他个人的八卦故事�Q�谁的分数应该高一些？如果是按��d��Q�显�?/span> B 要高�Q�但�?/span> A 在常理判断上��g��更有价��g��些，因�ؓ他精品多�Q�阅��d��扰却不多。那我们��取�q�_��|��问题又来了， A 下个月只�?/span> 1 ��精品了�Q?/span> B �q�是一月�� 10 ��， 3 ��是�_�֓��Q?/span> 7 ��非�_�֓��Q�哪个高�Q�文章有太多的随机性和偶然性，而且因�ؓ文章数和文章质量在不同的博客�Q�不同的旉��D�|��不一��L��Q�给文章打分反而把问题搞复杂了�?/span>

5. ��Z��么没有搞客户端的评�h体系�Q?/strong>

原因��是客户端太多，如果希望�l�一太复杂。在�q�点�?wbr>�Q�我同意王徏��的说法�Q?a onclick="return top.js.OpenExtLink(window,event,this)" target="_blank">当一件事情有赖于多于一个�h的努力才能成功的话，他成功的可能性就��很�?。有条�g的网站如 donews �Q?/span> gougou, feedsky �q�是应该自己独立搞一个，或者小规模的联合一下，千万别等客户端的�l�一�?/span>

�{�到一��博客大牛们把自��q�� Blogger Rank 图标象蓝色的 Bloglines 订阅敎ͼ��l�色�?/span> Gougou 订阅��C��h��在自��q��博客上，大家又象讨论 Alexa 排名一样�ؓ�q�个 Blogger Rank 争论不休。这个时候，才算略有��成�?/span>

正因��虑到这些东西，才写下了�q�篇文章�Q�就当作是抛砖引玉吧�Q�希望看到更多更好的思�\�?br />
from: http://blog.donews.com/henryhwa/archive/2006/03/29/798355.aspx

weidagang2046 2007-01-02 13:47 发表评论

Google SiteMap Protocol协议

weidagang2046 — Sat, 30 Dec 2006 09:36:00 GMT

在新��看到这��L��新闻Google雅虎微��Y联手支持�|�页手工提交标准, Google、微软和雅虎认�ؓ�Q�统一标准有助于从整体上改�q�站点地图，从而搜索引擎可以将更广泛的信息加入索引。当�Ӟ��搜烦�l�端用户也将从中��L��。Google�|�站��理员中心��品经理瓦内萨·��克�?Vanessa Fox)表示�Q�“我们的首要��d��是�ؓ用户提供最��x��索结果，以及为网站所有者运营网站提供便利。”Google、微软和雅虎�q�将推动其它搜烦引擎�q�营商，以及相关软�g厂商加入Sitemaps协议支持者的行列�?font face="Times New Roman">Google、雅虎以及微软宣布已�l�达成共识，旗下的搜索引擎将采用�l�一的Sitemaps 0.9(站点地图)协议对网站进行烦引。目前，�?/font>www.sitemaps.org�|�站上，已经为网站管理员准备了一套简单快��L��指引�Q��搜烦引擎能够完整、有效地对网站进行烦引。了解一下Google SiteMap Protocol.

Google SiteMap Protocol是Google自己推出的一�U�站点地囑֍�议，此协议文件基于早期的robots.txt文�g协议�Q��ƈ有所升��。在Google官方指南中指出加入了Google SiteMap文�g的网站将更有利于Google�|�页爬行机器人的爬行索引�Q�这样将提高索引�|�站内容的效率和准确度。文件协议应用了��单的XML格式�Q�一��q��?个标�{�，其中关键标签包括链接地址、更新时间、更新频率和索引优先权�?/p>
Google SiteMap文�g生成后格式如下：

XML标签

changefreq:��面内容更新频率�?

lastmod:��面最后修�Ҏ��?

loc:��面�怹�链接地址

priority:相对于其他页面的优先�?

url:相对于前4个标�{��父标�{?

urlset:相对于前5个标�{��父标�{?

我将一句一句分解讲解这个xml文�g的每一个标�{�：

�q�一行定义了此xml文�g的命名空��_��相当于网��|��件中�?lt;html>标签一��L��作用�?
�q�是具体某一个链接的定义入口�Q�你所希望展示在SiteMap文�g中的每一个链接都要用�?lt;/url>包含在里面，�q�是必须的�?
�?lt;loc>描述出具体的链接地址�Q�这里需要注意的是链接地址中的一些特�D�字�W�必��{换�ؓXML(HTML)定义的�{义字�W�，如下表：
字符转义后的字符
HTML字符字符�~�码
and(�? & & &
单引�?/td> ' ' '
双引�?/td> " " "
大于�?/td> > > >
��于�?/td> < < <
是用来指定该链接的最后更新时��_��q�个很重要。Google的机器�h会在索引此链接前先和上次索引记录的最后更新时间进行比较，如果旉��一样就会蟩�q�不再烦引。所以如果你的链接内容基于上�ơGoogle索引时的内容有所改变�Q�应该更新该旉��Q�让Google下次索引时会重新对该链接内容�q�行分析和提取关键字。这里必��ȝ��ISO 8601中指定的旉��格式�q�行描述�Q�格式化的时间格式如下：
�q�_��YYYY(2005)
�q�和月：YYYY-MM(2005-06)
�q�月日：YYYY-MM-DD(2005-06-04)
�q�月日小时分钟：YYYY-MM-DDThh:mmTZD(2005-06-04T10:37+08:00)
�q�月日小时分钟秒�Q�YYYY-MM-DDThh:mmTZD(2005-06-04T10:37:30+08:00)
�q�里需注意的是TZD�Q�TZD指定��是本地旉��区域标记�Q�像中国��是+08:00�?
用这个标�{�֑�诉Google此链接可能会出现的更新频率，比如首页肯定��p��用always(�l�常)�Q�而对于很久前的链接或者不再更新内容的链接��可以用yearly(每年)。这里可以用来描�q�的单词��p��几个�Q?always", "hourly", "daily", "weekly", "monthly", "yearly"�Q�具体含义我��׃��用解释了吧，光看单词的意思就明白了�?
是用来指定此链接相对于其他链接的优先权比��|��此值定�?.0 - 1.0之间
�q�有�?lt;/urlset>�Q�这两个��是来关闭xml标签的，�q�和HTML中的�?lt;/html>是一个道�?
另外需要注意的�?/b>�Q�这个xml文�g必须是utf-8的编码格式，不管你是手动生成�q�是通过代码生成�Q�徏议最好检查一下xml文�g是否是utf-8�~�码�Q�最��单的�Ҏ��是用记事本打开xml然后另存为时选择�~�码(或�{换器)为UTF-8�?
from: http://www.cnblogs.com/shanyou/archive/2006/11/17/564152.aspx

weidagang2046 2006-12-30 17:36 发表评论

Anti-Crawler Script

weidagang2046 — Mon, 18 Dec 2006 13:42:00 GMT
     摘要: DescriptionAn ASP script which can be adapted to keep specific crawlers (robots/spiders) out of your ASP-based website, or you can apply the rules to single a page. The latest version of the script al...  阅读全文

weidagang2046 2006-12-18 21:42 发表评论

weidagang2046 — Thu, 14 Dec 2006 05:05:00 GMT

作者：车东 Email: chedongATbigfoot.com/chedongATchedong.com

写于�Q?002/08 最后更斎ͼ� 11/29/2006 17:23:30
Feed Back >> (Read this before you ask question)
<�q�告>

版权声明�Q�可以�Q意�{载，转蝲时请务必以超链接形式标明文章原始出处和作者信息及本声�?br />http://www.chedong.com/tech/lucene.html

关键词：Lucene java full-text search engine Chinese word segment

内容摘要�Q?/p>
Lucene是一个基于Java的全文烦引工具包�?/p>

��Z��Java的全文烦引引擎Lucene��介：关于作者和Lucene的历�?/a>

全文��索的实现�Q�Luene全文索引和数据库索引的比�?/a>

中文切分词机制简介：��Z��词库和自动切分词��法的比�?/a>

具体的安装和使用��介：�pȝ��l�构介绍和演�C?/a>

Hacking Lucene�Q�简化的查询分析器，删除的实玎ͼ�定制的排序，应用接口的扩�?/a>

从Lucene我们�q�可以学��C��?/a>

��Z��Java的全文烦�?��索引擎——Lucene

Lucene不是一个完整的全文索引应用�Q�而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各�U�应用中实现针对应用的全文烦�?��索功能�?/p>
Lucene的作者：Lucene的�A献�?a >Doug Cutting是一位资深全文烦�?��索专�Ӟ��曄��是V-Twin搜烦引擎(Apple的Copland操作�pȝ��的成��׃��一)的主要开发者，后在Excite担�Q高��pȝ��架构设计师，目前从事于一些INTERNET底层架构的研�I�。他贡献出的Lucene的目标是为各�U�中��型应用�E�序加入全文��索功能�?/p>
Lucene的发展历�E�：早先发布在作者自��q��www.lucene.com�Q�后来发布在SourceForge�Q?001�q�年底成为APACHE基金会jakarta的一个子��目�Q?a >http://jakarta.apache.org/lucene/

已经有很多Java��目都��用了Lucene作�ؓ其后台的全文索引引擎�Q�比较著名的有：

J ive�Q�WEB论坛�pȝ��Q?

Eyebrows�Q�邮件列表HTML归档/��览/查询�pȝ��Q�本文的主要参考文档�?a >TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows�pȝ��的主要开发者之一�Q�而EyeBrows已经成�ؓ目前APACHE��目的主要邮件列表归档系�l��?

Cocoon:��Z��XML的web发布框架�Q�全文检索部分��用了Lucene

Eclipse:��Z��Java的开攑ּ�发��^収ͼ�帮助部分的全文烦引��用了Lucene

对于中文用户来说�Q�最兛_��的问题是其是否支持中文的全文��索。但通过后面对于Lucene的结构的介绍�Q�你会了解到�׃��Lucene良好架构设计�Q�对中文的支持只需对其语言词法分析接口�q�行扩展��p��实现对中文检索的支持�?/p>
全文��索的实现机制

Lucene的API接口设计的比较通用�Q�输入输出结构都很像数据库的�?=>记录==>字段�Q�所以很多传�l�的应用的文件、数据库�{�都可以比较方便的映��到Lucene的存储结�?接口中。��M��上看�Q�可以先�?b>Lucene当成一个支持全文烦引的数据库系�l?/b>�?/p>
比较一下Lucene和数据库�Q?/p>

Lucene 数据�?/td>

索引数据源：doc(field1,field2...) doc(field1,field2...)
\ indexer /
_____________
| Lucene Index|
--------------
/ searcher \
�l�果输出�Q�Hits(doc(field1,field2) doc(field1...))

索引数据源：record(field1,field2...) record(field1..)
\ SQL: insert/
_____________
| DB Index |
-------------
/ SQL: select \
�l�果输出�Q�results(record(field1,field2..) record(field1...))

Document�Q�一个需要进行烦引的“单元�?br />一个Document由多个字�D늻��?/td> Record�Q�记录，包含多个字段

Field�Q�字�D?/td> Field�Q�字�D?/td>

Hits�Q�查询结果集�Q�由匚w��的Document�l�成 RecordSet�Q�查询结果集�Q�由多个Record�l�成

全文��?�?like "%keyword%"

通常比较厚的书籍后面常常附关键词索引表（比如�Q�北京：12, 34��，上�v�Q?,77��……）�Q�它能够帮助读者比较快地找到相兛_��容的��늠�。而数据库索引能够大大提高查询的速度原理也是一��P��惛_��一下通过书后面的索引查找的速度要比一��一��地��d��定w��多少倍……而烦引之所以效率高�Q�另外一个原因是它是排好序的�?b>对于��索系�l�来说核心是一个排序问�?/b>�?/p>
�׃��数据库烦引不是�ؓ全文索引设计的，因此�Q?b>使用like "%keyword%"�Ӟ��数据库烦引是不�v作用�?/b>�Q�在使用like查询�Ӟ��搜烦�q�程又变成类��g��一��页��M��的遍历过�E�了�Q�所以对于含有模�p�查询的数据库服务来��_��LIKE�Ҏ��能的危��x��极大的。如果是需要对多个关键词进行模�p�匹配：like"%keyword1%" and like "%keyword2%" ...其效率也��可惌��知了�?/p>
所以徏立一个高效检索系�l�的关键是徏立一个类��g��U�技索引一��L��反向索引机制�Q�将数据源（比如多篇文章�Q�排序顺序存储的同时�Q�有另外一个排好序的关键词列表�Q�用于存储关键词==>文章映射关系�Q�利用这��L��映射关系索引�Q�[关键�?=>出现关键词的文章�~�号�Q�出现次敎ͼ�甚至包括位置�Q��v始偏�U�量�Q�结束偏�U�量�Q�，出现频率]�Q�检索过�E�就是把模糊查询变成多个可以利用索引的精��查询的逻辑�l�合的过�E?/b>。从而大大提高了多关键词查询的效率，所以，全文��索问题归�l�到最后是一个排序问题�?/p>
由此可以看出模糊查询相对数据库的�_��查询是一个非�怸��定的问题，�q�也是大部分数据库对全文��索支持有限的原因。Lucene最核心的特征是通过�Ҏ��的烦引结构实��C��传统数据库不擅长的全文烦引机�Ӟ��q�提供了扩展接口�Q�以方便针对不同应用的定制�?/p>
可以通过一下表格对比一下数据库的模�p�查询：

　 Lucene全文索引引擎数据�?/td>

索引 ��数据源中的数据都通过全文索引一一建立反向索引对于LIKE查询来说�Q�数据传�l�的索引是根本用不上的。数据需要逐个便利记录�q�行GREP式的模糊匚w��Q�比有烦引的搜烦速度要有多个数量�U�的下降�?/td>

匚w��效果通过词元(term)�q�行匚w��Q�通过语言分析接口的实玎ͼ�可以实现对中文等非英语的支持�?/td> 使用�Q�like "%net%" 会把netherlands也匹配出来，
多个关键词的模糊匚w��Q��用like "%com%net%"�Q�就不能匚w��词序颠倒的xxx.net..xxx.com

匚w��?/td> 有匹配度��法�Q�将匚w��E�度�Q�相似度�Q�比较高的结果排在前面�?/td> 没有匚w��E�度的控�Ӟ��比如有记录中net出现5词和出现1�ơ的�Q�结果是一��L��?/td>

�l�果输出通过特别的算法，��最匚w��度最高的�?00条结果输出，�l�果集是�~�冲式的��批量读取的�?/td> �q�回所有的�l�果集，在匹配条目非常多的时候（比如上万条）需要大量的内存存放�q�些临时�l�果集�?/td>

可定制�?/td> 通过不同的语�a�分析接口实现�Q�可以方便的定制出符合应用需要的索引规则�Q�包括对中文的支持）没有接口或接口复杂，无法定制

�l�论高负载的模糊查询应用�Q�需要负责的模糊查询的规则，索引的资料量比较�?/td> 使用率低�Q�模�p�匹配规则简单或者需要模�p�查询的资料量少

全文��索和数据库应用最大的不同在于�Q�让最相关�?/span> �?00条结果满��?8%以上用户的需�?br />
Lucene的创��C��处：

大部分的搜烦�Q�数据库�Q�引擎都是用B树结构来�l�护索引�Q�烦引的更新会导致大量的IO操作�Q�Lucene在实��C��Q�对此稍微有所改进�Q�不是维护一个烦引文�Ӟ��而是在扩展烦引的时候不断创建新的烦引文�Ӟ��然后定期的把�q�些新的��烦引文件合�q�到原先的大索引中（针对不同的更新策略，�Ҏ��的大��可以调��_��Q�这样在不媄响检索的效率的前提下�Q�提高了索引的效率�?/p>
Lucene和其他一些全文检索系�l?应用的比较：

　 Lucene 其他开源全文检索系�l?/td>

增量索引和批量烦�?/td> 可以�q�行增量的烦�?Append)�Q�可以对于大量数据进行批量烦引，�q�且接口设计用于优化扚w��索引和小扚w��的增量烦引�?/td> 很多�pȝ��只支持批量的索引�Q�有时数据源有一点增加也需要重建烦引�?/td>

数据�?/td> Lucene没有定义具体的数据源�Q�而是一个文档的�l�构�Q�因此可以非常灵�zȝ��适应各种应用�Q�只要前端有合适的转换器把数据源�{换成相应�l�构�Q�，很多�pȝ��只针对网��，�~�Z��其他格式文档的灵�z�L��?/td>

索引内容抓取 Lucene的文档是由多个字�D늻�成的�Q�甚臛_��以控刉��些字�D�需要进行烦引，那些字段不需要烦引，�q�一步烦引的字段也分为需要分词和不需要分词的�c�d��Q?br />   需要进行分词的索引�Q�比如：标题�Q�文章内容字�D?br />   不需要进行分词的索引�Q�比如：作�?日期字段 �~�Z��通用性，往往��文档整个烦引了

语言分析通过语言分析器的不同扩展实现�Q?br />可以�q��o掉不需要的词：an the of �{�，
西文语法分析�Q�将jumps jumped jumper都归�l�成jump�q�行索引/��?br />非英文支持：对亚�z�语�a��Q�阿拉伯语言的烦引支�?/td> �~�Z��通用接口实现

查询分析通过查询分析接口的实玎ͼ�可以定制自己的查询语法规则：
比如�Q?多个关键词之间的 + - and or关系�{?/td> 　

�q�发讉K�� 能够支持多用��L��使用　

　

关于亚洲语言的的切分词问�?Word Segment)

对于中文来说�Q�全文烦引首先还要解决一个语�a�分析的问题，对于英文来说�Q�语句中单词之间是天焉��过�I�格分开的，但亚�z�语�a�的中日韩文语句中的字是一个字挨一个，所有，首先要把语句中按“词”进行烦引的话，�q�个词如何切分出来就是一个很大的问题�?/p>
首先�Q�肯定不能用单个字符�?si-gram)为烦引单元，否则查“上��”时�Q�不能让含有“�v上”也匚w��?/p>
但一句话�Q�“北京天安门”，计算机如何按照中文的语言习惯�q�行切分呢？
“北�?天安门�?�q�是“北 �?天安门”？让计��机能够按照语言习惯�q�行切分�Q�往往需要机器有一个比较丰富的词库才能够比较准��的识别��句中的单词�?/p>
另外一个解决的办法是采用自动切分算法：��单词按�?元语�?bigram)方式切分出来�Q�比如：
"北京天安�? ==> "北京京天天安安门"�?/p>
�q�样�Q�在查询的时候，无论是查�?北京" �q�是查询"天安�?�Q�将查询词组按同��L��规则�q�行切分�Q?北京"�Q?天安安门"�Q�多个关键词之间按与"and"的关�pȝ��合，同样能够正确地映��到相应的烦引中。这�U�方式对于其他亚�z�语�a��Q�韩文，日文都是通用的�?/p>
��Z��自动切分的最大优�Ҏ��没有词表�l�护成本�Q�实现简单，�~�点是烦引效率低�Q�但对于中小型应用来��_��Z��2元语法的切分�q�是够用的。基�?元切分后的烦引一般大��和源文件差不多�Q�而对于英文，索引文�g一般只有原文�g�?0%-40%不同�Q?/p>

自动切分词表切分

实现实现非常��?/td> 实现复杂

查询增加了查询分析的复杂�E�度�Q?/td> 适于实现比较复杂的查询语法规�?/td>

存储效率索引冗余大，索引几乎和原文一样大索引效率高，为原文大��的30�Q�左�?/td>

�l�护成本无词表维护成�?/td> 词表�l�护成本非常高：中日韩等语言需要分别维护�?br />�q�需要包括词频统计等内容

适用领域嵌入式系�l�：�q�行环境资源有限
分布式系�l�：无词表同步问�?br />多语�a�环境�Q�无词表�l�护成本 �Ҏ��询和存储效率要求高的专业搜烦引擎

目前比较大的搜烦引擎的语�a�分析��法一般是��Z��以上2个机制的�l�合。关于中文的语言分析��法�Q�大家可以在Google查关键词"wordsegment search"能找到更多相关的资料�?/p>
安装和��?/b>

下蝲�Q?a >http://jakarta.apache.org/lucene/

注意�Q�Lucene中的一些比较复杂的词法分析是用JavaCC生成的（JavaCC�Q�JavaCompilerCompiler�Q�纯Java的词法分析生成器�Q�，所以如果从源代码编译或需要修改其中的QueryParser、定制自��q��词法分析器，�q�需要从https://javacc.dev.java.net/下蝲javacc�?/p>
lucene的组成结构：对于外部应用来说索引模块(index)和检索模�?search)是主要的外部应用入口

org.apache.Lucene.search/ 搜烦入口

org.apache.Lucene.index/ 索引入口

org.apache.Lucene.analysis/ 语言分析�?/td>

org.apache.Lucene.queryParser/ 查询分析�?/td>

org.apache.Lucene.document/ 存储�l�构

org.apache.Lucene.store/ 底层IO/存储�l�构

org.apache.Lucene.util/ 一些公用的数据�l�构

��单的例子演示一下Lucene的��用方法：
索引�q�程�Q�从命��o行读取文件名�Q�多个）�Q�将文�g分�\�?path字段)和内�?body字段)2个字�D�进行存储，�q�对内容�q�行全文索引�Q�烦引的单位是Document对象�Q�每个Document对象包含多个字段Field对象�Q�针对不同的字段属性和数据输出的需求，对字�D�还可以选择不同的烦�?存储字段规则�Q�列表如下：
�Ҏ�� 切词索引存储用�?/th>
Field.Text(String name, String value) Yes Yes Yes 切分词烦引�ƈ存储�Q�比如：标题�Q�内容字�D?/td>
Field.Text(String name, Reader value) Yes Yes No 切分词烦引不存储�Q�比如：META信息�Q?br />不用于返回显�C�，但需要进行检索内�?/td>
Field.Keyword(String name, String value) No Yes Yes 不切分烦引�ƈ存储�Q�比如：日期字段
Field.UnIndexed(String name, String value) No No Yes 不烦引，只存储，比如�Q�文件�\�?/td>
Field.UnStored(String name, String value) Yes Yes No 只全文烦引，不存�?/td>
public class IndexFiles {
//使用�Ҏ��Q? IndexFiles [索引输出目录] [索引的文件列表] ...
public static void main(String[] args) throws Exception {
String indexPath = args[0];
IndexWriter writer;
//用指定的语言分析器构造一个新的写索引器（�W?个参数表�C�是否�ؓ�q�加索引�Q?br /> writer = new IndexWriter(indexPath, new SimpleAnalyzer(), false);

for (int i=1; i System.out.println("Indexing file " + args[i]);
InputStream is = new FileInputStream(args[i]);

//构造包�?个字�D�Field的Document对象
//一个是路径path字段�Q�不索引�Q�只存储
//一个是内容body字段�Q�进行全文烦引，�q�存�?br /> Document doc = new Document();
doc.add(Field.UnIndexed("path", args[i]));
doc.add(Field.Text("body", (Reader) new InputStreamReader(is)));
//��文档写入烦�?br /> writer.addDocument(doc);
is.close();
};
//关闭写烦引器
writer.close();
}
}
　
索引�q�程中可以看刎ͼ�
语言分析器提供了抽象的接口，因此语言分析(Analyser)是可以定制的�Q�虽然lucene�~�省提供�?个比较通用的分析器SimpleAnalyser和StandardAnalyser�Q�这2个分析器�~�省都不支持中文�Q�所以要加入对中文语�a�的切分规则，需要修改这2个分析器�?
Lucene�q�没有规定数据源的格式，而只提供了一个通用的结构（Document对象�Q�来接受索引的输入，因此输入的数据源可以是：数据库，WORD文档�Q�PDF文档�Q�HTML文档……只要能够设计相应的解析转换器将数据源构造成成Docuement对象卛_��q�行索引�?
对于大批量的数据索引�Q�还可以通过调整IndexerWrite的文件合�q��率属性（mergeFactor�Q�来提高扚w��索引的效率�?
��索过�E�和�l�果昄��Q?/p>
搜烦�l�果�q�回的是Hits对象�Q�可以通过它再讉K��Document==>Field中的内容�?/p>
假设�Ҏ��body字段�q�行全文��索，可以��查询结果的path字段和相应查询的匚w��?score)打印出来�Q?/p>
public class Search {
public static void main(String[] args) throws Exception {
String indexPath = args[0], queryString = args[1];
//指向索引目录的搜索器
Searcher searcher = new IndexSearcher(indexPath);
//查询解析器：使用和烦引同��L��语言分析�?br /> Query query = QueryParser.parse(queryString, "body",
new SimpleAnalyzer());
//搜烦�l�果使用Hits存储
Hits hits = searcher.search(query);
//通过hits可以讉K��到相应字�D늚�数据和查询的匚w��?br /> for (int i=0; i System.out.println(hits.doc(i).get("path") + "; Score: " +
hits.score(i));
};
}
}
在整个检索过�E�中�Q�语�a�分析器，查询分析器，甚至搜烦器（Searcher�Q�都是提供了抽象的接口，可以�Ҏ��需要进行定制�?
Hacking Lucene
��化的查询分析�?/b>
个�h感觉lucene成�ؓJAKARTA��目后，��d��了太多的旉��用于调试日趋复杂QueryParser�Q�而其中大部分是大多数用户�q�不很熟悉的�Q�目前LUCENE支持的语法：
Query ::= ( Clause )*
Clause ::= ["+", "-"] [ ":"] ( | "(" Query ")")
中间的逻辑包括�Q�and or + - &&||�{�符��P��而且�q�有"短语查询"和针对西文的前缀/模糊查询�{�，个�h感觉对于一般应用来��_��q�些功能有一些华而不实，其实能够实现目前�c�M��于Google的查询语句分析功能其实对于大多数用户来说已经够了。所以，Lucene早期版本的QueryParser仍是比较好的选择�?/p>
��d��修改删除指定记录�Q�Document�Q?/b>
Lucene提供了烦引的扩展机制�Q�因此烦引的动态扩展应该是没有问题的，而指定记录的修改也似乎只能通过记录的删除，然后重新加入实现。如何删除指定的记录呢？删除的方法也很简单，只是需要在索引时根据数据源中的记录ID专门另徏索引�Q�然后利用IndexReader.delete(Termterm)�Ҏ��通过�q�个记录ID删除相应的Document�?/p>
�Ҏ��某个字段值的排序功能
lucene�~�省是按照自��q��相关度算法（score�Q�进行结果排序的�Q�但能够�Ҏ��其他字段�q�行�l�果排序是一个在LUCENE的开发邮件列表中�l�常提到的问题，很多原先��Z��数据库应用都需要除了基于匹配度�Q�score�Q�以外的排序功能。而从全文��索的原理我们可以了解刎ͼ��M��不基于烦引的搜烦�q�程效率都会��D��效率非常的低�Q�如果基于其他字�D늚�排序需要在搜烦�q�程中访问存储字�D�，速度回大大降低，因此非常是不可取的�?/p>
但这里也有一个折中的解决�Ҏ��Q�在搜烦�q�程中能够媄响排序结果的只有索引中已�l�存储的docID和score�q?个参敎ͼ�所以，��Z��score以外的排序，其实可以通过��数据源预先排好序，然后�Ҏ��docID�q�行排序来实现。这样就避免了在LUCENE搜烦�l�果外对�l�果再次�q�行排序和在搜烦�q�程中访问不在烦引中的某个字�D�倹{�?/p>
�q�里需要修改的是IndexSearcher中的HitCollector�q�程�Q?/p>
...
　scorer.score(new HitCollector() {
private float minScore = 0.0f;
public final void collect(int doc, float score) {
if (score > 0.0f && // ignore zeroed buckets
(bits==null || bits.get(doc))) { // skip docs not in bits
totalHits[0]++;
if (score >= minScore) {
/* 原先�Q�Lucene��docID和相应的匚w��度score例入�l�果命中列表中：
* hq.put(new ScoreDoc(doc, score)); // update hit queue
* 如果用doc �?1/doc 代替 score�Q�就实现了根据docID��排或逆排
* 假设数据源烦引时已经按照某个字段排好了序�Q�而结果根据docID排序也就实现�?br /> * 针对某个字段的排序，甚至可以实现更复杂的score和docID的拟合�?br /> */
hq.put(new ScoreDoc(doc, (float) 1/doc ));
if (hq.size() > nDocs) { // if hit queue overfull
hq.pop(); // remove lowest in hit queue
minScore = ((ScoreDoc)hq.top()).score; // reset minScore
}
}
}
}
}, reader.maxDoc());
更通用的输入输出接�?/b>
虽然lucene没有定义一个确定的输入文档格式�Q�但��来��多的�h惛_��使用一个标准的中间格式作�ؓLucene的数据导入接口，然后其他数据�Q�比如PDF只需要通过解析器�{换成标准的中间格式就可以�q�行数据索引了。这个中间格式主要以XML��Z��Q�类似实现已�l�不�?�Q?个：
数据�? WORD PDF HTML DB other
\ | | | /
XML中间格式
|
Lucene INDEX
目前�q�没有针对MSWord文档的解析器�Q�因为Word文档和基于ASCII的RTF文档不同�Q�需要��用COM对象机制解析。这个是我在Google上查的相兌��料：http://www.intrinsyc.com/products/enterprise_applications.asp
另外一个办法就是把Word文档转换成text�Q?a >http://www.winfield.demon.nl/index.html

索引�q�程优化
索引一般分2�U�情况，一�U�是��批量的索引扩展�Q�一�U�是大批量的索引重徏。在索引�q�程中，�q�不是每�ơ新的DOC加入�q�去索引都重新进行一�ơ烦引文件的写入操作�Q�文件I/O是一仉��常消耗资源的事情�Q��?/p>
Lucene先在内存中进行烦引操作，�q�根据一定的扚w��q�行文�g的写入。这个批�ơ的间隔��大�Q�文件的写入�ơ数��少�Q�但占用内存会很多。反之占用内存少�Q�但文�gIO操作频繁�Q�烦引速度会很慢。在IndexWriter中有一个MERGE_FACTOR参数可以帮助你在构造烦引器后根据应用环境的情况充分利用内存减少文�g的操作。根据我的��用经验：�~�省Indexer是每20条记录烦引后写入一�ơ，每将MERGE_FACTOR增加50倍，索引速度可以提高1倍左叟�?br />
搜烦�q�程优化
lucene支持内存索引�Q�这��L��搜烦比基于文件的I/O有数量��的速度提升�?br />http://www.onjava.com/lpt/a/3273
而尽可能减少IndexSearcher的创建和�Ҏ��索结果的前台的缓存也是必要的�?br />
Lucene面向全文��索的优化在于首次索引��索后�Q��ƈ不把所有的记录�Q�Document�Q�具体内容读取出来，而�v只将所有结果中匚w��度最高的�?00条结果（TopDocs�Q�的ID攑ֈ��l�果集缓存中�q�返回，�q�里可以比较一下数据库��索：如果是一�?0,000条的数据库检索结果集�Q�数据库是一定要把所有记录内定w��取得以后再开始返回给应用�l�果集的。所以即使检索匹配��L��很多�Q�Lucene的结果集占用的内存空间也不会很多。对于一般的模糊��索应用是用不到这么多的结果的�Q�头100条已�l�可以满��?0%以上的检索需求�?br />
如果首批�~�存�l�果数用完后�q�要��d��更后面的�l�果时Searcher会再�ơ检索�ƈ生成一个上�ơ的搜烦�~�存数大1倍的�~�存�Q��ƈ再重新向后抓取。所以如果构造一个Searcher��L��1�Q?20条结果，Searcher其实是进行了2�ơ搜索过�E�：�?00条取完后�Q�缓存结果用完，Searcher重新��索再构造一�?00条的�l�果�~�存�Q�依此类推，400条缓存，800条缓存。由于每�ơSearcher对象消失后，�q�些�~�存也访问那不到了，你有可能惛_��l�果记录�~�存下来�Q�缓存数��量保证�?00以下以充分利用首�ơ的�l�果�~�存�Q�不让Lucene��费多次��索，而且可以分��q�行�l�果�~�存�?br />
Lucene的另外一个特�Ҏ��在收集结果的�q�程中将匚w��度低的结果自动过滤掉了。这也是和数据库应用需要将搜烦的结果全部返回不同之处�?/p>
我的一些尝�?/a>�Q?/p>
支持中文的Tokenizer�Q�这里有2个版本，一个是通过JavaCC生成的，对CJK部分按一个字�W�一个TOKEN索引�Q�另外一个是从SimpleTokenizer改写的，对英文支持数字和字母TOKEN�Q�对中文按�P代烦引�?
��Z��XML数据源的索引器：XMLIndexer�Q�因此所有数据源只要能够按照DTD转换成指定的XML�Q�就可以用XMLIndxer�q�行索引了�?
�Ҏ��某个字段排序�Q�按记录索引��序排序�l�果的搜索器�Q�IndexOrderSearcher�Q�因此如果需要让搜烦�l�果�Ҏ��某个字段排序�Q�可以让数据源先按某个字�D�|��好序�Q�比如：PriceField�Q�，�q�样索引后，然后在利用这个按记录的ID��序��索的搜烦器，�l�果��是相当于是那个字段排序的结果了�?
从Lucene学到更多
Luene的确是一个面对对象设计的典范
所有的问题都通过一个额外抽象层来方便以后的扩展和重用：你可以通过重新实现来达到自��q��目的�Q�而对其他模块而不需要；
��单的应用入口Searcher, Indexer�Q��ƈ调用底层一�p�d��l��g协同的完成搜索�Q务；
所有的对象的�Q务都非常专一�Q�比如搜索过�E�：QueryParser分析��查询语句�{换成一�p�d��的精��查询的�l�合(Query),通过底层的烦引读取结构IndexReader�q�行索引的读取，�q�用相应的打分器�l�搜索结果进行打�?排序�{�。所有的功能模块原子化程度非帔R��Q�因此可以通过重新实现而不需要修改其他模块。�?
除了灉|��的应用接口设计，Lucene�q�提供了一些适合大多数应用的语言分析器实玎ͼ�SimpleAnalyser,StandardAnalyser�Q�，�q�也是新用户能够很快上手的重要原因之一�?
�q�些优点都是非常值得在以后的开发中学习借鉴的。作��Z��个通用工具包，Lunece的确�l�予了需要将全文��索功能嵌入到应用中的开发者很多的便利�?/p>
此外�Q�通过对Lucene的学习和使用�Q�我也更深刻地理解了��Z��么很多数据库优化设计中要求，比如�Q?/p>
��可能对字段�q�行索引来提高查询速度�Q�但�q�多的烦引会�Ҏ��据库表的更新操作变慢�Q�而对�l�果�q�多的排序条�Ӟ��实际上往往也是性能的杀手之一�?
很多商业数据库对大批量的数据插入操作会提供一些优化参敎ͼ��q�个作用和烦引器的merge_factor的作用是�c�M��的，
20%/80%原则�Q�查的结果多�q�不�{�于质量好，��其对于�q�回�l�果集很大，如何优化�q�头几十条结果的质量往往才是最重要的�?
��可能让应用从数据库中获得比较小的结果集�Q�因为即使对于大型数据库�Q�对�l�果集的随机讉K��也是一个非常消耗资源的操作�?br />
参考资料：
Apache: Lucene Project
http://jakarta.apache.org/lucene/
Lucene开�?用户邮�g列表归档
Lucene-dev@jakarta.apache.org
Lucene-user@jakarta.apache.org
The Lucene search engine: Powerful, flexible, and free
http://www.javaworld.com/javaworld/jw-09-2000/jw-0915-Lucene_p.html
Lucene Tutorial
http://www.darksleep.com/puff/lucene/lucene.html
Notes on distributed searching with Lucene
http://home.clara.net/markharwood/lucene/
中文语言的切分词
http://www.google.com/search?sourceid=navclient&hl=zh-CN&q=chinese+word+segment
搜烦引擎工具介绍
http://searchtools.com/
Lucene作者Cutting的几��论文和专利
http://lucene.sourceforge.net/publications.html
Lucene�?NET实现�Q�dotLucene
http://sourceforge.net/projects/dotlucene/
Lucene作者Cutting的另外一个项目：��Z��Java的搜索引擎Nutch
http://www.nutch.org/ http://sourceforge.net/projects/nutch/
关于��Z��词表和N-Gram的切分词比较
http://china.nikkeibp.co.jp/cgi-bin/china/news/int/int200302100112.html

2005-01-08 Cutting在Pisa大学做的关于Lucene的讲座：非常详细的Lucene架构解说
特别感谢�Q?br />前网易CTO许良�?Jack Xu)�l�我的指��|��是您��我带入了搜索引擎这个行业�?/p>原文出处�Q?lt;a>http://www.chedong.com/tech/lucene.html

from:

weidagang2046 2006-12-14 13:05 发表评论

Similarity Flooding

weidagang2046 — Fri, 17 Nov 2006 10:25:00 GMT

��法大致思�\�Q?br />        把要匚w��的模型�{换�ؓ带标记的有向图（directed labeled graphs。由节点和弧�l�成的图�Q�允许对象用自��n的属性及其和其他对象的关�p�L��定义�Q�类��g��ER图）。这些图要用来做�q�代的不动点计算�Q�计��结果将告诉我们一张图里的哪些节点和第二张囄��节点�怼��?br />        ��Z��计算�怼�度，我们利用了这样一个直觉：两个不同的节�Ҏ��怼�的，当它们邻接元素是�怼�的。换句话��_��两个元素�怼�性的一部分传播�l�了它们各自的邻居，�q�种传播方式�c�M��于IP�q�播�Q�这也是SF�q�个名字的由来。我们把��法的结果叫做一个 mapping�Q�然后根据匹配目标，选择特定的过滤器来过滤出一个原始结果的子集。我们希望能够�h工对�l�果�q�行修正�Q�需要修正的成员数目��反映了��法的准��性�?br />
概述�Q?br />
        假设�?个schema�Q�S1和S2。我们要为S1里每一个元素在S2中找到匹配的元素�?br />      �q�程如下�Q?br />      1. G1 = SQL2Graph(S1); G2 = SQL2Graph(S2); 把schema变成图，��N��用了Open Information Model (OIM)规格�Q�图中node采用矩�Ş和卵形，矩�Ş是文字描�q�ͼ�卵�Ş是标识符

      2. initialMap = StringMatch(G1, G2);      用字�W�串匚w��做�ؓ初始匚w��Q�主要是比较通常的前�~�和后�~��Q�这��L��l�果通常是不准确�?br />
      3. product = SFJoin(G1, G2, initialMap);      用SF��法生成�l�果�?font color="#0000ff">假设两个不同的节�Ҏ��怼�的，则它们邻接元素的�怼�度增加。经�q�一�p�d��的�P代，�q�种�怼�度会传遍整个�?br />
      4. result = SelectThreshold(product);   �l�果�{��?br />

SF��法

      图中的每条边�Q�用一个三元组表示�Q�s�Q�p�Q�o�Q�，分别�?源点�Q�边名，目的炏V�?br />

      �怼�度传播图�Q�首先定义pairwise connectivity graph(PCG) �Q?((x; y); p; (x'; y')) 属于 PCG(A;B)<==>(x; p; x') �?A and (y; p; y') �?B�?关键是p要相同，也就是边的名字一栗��?/font>式子从右向左推导�Q�就可以A、B从两个模型徏立�v它们的PCG�?/font>图中的每个节点，都是A和B中的元素构成�?元组�Q�叫做map pairs�?br />      induced propagation graph。从PCG推导而来�Q�加上了反向的边�Q�边上注明了[传播�p�L��]�Q��gؓ 1/n�Q�n为相应的边的数目�?br />      不动点计��：
            设�?x; y) > 0 代表了节点x �?A �?y �?B 的相似度�Q�是在整个 A X B的范围上定义的。我们把 �Q 叫做 mapping。相似度的计��就是基于�?values的�P代计��。设 �Qⁱ 代表了第 i �ơ�P代后的结果，�Q⁰ 是初始相似度�Q�可以用字符串相似度的办法的得出�Q�在我们的例子里�Q�没�?�Q⁰ �Q�即�?�Q⁰ =1�Q��?br />            每次�q�代中，�Q-values 都会�Ҏ��光��居paris�?�Q-values 乘以[传播�p�L��] 来增加。例如，在第一�ơ�P�?�Q¹(a1; b1) = �Q⁰(a1; b1) + �Q⁰(a; b) * 0.5 = 1.5。类似的�Q��?sup>1(a, b) = �Q⁰(a, b) + �Q⁰(a1; b1) * 1.0 + �Q⁰(a2, b1) *1.0 = 3.0。接下来�Q�所�?�Q ��D��行正规化�Q�比如除以当前�P代的 �Q的最大��|��保证所�?�Q 都不大于1。所以在正规化以后，�Q¹(a; b) = 1.0, �Q¹(a1, b1) = 1.5/3.0 = 0.5。一般情况下�Q��P代如下进行：

      上面的计��进行�P代，直到 �Qⁿ�?�Q^n-1之间的差别小于一个阈��|��如果计算没有聚合�Q�我们就在�P代超�q�一定次数后停止。上�?的第三副图，��是5�ơ�P代后的结果。表3时一些计��方法，后面的实验表明，C比较好。A叫做 sparce�Q�B叫做 excepted�Q�C叫做verbose

�q��o

      �q�代出的�l�果是一�U�[多匹配]�Q�可能包含有用的匚w��子集�?br />      三个步骤�Q?br />            1。用�E�序定义的[限制条�g]�q�行�q��o�?br />            2。用双向图中的匹配上下文技术进行过�?br />            3。比较各�U�技术的有效性（满��用户需求的能力�Q?br />      限制�Q�主要有两种�Q�一个是[�c�d��]限制�Q�比如只考虑[列]的匹配（匚w��双方都是列）。第二个�?cardinality 限制�Q�即模式S1中的所有元素都要在S2中有一个映��?br />
stable marriage问题�Q�n奛_��n男配对，不存在这��L��两对 (x; y)�?x0; y0)�Q�其中x喜欢 y0 胜过 y�Q�而且 y0 喜欢 x 胜过 x0。具有stable marriage的匹配结果的total satisfaction可能会比不具有stable marriage的匹配结果还低！

匚w��质量的评�?br />
   基本的评估思想�Q�就是�?用户对匹配结果做的修改越��，匚w��质量��p��高（修改�l�果包括��L��错误的pair�Q�加上正��的pair�Q?br /> n是找到的匚w��敎ͼ�m是理想的匚w��敎ͼ�c是用户作��Z��正的数目�?br />
from: http://www.cnblogs.com/anf/archive/2006/08/15/477700.html

weidagang2046 2006-11-17 18:25 发表评论

用Java实现HTTP文�g队列下蝲

weidagang2046 — Fri, 17 Nov 2006 02:26:00 GMT
序言

　　许多用户可能会遇到这��L��情况�Q�在�|�站上发��C��个很好的资源�Q�但是这个资源是分成了很多个文�g存放的，如果��x��它保存到本地�Q�只有靠用户点击另存来完成保存，如果资源分了几百甚至上千上万�Q�那��直是个灾难�?

　　在Internet上很多的资源分成多个文�g存放�Ӟ��它的文�g命名是有一定的规则的；正因如此�Q�我们就可以用程序来完成�q�个资源的完全下载�?br />
　　1. 基础知识

　　在Internet上，我们要下载网站上的某个资源，我们会获得一个URL�Q�Uniform Resource Locator�Q�，它是一个服务器资源定位的描�q�ͼ�下蝲的过�E��L��如下步骤:

　　步骤1:客户端发赯��接请求一个URL

　　步骤2:服务器解析URL�Q��ƈ��指定的资源�q�回一个输入流�l�客�?

　　步骤3:客户端接收输入流�Q�将��中的内容存到文�?

　　2. �|�络�q�接的徏�?/strong>

　　Java提供了对URL讉K��和大量的��操作的的API�Q�我们可以很�Ҏ��的完成对�|�络上资源的存取,下面的代码段��完成了对一个网站的资源�q�行讉K��:

...... destUrl="http://www.ebook.com/java/�|�络�~�程001.zip"; url = new URL(destUrl); httpUrl = (HttpURLConnection) url.openConnection(); //�q�接指定的网�l�资�?br />httpUrl.connect(); //获取�|�络输入��?br />bis = new BufferedInputStream(httpUrl.getInputStream()); ......
　　3. 代理的访�?/strong>

　　Java 中通过代理服务器访问外�|�的�Ҏ��已经是世人皆知的�U�密了。这里就不再多描�q�C��Q�访问的JAVA代码如下:

//讄��代理服务�?br />System.getProperties().put("proxySet", "true"); System.getProperties().put("proxyHost", "10.154.134.110"); System.getProperties().put("proxyPort", "8080");
　　4. �|�络资源的保�?/strong>

　　在上节中�Q�我们已�l�获取了指定�|�络资源的输入流�Q�接下来我们要完成的��是��d��输入��中的所以内容，�q�将其保存在文�g中。示例代�?

...... fos = new FileOutputStream(fileName); if (this.DEBUG) System.out.println("正在获取链接[" + destUrl + "]的内�?..\n��其保存为文件[" + fileName +"]"); //保存文�g while ( (size = bis.read(buf)) != -1) fos.write(buf, 0, size); ......
　　上面的示例代码就��网�l�资源的内容保存��C��本地指定的文件中�?br />
　　5. 代码清单

import java.io.*; import java.net.*; import java.util.*; /** * �Q�p�Q�Title: 个�h开发的API�Q?p�Q?br />* �Q�p�Q�Description: ��指定的HTTP�|�络资源在本��C��文�g形式存放�Q?p�Q?br />* �Q�p�Q�Copyright: Copyright (c) 2004�Q?p�Q?br />* �Q�p�Q�Company: NewSky�Q?p�Q?br />* @author MagicLiao * @version 1.0 */ public class HttpGet { 　 public final static boolean DEBUG = true;//调试�?br />　 private static int BUFFER_SIZE = 8096;//�~�冲区大��?br />　 private Vector vDownLoad = new Vector();//URL列表　 private Vector vFileList = new Vector();//下蝲后的保存文�g名列�?br /> 　 /** 　 * 构造方�?br />　 */ 　 public HttpGet() {} 　 /** 　 * 清除下蝲列表　 */ 　 public void resetList() { 　　 vDownLoad.clear(); 　　 vFileList.clear(); 　 } 　 /** 　 * 增加下蝲列表��?br />　 * 　 * @param url String 　 * @param filename String 　 */ public void addItem(String url, String filename) { 　 vDownLoad.add(url); 　 vFileList.add(filename); } 　 /** 　 * �Ҏ��列表下蝲资源　 */ public void downLoadByList() { 　 String url = null; 　 String filename = null; 　 //按列表顺序保存资�?br />　 for (int i = 0; i �Q?vDownLoad.size(); i++) { 　　 url = (String) vDownLoad.get(i); 　　 filename = (String) vFileList.get(i); 　　 try { 　　　 saveToFile(url, filename); 　　 } 　　 catch (IOException err) { 　　　 if (DEBUG) { 　　　　 System.out.println("资源[" + url + "]下蝲��p�|!!!"); 　　　 } 　　 } 　 } 　 if (DEBUG) { 　　 System.out.println("下蝲完成!!!"); 　 } } /** * ��HTTP资源另存为文�?br />* * @param destUrl String * @param fileName String * @throws Exception */ public void saveToFile(String destUrl, String fileName) throws IOException { 　 FileOutputStream fos = null; 　 BufferedInputStream bis = null; 　 HttpURLConnection httpUrl = null; 　 URL url = null; 　 byte[] buf = new byte[BUFFER_SIZE]; 　 int size = 0; 　 //建立链接　 url = new URL(destUrl); 　 httpUrl = (HttpURLConnection) url.openConnection(); 　 //�q�接指定的资�?br />　 httpUrl.connect(); 　 //获取�|�络输入��?br />　 bis = new BufferedInputStream(httpUrl.getInputStream()); 　 //建立文�g 　 fos = new FileOutputStream(fileName); 　 if (this.DEBUG) 　　 System.out.println("正在获取链接[" + destUrl + "]的内�?..\n��其保存为文件[" + fileName + "]"); 　 //保存文�g 　 while ( (size = bis.read(buf)) != -1) 　　 fos.write(buf, 0, size); 　 fos.close(); 　 bis.close(); 　 httpUrl.disconnect(); } /** * 讄��代理服务�?br />* * @param proxy String * @param proxyPort String */ public void setProxyServer(String proxy, String proxyPort) { 　 //讄��代理服务�? 　 System.getProperties().put("proxySet", "true"); 　 System.getProperties().put("proxyHost", proxy); 　 System.getProperties().put("proxyPort", proxyPort); } /** * 讄��认证用户名与密码 * * @param uid String * @param pwd String */ public void setAuthenticator(String uid, String pwd) { Authenticator.setDefault(new MyAuthenticator(uid, pwd)); } /** * ��L��?用于��试) * * @param argv String[] */ public static void main(String argv[]) { 　 HttpGet oInstance = new HttpGet(); 　 try { 　　 //增加下蝲列表�Q�此处用户可以写入自�׃��码来增加下蝲列表�Q?br />　　 oInstance.addItem("http://www.ebook.com/java/�|�络�~�程001.zip","./�|�络�~�程1.zip"); 　　 oInstance.addItem("http://www.ebook.com/java/�|�络�~�程002.zip","./�|�络�~�程2.zip"); 　　 oInstance.addItem("http://www.ebook.com/java/�|�络�~�程003.zip","./�|�络�~�程3.zip"); 　　 oInstance.addItem("http://www.ebook.com/java/�|�络�~�程004.zip","./�|�络�~�程4.zip"); 　　 oInstance.addItem("http://www.ebook.com/java/�|�络�~�程005.zip","./�|�络�~�程5.zip"); 　　 oInstance.addItem("http://www.ebook.com/java/�|�络�~�程006.zip","./�|�络�~�程6.zip"); 　　 oInstance.addItem("http://www.ebook.com/java/�|�络�~�程007.zip","./�|�络�~�程7.zip"); 　　 //开始下�?br />　　 oInstance.downLoadByList(); 　 } 　 catch (Exception err) { 　　 System.out.println(err.getMessage()); 　 } } } from: http://www.1-100.org/other/11548.htm

weidagang2046 2006-11-17 10:26 发表评论

��Z��Linux的搜索引擎实�?

weidagang2046 — Fri, 17 Nov 2006 01:35:00 GMT
   搜烦引擎是�ؓ用户提供快速获取网��信息的工具�Q�其主要的功能是�pȝ��通过用户输入关键字，��索后端网��|��据库�Q�将相关�|�页的链接和摘要信息反馈�l�用戗��从搜烦的范围上一般分为站内网��|��索和全局�|�页搜烦。随着�|�页数量的急剧增加�Q�搜索引擎已�l�成��Z��|�查询信息的必须手段�Q�各个大型网站均已经提供�|�页数据搜烦服务�Q��ƈ且出��C��许多为大型网站提供专业搜索引擎服务的公司�Q�如为Yahoo提供搜烦服务的Google�Q��ؓ新浪�|�和263�{�国内网站提供服务的癑ֺ�公司�{�。专业的搜烦服务费用高而免费的搜烦引擎软�g基本都是��Z��英文的检索，所以都不太适合Intranet环境�Q�如校园�|�等�Q�的需要。�?br />搜烦引擎的基本组成一般分为网��|��集程序、网��后端数据组�l�存储、网��|��据检索三部分。决定搜索引擎好坏的关键因素是数据查询的响应旉��Q�即如何�l�织好满��_��文检索需要的大量�|�页数据。�?br />GNU/Linux作�ؓ一个优�U�的网�l�操作系�l�，其发行版本中集成了大量的�|�络应用软�g�Q�如 Web服务器（Apache �Q?PHP�Q�、目录服务器�Q�OpenLDAP�Q�、脚本语�a��Q�Perl�Q�、网��|��集程序（Wget�Q�等。所以，通过��它们集中进行应用，便可以实��C��个简单、高效的搜烦引擎服务器。�?br />一、基本组成和使用�Ҏ��
1、网��|��据收集�?br />Wget�E�序是一个优�U�的网��|��集程序，它采用多�U�程设计能够方便地将�|�站内容镜像到本地目录中�Q��ƈ且能够灵�z�d��制收集网��늚��c�d��、递归攉��层次、目录限额、收集时间等。通过专用的收集程序完成网��늚�攉��工作�Q�既降低了设计的隑ֺ�又提高了�pȝ��的性能。�ؓ了减��本地数据的规模�Q�可只收集能够查询的html文�g、txt文�g、脚本程序asp和php只��用缺省的�l�果�Q�而不攉��如图形文件或是其他的数据文�g。�?br />2、网��|��据过滤�?br />�׃��html文�g中存在大量的标记�Q�如�{�，�q�些标记数据没有实际的搜索�h��|��所以加入数据库前必��d��攉��的数据进行过滤。Perl作�ؓ�q�泛使用的脚本语�a��Q�拥有非常强大而丰富的�E�序库，可以方便地完成网��늚��q��o。通过使用HTML-Parser库可以方便地提取出网��中包含的文字数据、标题数据、链接数据等。该�E�序库可以在www.cpan.net中下载，�q�且该网站收集的Perl�E�序涉及范围之广�Q�远�q�超出我们的现象。�?br />3、目录服务�?br />目录服务是针对大量数据检索需要开发的服务�Q�最早出现在X.500协议集中�Q�后来扩展到TCP/IP中发展成为LDAP�Q�Lightweight Directory Acess Protocol�Q�协议，其相关的标准�?995�q�制定的RFC1777�?997�q�制定的RFC2251�{�。LDAP协议已经作�ؓ工业标准被Sun、Lotus、微软等公司�q�泛应用到其相关产品中，但是专用的基于Windows�q�_��的目录服务器却较��见�Q�OpenLDAP是免费的�q�行于Unix�pȝ��的目录服务器�Q�其产品的性能优秀�Q�已�l�被许多的Linux发行版本攉��Q�Redhat、Mandrake�{�）�Q��ƈ且提供了包括C、Perl、PHP�{�的开发接口。�?br />使用目录服务技术代替普通的关系数据库作为网��|��据的后端存取�q�_��主要��Z��目录服务的技术优�ѝ��目录服务简化了数据处理�c�d��Q�去掉了通用关系数据库的�Ҏ��的事务机�Ӟ��而是采用全局替换的策略对数据�q�行更新�Q�其应用的重�Ҏ��大量数据的检索服务（一般数据更新和��索的频率比例要求�?:10以上�Q�，��索速度和全文查询，提供完整的数据备份，非常适合搜烦引擎之类服务的需要。从目录服务技术解决问题的重点不难看出其在数据��索上的优势，它的提出旉��q�远落后于关�p�L��据库的提出时��_��实际上反映了�Ҏ��具体问题优化数据解决�Ҏ��的原则。这与目前广泛存在的凡是涉及大量数据处理必选SQL Server的处理方法�Ş成鲜明对比。�?br />通过选用成熟的目录服务技术提高网��|��询的效率�Q�能够简�z�有效地提高数据处理能力。这也充分显�C�Z��GNU/Linux�pȝ��q�行开放��Y件的优势�Q�毕竟不能方便地获得�q�行于其他��^台的目录服务器。�?br />4、查询程序设计�?br />搜烦引擎的前端界面是�|�页�Q�用户通过在特定的�|�页中输入关键字提交�l�Web服务器进行处理。运行在Apache Web服务器上的PHP脚本通过�q�行其相关ldap函数便可以执行关键字的查询工作。主要进行的工作是根据关键字构造查询、向目录服务器提交查询、显�C�查询结果等。Linux + Apache + PHP作�ؓ�q�泛使用Web服务器，与WinNT + IIS + ASP相比其性能毫不逊色�Q�在目前的Linux发行版本中都集成了Apache + PHP 以及�~�省的ldap、pgsql、imap�{�模块。�?br />5、计划�Q务�?br />搜烦引擎的网��|��据收集、数据过滤、加入目录数据库�{�工作都应该是自动完成的�Q�在UNIX�pȝ��中有cron�q�程来专门完成按照特定时间调度�Q务，��Z��不媄响系�l�的�q�行�Q�一般可以把�q�些工作安排到深夜进行。�?br />二、具体步骤和注意事项
1、配�|�Wget软�g
在RedHat 6.2发行版中已经集成了该软�g包，可以直接�q�行安装。将需要镜像的站点地址�~�辑��Z��个文件中�Q�通过 -I 参数��d��该文�Ӟ��为镜像的站点指定一个本��C��载目录；��Z��避免内部�|�中链接的重复引用，一般只镜像该站点内的数据；�q�可以根据网站的具体情况�Q�指定其镜像的深度。�?br />2、配�|�Openldap服务
在RedHat 6.2发行版中已经集成了Openldap-1.2.9�Q�其配置文�g存放�?etc/openldap的目录中。主要的配置文�g是slapd.conf�Q�关键要打开�Ҏ��索速度臛_��重要的index选项�Q�可以��用setup工具�Q�将ldap在系�l�引导后作�ؓ�~�省服务启动。�?br />Ldap服务可以通过文本文�g方式存放数据�Q�即LDIF文�g格式。��用此方式可以高效地更新目录服务数据，需要注意LDIF格式是通过�I��Ҏ��据进行分隔的�Q��ƈ且通过�q�行ldif2lbm��LDIF格式数据导入目录数据库中旉��要暂停目录服务。�?br />3、编制数据过滤和LDIF文�g生成脚本
��Z��方便地过滤网��|��据，可以调用Perl的HTML-Parser库函敎ͼ�该程序包下蝲后需要进行编译，在eg目录下生成了相关的htext�Q�htitle�E�序�Q�在Perl中可以通过调用外部�E�序的方式运行该�E�序�Q��ƈ对其�q��o�l�果通过重定向的�Ҏ��生成临时文�g。本搜烦引擎设计的目录数据属性有dn 、link、title、modifydate、contents�Q�其中的dn通过Link�q�行唯一性标识，��过滤后的网��|��本内定w��过/usr/sbin/ldif�E�序�q�行自动�~�码后放入LDIF文�g中。�?br />基本的LDIF文�g格式如下�Q��?br />dn: dc=27jd,dc=zzb
objectclass: top
objectclass: organization
�?br />dn: link= http://freemail.27jd.zzh/index.html, dc=27jd ,dc=zzb
link: http://freemail.27jd.zzh/index.html
title: Webmail主页
modifydate: 2001�q?�?日�?br />contents::
CgpXZWJtYWls1vfSswoKCgoKIKHvoaG7ttOtyrnTw1dlYm1haWzPtc2zoaGh7yDO0t
KqyerH69PKz+QhISFPdXRsb29rxeTWw6O6U01UUDogZnJlZW1haWwuMjdqZC56emJQ
T1AzOiBmcm
VlbWFpbC4yN2pkLnp6YkROUyA6IDExLjk5LjY0Ljiy4srU08O7p6O6bWFpbGd1ZXN00
8O7p7/awe
6jum1haWxndWVzdNLR16Ky4dPDu6cg08O7p8P7OkAgZnJlZW1haWwuMjdqZC56emK/
2sHuOqChoa
AgIKHyzOG5qbf+zvEgofKzo7z7zsrM4iCh8s2o0bbCvKHyICCh8sq1z9bUrcDtIKHywfTR1
LK+of
IgofK8vMr1sr/W99Kzsb7Ptc2z08nK1NHpvLzK9bK/zfjC59bQ0MS9qMGius3OrLukCgoK
CqAKCg
o=
objectclass:webpage
�?br />基本的slapd.conf文�g如下�Q��?br />defaultaccess read
include /etc/openldap/slapd.at.conf
#include /etc/openldap/slapd.oc.conf
schemacheck off
sizelimit 20000
pidfile /var/run/slapd.pid
argsfile /var/run/slapd.args
#######################################################################
# ldbm database definitions
#######################################################################
database ldbm
dbcachesize 1000000
index contents,title
suffix "dc=27jd, dc=zzb"
directory /usr/tmp
rootdn "cn=root,dc=27jd, dc=zzb"
rootpw secret
�?br />通过对一�?万个�|�页�Q�约300M左右�Q�的本地html文�g目录�q�行�q��o后生成的LDIF文�g�U?80M左右�Q�如果只取文字数据的�?00个字�W�作为网��内容，则生成文件约35M左右。�?br />4、配�|�PHP+LDAP服务
在Redhat6.2中已�l�集成了PHP3和php-ldap模块�Q�选择完全安装时便已经安装�?usr/lib/apache目录中，注意��?etc/httpd/php3.ini中的动态扩展（Dynamic Extensions�Q�中的extension=ldap.so是否被选择。PHP3中提供了丰富的LDAP存取函数�Q�能够方便完成对目录数据的搜索功能。有关Apach + PHP�~�程斚w��的资料较多，在此不在赘述。注意在PHP3中的LDAP搜烦函数ldap_search不能处理其返回结果超�q�目录服务设定的最大检索数据，所以可以根据具体情况，在slapd的配�|�文件中讑֮�较大的检索数据限�?sizelimit)�Q�此问题在PHP4中已�l�解冟뀂�?br />5、�Q务调度�?br />在Redhat6.2中已�l�集成了crond�q�且�~�省安装后便已经启动。其相关配置文�g�?etc/crontab�?etc/cron.daily�?etc/cron.hourly�?etc/weekly�?etc/monthly�Q�你只需要根据数据的更新频度�Q�将�|�页攉��、网��过滤、生成LDIF文�g、停止目录服务、更新目录数据、重新启动目录服务，作�ؓ一个简单的Shell�E�序攑օ�到相应的目录中即可。�?br />三、效果与思考�?br />以上��单的介绍了我们的搜烦引擎的实现方法和注意事项�Q�这仅仅是我们在对GNU/Linux了解得非常肤��的情况下设计的以目录服务�ؓ核心的满��_��部网需要的搜烦引擎�pȝ��Q��ƈ不能代表GNU/Linux和它集成的大量��Y件的真正实力。�?br />通过在一台安装RedHat Linux 6.2 的Sparc Ultra 250上实际测试，�Ҏ��?万个�|�页的目录数据进行搜索时�Q�基于上�q�方法设计的搜烦引擎响应速度一般在3�U�左叻I��目录数据完全更新大约需�?��时左右�Q�能够满��_��部网的需要。实际上�Q�限制搜索响应速度的关键是PHP3的ldap_search函数没有提供数据限制的功能，��D��在查询结果集�q�大时系�l�响应速度变慢�Q�因为每�ơ用戯��够浏览的查询�l�果实际是非常少的，而服务器端每�ơ的查询��L��q�回全部�l�果�Q�在PHP4中的ldap_search通过指定sizelimit参数�Q�能够有效解册��问题。�?br />目录服务的应用范围非常广泛，实际上作为大型的信息站点��Z��提高客户讉K��效率�Q�都或多或少采用了目录服务的技术。目录服务根据具体的应用需求的优化设计�Ҏ��Q�对我们军_��应用�pȝ��的开发无疑是一个启发，应该说在��Z��索引信息的领域LDAP服务�q�远优于传统的关�p�L��据库�pȝ��。�?br />��Z��GNU/Linux�q�行�|�络服务器程序设计，能够充分体会到开放源代码的魅力和实力�Q�它既能够简化系�l�的设计�Q�又大大地提高了工作效率�Q�同时也有效降低了系�l�的成本。程序设计由一切从零开始的复杂�J�琐的重复劳动，��化�ؓ问题抽象、功能分解、查找资源、组合系�l�四个部分，更加��对系�l�的认识、开阔的视野和学习的能力�Q�同时开放源代码也�ؓ�pȝ��q�一步优化提供了坚实的基��。�?br />

weidagang2046 2006-11-17 09:35 发表评论

字符		转义后的字符
字符		HTML字符	字符�~�码
and(�?	&	&	&
单引�?/td>	'	'	'
双引�?/td>	"	"	"
大于�?/td>	>	>	>
��于�?/td>	<	<	<

Lucene	数据�?/td>
索引数据源：doc(field1,field2...) doc(field1,field2...) \ indexer / _____________ \| Lucene Index\| -------------- / searcher \ �l�果输出�Q�Hits(doc(field1,field2) doc(field1...))	索引数据源：record(field1,field2...) record(field1..) \ SQL: insert/ _____________ \| DB Index \| ------------- / SQL: select \ �l�果输出�Q�results(record(field1,field2..) record(field1...))
Document�Q�一个需要进行烦引的“单元�?br />一个Document由多个字�D늻��?/td>	Record�Q�记录，包含多个字段
Field�Q�字�D?/td>	Field�Q�字�D?/td>
Hits�Q�查询结果集�Q�由匚w��的Document�l�成	RecordSet�Q�查询结果集�Q�由多个Record�l�成

	Lucene全文索引引擎	数据�?/td>
索引	��数据源中的数据都通过全文索引一一建立反向索引	对于LIKE查询来说�Q�数据传�l�的索引是根本用不上的。数据需要逐个便利记录�q�行GREP式的模糊匚w��Q�比有烦引的搜烦速度要有多个数量�U�的下降�?/td>
匚w��效果	通过词元(term)�q�行匚w��Q�通过语言分析接口的实玎ͼ�可以实现对中文等非英语的支持�?/td>	使用�Q�like "%net%" 会把netherlands也匹配出来，多个关键词的模糊匚w��Q��用like "%com%net%"�Q�就不能匚w��词序颠倒的xxx.net..xxx.com
匚w��?/td>	有匹配度��法�Q�将匚w��E�度�Q�相似度�Q�比较高的结果排在前面�?/td>	没有匚w��E�度的控�Ӟ��比如有记录中net出现5词和出现1�ơ的�Q�结果是一��L��?/td>
�l�果输出	通过特别的算法，��最匚w��度最高的�?00条结果输出，�l�果集是�~�冲式的��批量读取的�?/td>	�q�回所有的�l�果集，在匹配条目非常多的时候（比如上万条）需要大量的内存存放�q�些临时�l�果集�?/td>
可定制�?/td>	通过不同的语�a�分析接口实现�Q�可以方便的定制出符合应用需要的索引规则�Q�包括对中文的支持）	没有接口或接口复杂，无法定制
�l�论	高负载的模糊查询应用�Q�需要负责的模糊查询的规则，索引的资料量比较�?/td>	使用率低�Q�模�p�匹配规则简单或者需要模�p�查询的资料量少

	Lucene	其他开源全文检索系�l?/td>
增量索引和批量烦�?/td>	可以�q�行增量的烦�?Append)�Q�可以对于大量数据进行批量烦引，�q�且接口设计用于优化扚w��索引和小扚w��的增量烦引�?/td>	很多�pȝ��只支持批量的索引�Q�有时数据源有一点增加也需要重建烦引�?/td>
数据�?/td>	Lucene没有定义具体的数据源�Q�而是一个文档的�l�构�Q�因此可以非常灵�zȝ��适应各种应用�Q�只要前端有合适的转换器把数据源�{换成相应�l�构�Q�，	很多�pȝ��只针对网��，�~�Z��其他格式文档的灵�z�L��?/td>
索引内容抓取	Lucene的文档是由多个字�D늻�成的�Q�甚臛_��以控刉��些字�D�需要进行烦引，那些字段不需要烦引，�q�一步烦引的字段也分为需要分词和不需要分词的�c�d��Q?br /> 需要进行分词的索引�Q�比如：标题�Q�文章内容字�D?br /> 不需要进行分词的索引�Q�比如：作�?日期字段	�~�Z��通用性，往往��文档整个烦引了
语言分析	通过语言分析器的不同扩展实现�Q?br />可以�q��o掉不需要的词：an the of �{�，西文语法分析�Q�将jumps jumped jumper都归�l�成jump�q�行索引/��?br />非英文支持：对亚�z�语�a��Q�阿拉伯语言的烦引支�?/td>	�~�Z��通用接口实现
查询分析	通过查询分析接口的实玎ͼ�可以定制自己的查询语法规则：比如�Q?多个关键词之间的 + - and or关系�{?/td>
�q�发讉K��	能够支持多用��L��使用

	自动切分	词表切分
实现	实现非常��?/td>	实现复杂
查询	增加了查询分析的复杂�E�度�Q?/td>	适于实现比较复杂的查询语法规�?/td>
存储效率	索引冗余大，索引几乎和原文一样大	索引效率高，为原文大��的30�Q�左�?/td>
�l�护成本	无词表维护成�?/td>	词表�l�护成本非常高：中日韩等语言需要分别维护�?br />�q�需要包括词频统计等内容
适用领域	嵌入式系�l�：�q�行环境资源有限分布式系�l�：无词表同步问�?br />多语�a�环境�Q�无词表�l�护成本	�Ҏ��询和存储效率要求高的专业搜烦引擎

org.apache.Lucene.search/	搜烦入口
org.apache.Lucene.index/	索引入口
org.apache.Lucene.analysis/	语言分析�?/td>
org.apache.Lucene.queryParser/	查询分析�?/td>
org.apache.Lucene.document/	存储�l�构
org.apache.Lucene.store/	底层IO/存储�l�构
org.apache.Lucene.util/	一些公用的数据�l�构

�Ҏ��	切词	索引	存储	用�?/th>
Field.Text(String name, String value)	Yes	Yes	Yes	切分词烦引�ƈ存储�Q�比如：标题�Q�内容字�D?/td>
Field.Text(String name, Reader value)	Yes	Yes	No	切分词烦引不存储�Q�比如：META信息�Q?br />不用于返回显�C�，但需要进行检索内�?/td>
Field.Keyword(String name, String value)	No	Yes	Yes	不切分烦引�ƈ存储�Q�比如：日期字段
Field.UnIndexed(String name, String value)	No	No	Yes	不烦引，只存储，比如�Q�文件�\�?/td>
Field.UnStored(String name, String value)	Yes	Yes	No	只全文烦引，不存�?/td>