懂色一区二区三区免费观看,欧美日韩精品一区二区三区在线观看 ,91精品国产一区二区三区动漫

��菜毛毛 — Thu, 24 Sep 2009 04:58:00 GMT

前几天看到卢亮的 Larbin 一�U�高效的搜烦引擎爬虫工具一文提�?Nutch�Q�很是感兴趣�Q�但一直没有时间进行测试研�I�。趁着假期�Q�先��试一下看看。用搜烦引擎查找了一下，发现中文技术社区对 Larbin 的关注要�q�远大于 Nutch 。只有一�q�多前何东在他的竹笋炒肉中对 Nutch �q�行了一�?a >介绍�?/p>

Nutch vs Lucene
Lucene 不是完整的应用程序，而是一个用于实现全文检索的软�g库�?br /> Nutch 是一个应用程序，可以�?Lucene 为基��实现搜烦引擎应用�?/p>

Nutch vs GRUB
GRUB 是一个分布式搜烦引擎(参�?/a>)。用户只能得到客��L��工具(只有客户端是开源的)�Q�其目的在于利用用户的资源徏立集中式的搜索引擎�?br /> Nutch 是开源的�Q�可以徏立自己内部网的搜索引擎，也可以针�Ҏ��个网�l�徏立搜索引擎。自�?Free)而免�?Free)�?/p>

Nutch vs Larbin
"Larbin只是一个爬虫，也就是说larbin只抓取网��，至于如何parse的事情则��q��戯��己完成。另外，如何存储到数据库以及建立索引的事�?larbin也不提供。��E引自 �q�里�Q?br /> Nutch 则还可以存储到数据库�q�徏立烦引�?br />
�Q�d��?a >�q�里�Q?

Nutch 的早期版本不支持中文搜烦�Q�而最新的版本(2004-Aug-04 发布�?0.5)已经做了很大的改�q�。相对先前的 0.4 版本�Q�有 20 多项的改�q�，�l�构上也更具备扩展性�?.5 版经�q�测试，对中文搜索支持的也很好�?/p>

下面是我的测试过�E��?/p>

前提条�g(�q�里Linux ��Z��Q�如果是 Windows 参见手册)�Q?/p>

Java 1.4.x 。因为我的系�l�上安装的Oracle 10g 已经�?Java 了。设定环境变量：NUTCH_JAVA_HOME �?
```
[root@fc3 ~]# export NUTCH_JAVA_HOME=/u01/app/oracle/product/10.1.0/db_1/jdk/jre
    
```
Tomcat 4.x 。从�q�里下蝲�?
��_��的磁盘空间。我预留�?4G 的空间�?

首先下蝲最新的�E�_��版：

[root@fc3 ~]# wget http://www.nutch.org/release/nutch-0.5.tar.gz

解压�~?

[root@fc3 ~]# tar -zxvf nutch-0.5.tar.gz
......
[root@fc3 ~]# mv nutch-0.5 nutch

��试一�?nutch 命��o�Q?/p>

[root@fc3 nutch]# bin/nutch
Usage: nutch COMMAND
where COMMAND is one of:
crawl             one-step crawler for intranets
admin             database administration, including creation
inject            inject new urls into the database
generate          generate new segments to fetch
fetchlist         print the fetchlist of a segment
fetch             fetch a segment's pages
dump              dump a segment's pages
index             run the indexer on a segment's fetcher output
merge             merge several segment indexes
dedup             remove duplicates from a set of segment indexes
updatedb          update database from a segment's fetcher output
mergesegs         merge multiple segments into a single segment
readdb            examine arbitrary fields of the database
analyze           adjust database link-analysis scoring
server            run a search server
or
CLASSNAME         run the class named CLASSNAME
Most commands print help when invoked w/o parameters.
[root@fc3 nutch]#

Nutch 的爬虫有两种方式

爬行企业内部�|?Intranet crawling)。针对少数网站进行。用 crawl 命��o�?
爬行整个互联�|��?使用低层�?inject, generate, fetch �?updatedb 命��o。具有更强的可控制性�?

以本�?http://www.dbanotes.net)��Z��Q�先�q�行一下针对企业内部网的测试�?/p> �?nutch 目录中创��Z��个包含该�|�站��|�址的文�?urls �Q�包含如下内容：

http://www.dbanotes.net/

然后�~�辑conf/crawl-urlfilter.txt 文�g�Q�设定过滤信息，我这里只修改了MY.DOMAIN.NAME:

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*dbanotes.net/

�q�行如下命��o开始抓取分析网站内容：

[root@fc3 nutch]# bin/nutch crawl urls -dir crawl.demo -depth 2 -threads 4 >& crawl.log

depth 参数指爬行的深度�Q�这里处于测试的目的�Q�选择深度�?2 �Q?br /> threads 参数指定�q�发的进�E?�q�是讑֮��?4 �Q?/p>

在该命��o�q�行的过�E�中�Q�可以从 crawl.log 中查�?nutch 的行��Z��及过�E?

......
050102 200336 loading file:/u01/nutch/conf/nutch-site.xml
050102 200336 crawl started in: crawl.demo
050102 200336 rootUrlFile = urls
050102 200336 threads = 4
050102 200336 depth = 2
050102 200336 Created webdb at crawl.demo/db
......
050102 200336 loading file:/u01/nutch/conf/nutch-site.xml
050102 200336 crawl started in: crawl.demo
050102 200336 rootUrlFile = urls
050102 200336 threads = 4
050102 200336 depth = 2
050102 200336 Created webdb at crawl.demo/db
050102 200336 Starting URL processing
050102 200336 Using URL filter: net.nutch.net.RegexURLFilter
......
050102 200337 Plugins: looking in: /u01/nutch/plugins
050102 200337 parsing: /u01/nutch/plugins/parse-html/plugin.xml
050102 200337 parsing: /u01/nutch/plugins/parse-pdf/plugin.xml
050102 200337 parsing: /u01/nutch/plugins/parse-ext/plugin.xml
050102 200337 parsing: /u01/nutch/plugins/parse-msword/plugin.xml
050102 200337 parsing: /u01/nutch/plugins/query-site/plugin.xml
050102 200337 parsing: /u01/nutch/plugins/protocol-http/plugin.xml
050102 200337 parsing: /u01/nutch/plugins/creativecommons/plugin.xml
050102 200337 parsing: /u01/nutch/plugins/language-identifier/plugin.xml
050102 200337 parsing: /u01/nutch/plugins/query-basic/plugin.xml
050102 200337 logging at INFO
050102 200337 fetching http://www.dbanotes.net/
050102 200337 http.proxy.host = null
050102 200337 http.proxy.port = 8080
050102 200337 http.timeout = 10000
050102 200337 http.content.limit = 65536
050102 200337 http.agent = NutchCVS/0.05 (Nutch; http://www.nutch.org/docs/en/bot.html; n
utch-agent@lists.sourceforge.net)
050102 200337 fetcher.server.delay = 1000
050102 200337 http.max.delays = 100
050102 200338 http://www.dbanotes.net/: setting encoding to GB18030
050102 200338 CC: found http://creativecommons.org/licenses/by-nc-sa/2.0/ in rdf of http:
//www.dbanotes.net/
050102 200338 CC: found text in http://www.dbanotes.net/
050102 200338 status: 1 pages, 0 errors, 12445 bytes, 1067 ms
050102 200338 status: 0.9372071 pages/s, 91.12142 kb/s, 12445.0 bytes/page
050102 200339 Updating crawl.demo/db
050102 200339 Updating for crawl.demo/segments/20050102200336
050102 200339 Finishing update
64,1           7%
050102 200337 parsing: /u01/nutch/plugins/query-basic/plugin.xml
050102 200337 logging at INFO
050102 200337 fetching http://www.dbanotes.net/
050102 200337 http.proxy.host = null
050102 200337 http.proxy.port = 8080
050102 200337 http.timeout = 10000
050102 200337 http.content.limit = 65536
050102 200337 http.agent = NutchCVS/0.05 (Nutch; http://www.nutch.org/docs/en/bot.html;
nutch-agent@lists.sourceforge.net)
050102 200337 fetcher.server.delay = 1000
050102 200337 http.max.delays = 100
......

之后配置 Tomcat (我的 tomcat 安装�?/opt/Tomcat) �Q?

[root@fc3 nutch]# rm -rf /opt/Tomcat/webapps/ROOT*
[root@fc3 nutch]# cp nutch*.war /opt/Tomcat/webapps/ROOT.war
[root@fc3 webapps]# cd /opt/Tomcat/webapps/
[root@fc3 webapps]# jar xvf ROOT.war
[root@fc3 webapps]# ../bin/catalina.sh start

��览器中输入 http://localhost:8080 查看�l�果(�q�程查看需要将 localhost 换成相应的IP)�Q?/p>

搜烦��试�Q?/p>

可以看到�Q�Nutch 亦提供快照功能。下面进行中文搜索测�?

注意�l�果中的那个“评分详解”�Q�是个很有意思的功能(Nutch ��h��一个链接分析模�?�Q�通过�q�些数据可以�q�一步理解该��法�?/p>

考虑到带宽的限制�Q�暂时不�Ҏ��个Web爬行的方式进行了��试了。值得一提的是，在测试的�q�程中，nutch 的爬行速度�q�是不错�?相对我的�p�糕带宽)�?/p>

Nutch 目前�q�不支持 PDF(开发中�Q�不够完�? �?囄�� �{�对象的搜烦�?strong>中文分词技�?/strong>�q�不够好�Q�通过“评分详解”可看出，对中文，比如“数据库管理员”�Q�是分成单独的字�q�行处理的。但作�ؓ一个开源搜索引擎��Y�Ӟ��功能是可圈可点的。毕竟，主要开发�?Doug Cutting ��是开�?Lucene 的大�?/p>

参考信�?/p>

Nutch Wiki - http://www.nutch.org/cgi-bin/twiki/view/Main/Nutch
何东�?试用Nutch
车东�?Lucene�Q�基于Java的全文检索引擎简�?/a>

��菜毛毛 2009-09-24 12:58 发表评论

http://www.lucene.com.cn/ LUCENE.COM.CN 中国

��菜毛毛 — Thu, 24 Sep 2009 04:54:00 GMT

��菜毛毛 2009-09-24 12:54 发表评论

��菜毛毛 — Thu, 24 Sep 2009 04:53:00 GMT

惛_��一个搜索引擎，最�q�浏览了许多�C�֌��Q�发现Lucene和Nutch用的很多�Q�而这两个我��L��觉难以区分概念，于是在查了些资料。下面是Lucene和Nutch创始人Doug Cutting 的访谈摘录：

Lucene其实是一个提供全文文本搜索的函数库，它不是一个应用��Y件。它提供很多API函数让你可以�q�用到各�U�实际应用程序中。现在，它已�l�成为Apache的一个项目�ƈ被广泛应用着。这里列��Z��些已�l��用Lucene的系�l��?/p>

Nutch是一个徏立在Lucene核心之上的Web搜烦的实玎ͼ�它是一个真正的应用�E�序。也��是��_��你可以直接下载下来拿�q�来用。它在Lucene的基��上加了网�l�爬虫和一些和Web相关的东东。其目的��是想从一个简单的站内索引和搜索推�q�到全球�|�络的搜索上�Q�就像Google和Yahoo一栗��当�Ӟ��和那些巨人竞争，你得动一些脑�{�，想一些办法。我们已�l�测试过100M的网��，�q�且它的设计用在��过1B的网��上应该没有问题。当�Ӟ��让它�q�行在一台机器上�Q�搜索一些服务器�Q�也�q�行的很好�?/p>

�ȝ��来说�Q�我认�ؓLUCENE会应用在本地服务器的�|�站内部搜烦�Q�而Nutch则扩展到整个�|�络、Internet的检索。当然LUCENE加上爬虫�E�序�{�就会成为Nutch�Q�这��L��解应该没错吧

本文来自CSDN博客�Q��{载请标明出处�Q�http://blog.csdn.net/rokii/archive/2008/03/01/2137450.aspx

��菜毛毛 2009-09-24 12:53 发表评论

使用 Apache Lucene 搜烦文本

��菜毛毛 — Thu, 17 Sep 2009 11:45:00 GMT

摘要: ��L��为应用程序构建搜索和索引功能 ... 阅读全文

��菜毛毛 2009-09-17 19:45 发表评论

使用 Java 开源工具徏立一个灵�zȝ��搜烦引擎

��菜毛毛 — Fri, 28 Aug 2009 16:25:00 GMT

为应用程序添加搜索能力经常是一个常见的需求。本文介�l�了一个框�Ӟ��开发者可以��用它以最��的付出实现搜烦引擎功能�Q�理��x��况下只需要一个配�|�文件。该框架��Z��若干开源的库和工具�Q�如 Apache Lucene�Q�Spring 框架�Q�cpdetector �{�。它支持多种资源。其中两个典型的例子是数据库资源和文件系�l�资源。Indexer 寚w��|�的资源�q�行索引�q�传输到中央服务器，之后�q�些索引可以通过 API �q�行搜烦。Spring 风格的配�|�文件允许清晰灵�zȝ��自定义和调整。核�?API 也提供了可扩展的接口�?
引言

为应用程序添加搜索能力经常是一个常见的需求。尽��已�l�有若干�E�序库提供了�Ҏ��索基��设施的支持，然而对于很多�h而言�Q��用它们从头开始徏立一个搜索引擎将是一个付��Z��而且可能乏味的过�E�。另一斚w��Q�很多的��型应用对于搜烦功能的需求和应用场景��h��很大的相似性。本文试图以对多数小型应用的适用性�ؓ出发点，�?Java 语言构徏一个灵�zȝ��搜烦引擎框架。��用这个框�Ӟ��多数情�Ş下可以以最��的付出建立起一个搜索引擎。最理想的情况下�Q�甚臛_��需要一个配�|�文件。特�D�的情�Ş下，可以通过灉|��地对框架�q�行扩展满��需求。当�Ӟ��如题所�q�ͼ��q�都是借助开源工��L��力量�?

基础知识

Apache Lucene 是开发搜索类应用�E�序时最常用�?Java �c�d��Q�我们的框架也将��Z��它。�ؓ了下文更好的描述�Q�我们需要先了解一些有�?Lucene 和搜索的基础知识。注意，本文不关注烦引的文�g格式、分词技术等话题�?

什么是搜烦和烦�?/span>

从用��L��角度来看�Q�搜索的�q�程是通过关键字在某种资源中寻扄��定的内容的过�E�。而从计算机的角度来看�Q�实现这个过�E�可以有两种办法。一是对所有资源逐个与关键字匚w��Q�返回所有满��_��配的内容�Q�二是如同字�怸�样事先徏立一个对应表�Q�把关键字与资源的内容对应�v来，搜烦时直接查找这个表卛_��。显而易见，�W�二个办法效率要高得多。徏立这个对应表事实上就是徏立逆向索引�Q�inverted index�Q�的�q�程�?
Lucene 基本概念

Lucene �?Doug Cutting �?Java 开发的用于全文搜烦的工具库。在�q�里�Q�我假设读者对其已有基本的了解�Q�我们只对一些重要的概念��要介�l�。要深入了解可以参�?参考资�?中列出的相关文章和图书。下面这些是 Lucene 里比较重要的�c�R�?
Document�Q�烦引包含多�?Document。而每�?Document 则包含多�?Field 对象。Document 可以是从数据库表里取出的一堆数据，可以是一个文�Ӟ��也可以是一个网��늭�。注意，它不�{�同于文件系�l�中的文件�?
Field�Q�一�?Field 有一个名�U�ͼ�它对�?Document的一部分数据�Q�表�C�文��的内容或者文��的元数据（与下文中提到的资源元数据不是一个概念）。一�?Field 对象有两个重要属性：Store ( 可以�?YES, NO, COMPACT 三种取�?) �?Index ( 可以�?TOKENIZED, UN_TOKENIZED, NO, NO_NORMS 四种取�?)
Query�Q�抽象了搜烦时��用的语句�?
IndexSearcher�Q�提供Query对象�l�它�Q�它利用已有的烦引进行搜索�ƈ�q�回搜烦�l�果�?
Hits�Q�一个容器，包含了指向一部分搜烦�l�果的指针�?
使用 Lucene 来进行编制烦引的�q�程大致为：��输入的数据源统一为字�W�串或者文本流的�Ş式，然后从数据源提取数据�Q�创建合适的 Field ��d��到对应该数据源的 Document 对象之中�?

�pȝ��概览

要徏立一个通用的框�Ӟ��必须对不同情�늚�共性进行抽象。反映到设计需要注意两炏V��一是要提供扩展接口�Q�二是要��量降低模块之间的耦合�E�度。我们的框架很简单地分�ؓ两个模块�Q�烦引模块和搜烦模块。烦引模块在不同的机器上各自�q�行对资源的索引�Q��ƈ把烦引文�Ӟ��事实上，下面我们会说刎ͼ��q�有元数据）�l�一传输到同一个地方（可以是在�q�程服务器上�Q�也可以是在本地�Q�。搜索模块则利用�q�些从多个烦引模块收集到的数据完成用��L��搜烦��h��?/span>

�?1 展现了整体的框架。可以看刎ͼ�两个模块之间相对是独立的�Q�它们之间的兌��不是通过代码�Q�而是通过索引和元数据。在下文中，我们��会详细介绍如何��Z��开源工兯��计和实现�q�两个模块�?/span>

�?1. �pȝ��架构�?/span>

建立索引

可以�q�行索引的对象有很多�Q�如文�g、网��c��RSS Feed �{�。在我们的框架中�Q�我们定义可以进行烦引的一�c�d��象�ؓ资源。从实现�l�节上来��_��从一个资源中可以提取出多�?Document 对象。文件系�l�资源和数据库结果集资源都是资源的代表性例子�?/span>

前面提到�Q�从资源中收集到的烦引被�l�一传送到同一个地方，以被搜烦模块所用。显焉��了烦引之外，搜烦模块需要有对资源更多的了解�Q�如资源的名�U�、搜索该资源后搜索结果的呈现格式�{�。这些额外的附加信息�U�Cؓ资源的元数据。元数据和烦引数据一同被攉��h��Q�放�|�到某个特定的位�|��?/span>

��要地介绍�q�资源的概念之后�Q�我们首先�ؓ其定义一�?Resource 接口。这个接口的声明如下�?/span>

清单 1. Resource 接口
public interface Resource {
// RequestProcessor 对象被动��C��资源中提�?Document�Q��ƈ�q�回提取的数�?/span>
public int extractDocuments(ResourceProcessor processor);

// ��d��?DocumentListener ��在每一�?Document 对象被提取出时被调用
public void addDocumentListener(DocumentListener l);

// �q�回资源的元数据
public ResourceMetaData getMetaData();
}

其中元数据包含的字段见下表。在下文中，我们�q�会对元数据的用途做更多的介�l��?/span>

�?1. 资源元数据包含的字段
属�?�c�d�� 含义
resourceName String 资源的唯一名称
resourceDescription String 资源的介�l�性文�?
hitTextPattern String 当文��被搜烦到时�Q�这�?pattern 规定了结果显�C�的格式
searchableFields String[] 可以被搜索的字段名称

�?DocumentListener 的代码如下�?/span>

清单 2. DocumentListener 接口
public interface DocumentListener extends EventListener {
public void documentExtracted(Document doc);
}

��Z��让烦引模块能够知道所有需要被索引的资源，我们在这里��?Spring 风格�?XML 文�g配置索引模块中的所有组�Ӟ��其是所有资源。您可以�?下蝲部分查看一个示例配�|�文件�?/span>

��Z��么选择使用 Spring 风格的配�|�文�Ӟ��

�q�主要有两个好处�Q?

仅依赖于 Spring Core �?Spring Beans 便免��M��定义配置机制和解析配�|�文件的负担�Q?
Spring �?IoC 机制降低了框架的耦合性，�q��扩展框架变得��单；

��Z��以上内容�Q�我们可以大致描�q�出索引模块工作的过�E�：

首先�?XML 配置�?bean 中找出所�?Resource 对象�Q?
�Ҏ��一个调用其 extractDocuments() �Ҏ��Q�这一步除了完成对资源的烦引外�Q�还会在每次提取��Z��?Document 对象之后�Q�通知注册在该资源上的所�?DocumentListener�Q?
接着处理资源的元数据�Q�getMetaData() 的返回��|��Q?
��缓存里的数据写入到本地��盘或者传送给�q�程服务器；

在这个过�E�中�Q�有两个地方值得注意�?/span>

�W�一�Q�对资源可以注册 DocumentListener 使得我们可以在运行时��d��索引�q�程有更为动态的控制。�D一个简单例子，�Ҏ��个文章发布站点的文章�q�行索引�Ӟ��一个很正常的要求便是发布时间更靠近当前旉��的文章需要在搜烦�l�果中排在靠前的位置。每��文章显然对应一�?Document 对象�Q�在 Lucene 中我们可以通过讄�� Document �?boost 值来对其�q�行加权。假讑օ�中文章发布时间的 Field 的名�U�Cؓ PUB_TIME�Q�那么我们可以�ؓ资源注册一�?DocumentListener�Q�当它被通知�Ӟ��则检��?PUB_TIME 的��|��Ҏ��距离当前旉��的远�q�进行加权�?/span>

�W�二点很昄��Q�在�q�个�q�程中，extractDocuments() �Ҏ��的实��C��不同�c�d��的资源而各异。下面我们主要讨��Z��U�类型的资源�Q�文件系�l�资源和数据库结果集资源。这两个�c�都实现了上面的接口�?/span>

文�g�pȝ��资源

�Ҏ��件系�l�资源的索引通常从一个基目录开始，递归处理每个需要进行烦引的文�g。该资源有一个字�W�串数组�c�d��?excludedFiles 属性，表示在处理文件时需要排除的文�g�l�对路径的正则表辑ּ�。在递归遍历文�g�pȝ��树的同时�Q�绝对�\径匹�?excludedFiles 中�Q意一��的文�g��不会被处理。这主要是考虑��C��般我们只需要对一部分文�g夹（比如排除可能存在的备份目录）中的一部分文�g�Q�如 doc, ppt 文�g�{�）�q�行索引�?/span>

除了所有文件共有的文�g名、文件�\径、文件大��和修改旉��{?Field�Q�不同类型的文�g需要有不同的处理方法。�ؓ了保留灵�z�L��，我们使用 Strategy 模式��装对不同类型文件的处理方式。�ؓ此我们抽象出一�?DocumentBuilder 的接口，该接口仅定义了一个方法如下：

清单 3. DocumentBuilder 接口
public interface DocumentBuilder {
Document buildDocument(InputStream is);
}

什么是 Strategy 模式�Q?/span>

�Ҏ�� Design patterns: Elements of reusable object orientated software 一书：Strategy 模式“定义一�p�d��的算法，把它们分别封装�v来，�q�且使它们相互可以替换。这个模式��得算法可以独立于使用它的客户而变化�?#8221;

不同�?DocumentBuilder�Q�Strategy�Q?用于从一个输入流中读取数据，处理不同�c�d��的文件。对于常见的文�g格式来说�Q�都有合适的开源工具帮助进行解析。在下表中我们列举一些常见文件类型的解析办法�?/span>

文�g�c�d�� 常用扩展�?可以使用的解析办�?
�U�文本文�?txt 无需�c�d��解析
RTF 文�� rtf 使用 javax.swing.text.rtf.RTFEditorKit �c?
Word 文档�Q�非 OOXML 格式�Q?doc Apache POI �Q�可配合使用 POI Scratchpad�Q?
PowerPoint 演示文稿�Q�非 OOXML 格式�Q?xls Apache POI �Q�可配合使用 POI Scratchpad�Q?
PDF 文档 pdf PDFBox�Q�可能中文支持欠佻I��
HTML 文�� htm, html JTidy, Cobra

�q�里�?Word 文�g��Z��Q�给��Z��个简单的参考实现�?/span>

清单 4. 解析�U�文本内容的实现
// WordDocument �?Apache POI Scratchpad 中的一个类
Document buildDocument(InputStream is) {
String bodyText = null;
try {
WordDocument wordDoc = new WordDocument(is);
StringWriter sw = new StringWriter();
wordDoc.writeAllText(sw);
sw.close();
bodyText = sw.toString();
} catch (Exception e) {
throw new DocumentHandlerException("Cannot extract text from a Word document", e);
}
if ((bodyText != null) && (bodyText.trim().length() > 0)) {
Document doc = new Document();
doc.add(new Field("body", bodyText, Field.Store.YES, Field.Index.TOKENIZED));
return doc;
}
return null;
}

那么如何选择合适的 Strategy 来处理文件呢�Q�UNIX �pȝ��下的 file(1) 工具提供了从 magicnumber 获取文�g�c�d��的功能，我们可以使用 Runtime.exec() �Ҏ��调用�q�一命��o。但�q�需要在�?file(1) 命��o的情况下�Q�而且�q�不能识别出所有文件类型。在一般的情况下我们可以简单地�Ҏ��扩展名来使用合适的�c�d��理文件。扩展名和类的映��关�p�d��?properties 文�g中。当需要添加对新的文�g�c�d��的支持时�Q�我们只需��d��一个新的实�?DocumentBuilder 接口的类�Q��ƈ在映��文件中��d��一个映��关�p�d��可�?/span>

数据库结果集资源

大多数应用��用数据库作�ؓ�怹�存储�Q�对数据库查询结果集索引是一个常见需求�?/span>

生成一个数据库�l�果集资源的实例需要先提供一个查询语句，然后执行查询�Q�得��C��个结果集。这个结果集中的内容便是我们需要进行烦引的对象。extractDocuments 的实��C��是�ؓ�l�果集中的每一行创��Z��?Document 对象。和文�g�pȝ��资源不同的是�Q�数据库资源需要放�?Document 中的 Field 一般都存在在查询结果集之中。比如一个简单的文章发布站点�Q�对其后台数据库执行查询 SELECT ID, TITLE, CONTENT FROM ARTICLE �q�回一个有三列的结果集。对�l�果集的每一行都会被提取��Z��?Document 对象�Q�其中包含三�?Field�Q�分别对应这三列�?/span>

然而不�?Field 的类型是不同的。比�?ID 字段一般对�?Store.YES �?Index.NO �?Field�Q��?TITLE 字段则一般对�?Store.YES �?Index.TOKENIZED �?Field。�ؓ了解册��个问题，我们在数据库�l�果集资源的实现中提供一个类型�ؓ Properties �?fieldTypeMappings 属性，用于讄��数据库字�D�|��对应�?Field 的类型。对于前面的情况来说�Q�这个属性可能会被配�|�成�c�M��q�样的�Ş式：

ID = YES, NO
TITLE = YES, TOKENIZED
CONTENT = NO, TOKENIZED

配合�q�个映射�Q�我们便可以生成合适类型的 Field�Q�完成对�l�果集烦引的工作�?/span>

攉��索引

完成对资源的索引之后�Q�还需要让索引为搜索模块所用。前面我们已�l�说�q�这里介�l�的框架主要用于��型应用�Q�考虑到复杂性，我们采取��单地��分布在各个机器上的索引汇��d��一个地方的�{�略�?/span>

汇�ȝ��引的传输方式可以有很多方案，比如使用 FTP、HTTP、rsync �{�。甚至烦引模块和搜烦模块可以位于同一台机器上�Q�这�U�情况下只需要将索引�q�行本地拯��卛_��。同前面�c�M��Q�我们定义一�?Transporter 接口�?/span>

清单 5. Transporter 接口
public interface Transporter {
public void transport(File file);
}

�?FTP 方式传输��Z��Q�我们��?Commons Net 完成传输的操作�?/span>

public void transport(File file) throws TransportException {
FTPClient client = new FTPClient();
client.connect(host);
client.login(username, password);
client.changeWorkingDirectory(remotePath);
transportRecursive(client, file);
client.disconnect();
}

public void transportRecursive(FTPClient client, File file) {
if (file.isFile() && file.canRead()) {
client.storeFile(file.getName(), new FileInputStream(file));
} else if (file.isDirectory()) {
client.makeDirectory(file.getName());
client.changeWorkingDirectory(file.getName());
File[] fileList = file.listFiles();
for (File f : fileList) {
transportRecursive(client, f);
}
}
}

对其他传输方案也有各自的�Ҏ��q�行处理�Q�具体��用哪�?Transporter 的实现被配置�?Spring 风格的烦引模块配�|�文件中。传输的方式是灵�zȝ��。比如当需要强调安全性时�Q�我们可以换用基�?SSL �?FTP �q�行传输。所需要做的只是开发一个��?FTP over SSL �?Transporter 实现�Q��ƈ在配�|�文件中更改 Transporter 的实现即可�?/span>

�q�行搜烦

在做了这么多之后�Q�我们开始接触和用户兌��最为紧密的搜烦模块。注意，我们的框架不包括一个基于已�l�收集好的烦引进行搜索是个很��单的�q�程。Lucene 已经提供了功能强大的 IndexSearcher 及其子类。在�q�个部分�Q�我们不会再介绍如何使用�q�些�c�，而是��x��在前文提到过的资源元数据上。元数据从各个资源所在的文�g夹中��d��得到�Q�它在搜索模块中扮演重要的角艌Ӏ?/span>

构徏一个查�?/span>

对不同资源进行搜索的查询�Ҏ��q�不一栗��例如搜索一个论坛里的所有留�a��Ӟ��我们��x��的一般是留言的标题、作者和内容�Q�而当搜烦一�?FTP 站点�Ӟ��我们更多��x��的是文�g名和文�g内容。另一斚w��Q�我们有时可能会使用一个查询去搜烦多个资源的结果。这正是之前我们在前面所提到的元数据�?searchableFields �?resourceName 属性的作用。前者指��Z��个资源中哪些字段是参与搜索的�Q�后者则用于在搜索时��定使用哪个或者哪些烦引。从技术细节来��_��只有有了�q�些信息�Q�我们才可以构造出可用�?Query 对象�?/span>

呈现搜烦�l�果

当从 IndexSearcher 对象得到搜烦�l�果�Q�Hits�Q�之后，当然我们可以直接从中获取需要的��|��再格式化予以输出。但一来格式化输出搜烦�l�果�Q�尤其在 Web 应用中）是个很常见的需求，可能会经常变��_��二来�l�果的呈现格式应该是由分散的资源各自定义�Q�而不是交由搜索模块来定义。基于上面两个原因，我们的框架将使用在资源收集端配置�l�果输出格式的方式。这个格式由资源元数据中�?hitTextPattern 属性定义。该属性是一个字�W�串�c�d��的��|��支持两种语法

形如 ${field_name} 的子字符串都会被动态替换成查询�l�果中各�?Document �?Field 的倹{�?
形如 $function(...) 的被解释为函敎ͼ�括号内以逗号隔开的符号都被解释成参数�Q�函数可以嵌套�?
例如搜烦“具体”�q�回的搜索结果中包含一�?Document 对象�Q�其 Field 如下表：

Field 名称 Field 内容
url http://example.org/article/1.html
title �C�Z��标题
content �q�里是具体的内容�?

那么如果 hitTextPatten 被设�|��ؓ“${title}
$highlight(${content}, 5, "", "")”�Q�返回的�l�果�l�浏览器解释后可能的昄��l�果如下�Q�这只是个演�C�链接，请不要点击）�Q?/span>

�C�Z��标题
�q�里是具�?..

上面提到�?$highlight() 函数用于在搜索结果中取得最匚w��的一�D�|��本，�q��亮显�C�搜索时使用的短语，其第一个参数是高亮昄��的文本，�W�二个参数是昄��的文本长度，�W�三和第四个参数是高亮文本时使用的前�~�和后�~��?/span>

可以使用正则表达式和文本解析来实现前面所提到的语法。我们也可以使用 JavaCC 定义 hitTextPattern 的文法，�q�而生成词法分析器和语法解析器。这是更为系�l��ƈ且相对而言不易出错的方法。对 JavaCC 的介�l�不是本文的重点�Q�您可以在下面的阅读资源中找到学习资料�?/span>

下面列出的是一些与我们所提出的框架所相关或者类似的产品�Q�您可以�?学习资料中更多地了解他们�?/span>

IBM?OmniFind?Family

OmniFind �?IBM 公司推出的企业��搜烦解决�Ҏ��。基�?UIMA (Unstructured Information Management Architecture) 技术，它提供了强大的烦引和获取信息功能�Q�支持巨大数量、多�U�类型的文��资源�Q�无论是�l�构化还是非�l�构化）�Q��ƈ�?Lotus?Domino?�?WebSphere?Portal 专门�q�行了优化�?/span>

Apache Solr

Solr �?Apache 的一个企业��的全文检索项目，实现了一个基�?HTTP 的搜索服务器�Q�支持多�U�资源和 Web 界面��理�Q�它同样建立�?Lucene 之上�Q��ƈ�?Lucene 做了很多扩展�Q�例如支持动态字�D�及唯一键，�Ҏ��询结果进行动态分�l�和�q��o�{��?/span>

Google SiteSearch

使用 Google 的站�Ҏ��索功能可以方便而快捷地建立一个站内搜索引擎。但�?Google 的站�Ҏ��索基�?Google 的网�l�爬虫，所以无法访问受保护的站点内�Ҏ��?Intranet 上的资源。另外，Google 所支持的资源类型也是有限的�Q�我们无法对其进行扩展�?/span>

SearchBlox?

SearchBlox 是一个商业的搜烦引擎构徏框架。它本��n是一�?J2EE �l��g�Q�和我们的框架类��|��也支持对�|�页和文件系�l�等资源�q�行索引�Q�进而进行搜索�?/span>

�q�需考虑的问�?/span>

本文介绍的思想试图利用开源的工具解决中小型应用中的常见问题。当�Ӟ��作�ؓ一个框�Ӟ��它还有很多不��I��下面列�D��Z��些可以进行改�q�的地方�?/span>

性能考虑

当需要进行烦引的资源数目不多�Ӟ��隔一定的旉��q�行一�ơ完全烦引不会占用很长时间。��用一�?2G 内存�Q�Xeon 2.66G 处理器的服务器进行实际测试，发现�Ҏ��据库资源的烦引占用的旉��很少�Q�一千多条记录花费的旉��?1 �U�到 2 �U�之内。而对 1400 多个文�g�q�行索引耗时大约十几�U�。但在大型应用中�Q�资源的定w��是巨大的�Q�如果每�ơ都�q�行完整的烦引，耗费的时间会很惊人。我们可以通过跌��已经索引的资源内容，删除已不存在的资源内容的索引�Q��ƈ�q�行增量索引来解册��个问题。这可能会涉及文件校验和索引删除�{��?/span>

另一斚w��Q�框架可以提供查询缓存来提高查询效率。框架可以在内存中徏立一�U�缓存，�q��用如 OSCache �?EHCache 实现��盘上的二��~�存。当索引的内容变化不频繁�Ӟ��使用查询�~�存更会明显地提高查询速度、降低资源消耗�?/span>

分布式烦�?/span>

我们的框架可以将索引分布在多台机器上。搜索资源时�Q�查询被 flood 到各个机器上从而获得搜索结果。这样可以免��M��输烦引到某一��C��央服务器的过�E�。当然也可以在非�l�构化的 P2P �|�络上实现分布式哈希�?(DHT)�Q�配合烦引复�?(Replication)�Q��得应用程序更为安全，可靠�Q�有伸羃性。在阅读资料中给��Z�� 一��关于构建分布式环境下全文搜索的可行性的论文�?

安全�?/span>

目前我们的框架�ƈ没有涉及到安全性。除了依赖资源本�w�的讉K��控制�Q�如受保护的�|�页和文件系�l�等�Q�之外，我们�q�可以从两方面增强框架本�w�的安全性：

考虑��C��个组�l�的搜烦功能对不同用��L��权限讄��不一定一��P��可以支持对用戯��色的定义�Q�实行对搜烦模块的访问控制�?
在资源烦引模块中实现一�U�机�Ӟ��让资源可以限制自己暴露的内容�Q�从而羃��烦引模块的索引范围。这可以�c�L�� robots 文�g可以规定搜烦引擎爬虫的行为�?

通过上文的介�l�，我们认识了一个可扩展的框�Ӟ��q��引模块和搜烦模块两部分组成。它可以灉|��地适应不同的应用场景。如果需要更独特的需求，框架本��n预留了可以扩展的接口�Q�我们可以通过实现�q�些接口完成功能的定制。更重要的是�q�一切都是徏立在开源��Y件的基础之上。希望本文能为您揭示开源的力量�Q�体验用开源工��L��装您自己的解��x��案所带来的莫大快乐�?/span>

��菜毛毛 2009-08-29 00:25 发表评论