Nutch
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自q搜烦引擎所需的全部工兗包括全文搜索和Web爬虫?/p>
??xml version="1.0" encoding="utf-8" standalone="yes"?> Egothor是一个用Java~写的开源而高效的全文本搜索引擎。借助Java的跨q_Ҏ,Egothor能应用于M环境的应用,既可配置为单独的搜烦引擎Q又能用于你的应用作为全文检索之用? Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自q搜烦引擎所需的全部工兗包括全文搜索和Web爬虫?/p>
Apache Lucene是一个开放源E序的搜d引擎Q利用它可以LCؓJava软g加入全文搜寻功能。Lucene的最主要工作是替文g的每一个字作烦引,索引让搜ȝ效率比传l的逐字比较大大提高QLucen提供一l解读,qoQ分析文Ӟ~排和用烦引的APIQ它的强大之处除了高效和单外Q是最重要的是使用者可以随时应自已需要自订其功能? 是一个纯java写的web搜烦引擎?/p>
BDDBot是一个简单的易于理解和用的搜烦引擎。它目前在一个文本文?urls.txt)列出的URL中爬行,结果保存在一个数据库中。它也支持一个简单的Web服务器,q个服务器接受来自浏览器的查询ƈq回响应l果。它可以方便地集成到你的Web站点中? Zilverline是一个搜索引擎,它通过web方式搜烦本地盘或intranet上的内容。Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar{文档中抓取它们的内Ҏ建立摘要和烦引。从本地盘或intranet中查扑ֈ的结果可重新再进行检索。Zilverline支持多种语言其中包括中文?/p>
XQEngine用于XML文档的全文本搜烦引擎.利用XQuery做ؓ它的前端查询语言.它能够让你查询XML文档集合通过使用关键字的逻辑l合.有点cM于Google与其它搜索引擎搜索HTML文档一?XQEngine只是一个用Java开发的很紧凑的可嵌入的lg. MG4J可以让你为大量的文档集合构徏一个被压羃的全文本索引,通过使内插编?interpolative coding)技? JXTA Search是一个分布式的搜索系l?设计用在点对点的|络与网站上. YaCyZp2p的分布式Web搜烦引擎.同时也是一个Http~存代理服务?q个目是构建基于p2p Web索引|络的一个新Ҏ.它可以搜索你自己的或全局的烦?也可以Crawl自己的网|启动分布式Crawling{? Red-Piranha是一个开源搜索系l?它能够真?学习"你所要查扄是什?Red-Piranha可作Z桌面pȝ(Windows,Linux与Mac)的个人搜索引?或企业内部网搜烦引擎,或ؓ你的|站提供搜烦功能,或作Z个P2P搜烦引擎,或与wikil合作ؓ一个知?文档理解决Ҏ,或搜索你要的RSS聚合信息,或搜索你公司的系l?包括SAP,Oracle或其它Q何Database/Data source),或用于管理PDF,Word和其它文?或作Z个提供搜索信息的WebService或ؓ你的应用E序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜烦后台{等. LIUS是一个基于Jakarta Lucene目的烦引框架。LIUS为Lucened了对许多文g格式的进行烦引功能如Q?br />
Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans。针对JavaBeans的烦引特别有用当我们要对数据库进行烦引或刚好用户使用持久层ORM技术如QHibernate,JDO,Torque,TopLinkq行开发时?/p>
Apertureq个Java框架能够从各U各L资料pȝ(如:文gpȝ、Web站点、IMAP和Outlook邮箱)或存在这些系l中的文??文档、图?爬取和搜索其中的全文本内容与元数据。它当前支持的文件格式如下: Egothor
Nutch
Lucene
Oxyus
BDDBot
Zilverline
XQEngine
MG4J
JXTA Search
YaCy
Red-Piranha
LIUS
Aperture
]]>
通过q行一个YӞ该Y件不断在|络上通过域名扫描和各U链接,自动获得大量站点面的信息,q按照一定规则归cL理,从而Ş成数据库Q以备查询。这L站点Q获得信?/span>==>整理建立数据?/span>==>提供查询Q我们就UC?#8220;搜烦引擎”。而所使用的Y件一般叫?#8220;Spider”?#8220;Robot”?#8220;crawlers”{,中文名称“搜烦机器?#8221;?/span>
qx我们在检查站点访问统计时Q在“览器简?#8221;中看到的Baiduspider?/span>Googlebot?/span>MSNBOT是搜烦机器人留下的记录Q分别代表百度?/span>GOOGLE?/span>MSN搜烦机器人?/span>
2Q分cȝ录(DirectoryQ:
通过“人工方式”站点进行分c而徏立数据库Q以提供查询Q这L站点叫着“分类目录”。这里的“人工方式”可以是完全的人工Q比如有专门的编辑审核站点,军_是否收录Q也可以是通过你一步步递交后收录?/span>
无论“搜烦引擎”q是“分类目录”Q目标都一P获得|站资料Q徏立数据库提供查询。只不过使用的方法不同?#8220;搜烦引擎”因ؓ依靠软g自动q行Q因此,其数据库的容量非常庞大,查询l果往往不够_Q?#8220;分类目录”׃依靠人工分类Q查询得到的信息要准些Q但攉的内定w常有限?/span>
qx我们把这两类都统UCؓ“搜烦引擎”Q而且很多站点也都提供Zq两cL式的查询。比如新搜索(http://search.sina.com.cn/Q缺省是查询新浪自己建立的目录—?#8220;分类|站”查询Q而当我们查询“全部|站”Ӟ它就调用?/span>GOOGLE的搜索引擎(您可以?#8220;时代营销|?#8221;q行查询试试Q?/span>
针对目前体中文网l市场来看,有媄响的“搜烦引擎”主要是百度和GOOGLEQ分cȝ录则包括Yahoo!中国?/span>dmoz.org、新搜索、搜狐搜索和|易搜烦Q?/span>3721和中国搜索联盟也在搜索市场有不错表现Q另外很多非L的分cȝ录站点也能带来巨大的讉K量?/span>
在进行推q前Q请定您的站点已经完成下面几步Q?/span>
·站点内容已经完成Q没?#8220;正在?#8221;的页面和断链接;
·Dpȝ清晰Qƈh?#8220;站点地图”面Q从该页面可以链接到站点所有的栏目Q?/span>
·除非Ҏ需要,设计上力求简z,不要无谓堆砌大量炫耀技巧的FLASH、动画;
·完成主要面中的TITLE?/span>META{设|及优化Q尤其是首页Q这斚w请参?#8220;时代营销|?#8221;中相x章)Q?/span>
现在Q开始一步步利用搜烦引擎和分cȝ录开展站点的推广工作?/strong>
1、注册搜索引?/span>
对于体中文网站,目前要注册的两个主要搜烦引擎是百度和GOOGLE?/span>GOOGLE虽然在世界上几乎成ؓ搜烦的代名词Q但是百度以其专注于中文世界、内Ҏ新快、断词顺序合理以及市场宣传等优势Q在大陆市场?/span>GOOGLE中文q齐驱?/span>
癑ֺ?/span>GOOGLE的注册完全免费,一般只需站炚w地址提交Q它们就会自动前来抓取全部内容,为避免部分内容因为链接原因搜索机器h无法抓取Q可以提?#8220;站点地图”面地址作ؓ补充。请C面地址提交Q?/span>
http://www.baidu.com/search/url_submit.htm
http://www.google.com/intl/zh-CN/add_url.html
提交地址后,站点会在一C天内出现在百度搜索,而出现在GOOGLE的时间不是很定Q因?/span>GOOGLE大约30天刷Cơ数据库Q这个叫着“Google Dance”Q,所以最长可能需要一个月的时_你提交的站点才能?/span>GOOGLE扑ֈ?/span>
当站Ҏ更新Ӟ应该量把更新的面手工递交Cq搜索引擎,以提醒搜索机器h回访Q从而更新内容快能在q些搜烦引擎中被扑ֈ?/span>
一旦收录到BAIDU?/span>GOOGLE以后Q就可以?/span>BAIDU支持的搜狐和|易的页面搜索?/span>GOOGLE支持的新页面搜索中查找到?/span>
2、注册分cȝ?/span>
目前主要的分cȝ录包括下面站点:
Yahoo!中国搜烦引擎 http://cn.yahoo.com/search/
dmoz.org http://dmoz.org/Regional/Asia/China/
新浪搜烦引擎 http://search.sina.com.cn/
搜狐搜烦引擎 http://dir.sohu.com/
|易搜烦引擎 http://search.163.com/
对于dmoz.orgQ一般国内读者不是很了解Q这是一个开攄目录站点Q由很多D~辑负责审核、添加和理Q这点上和网易的站点目录cM。由于大量v外的搜烦引擎?/span>AOL Search, AltaVista, HotBot, Google, Lycos, Netscape Search{都调用该站点的分类目录Q所以也很重要?/span>
在以上分cȝ录中Q?/span>Yahoo!中国?/span>dmoz.org和网易提供完全的免费dQ需要通过人工审核是否收录Q搜狐搜索只针对非商业机构如学校、事业性组l等提供免费dQ新搜索则必须付费才能d?/span>
在登录过E中Q需要你选择最适合自己站点的类别,q填写站点和d者的相关信息Q递交后一般一周会有反馈是否收录?/span>
3?/span>3721|络实名和中国搜索联?/span>
3721以网l实名技术ؓ切入点,除了本n的实名用P览器安装了插g的用P外,q与许多站点q行合作Q媄响力已经过了许多搜索引擎,紧跟?/span>BAIDU?/span>GOOGLE之后Q目前和3721合作的站Ҏ新浪、雅虎、搜狐以及中国搜索联盟。虽然注?/span>3721|络实名需要一定的费用Q但是选择合适的关键词进行注册,500?/span>/q的投资是值得的!
中国搜烦联盟实际上是一个分cȝ录,但是它采取联盟的方式出现Q在搜烦市场中异军突P影响力虽然还比较有限Q但是有一定发展前景。目前还支持免费dQ和上面的目录站点相伹{?/span>
http://service.chinasearch.com.cn/web/frontward/free/free_protocol.htm
4、非L分类目录
在大陆有一U非L的分cȝ录站点,一般自U?#8220;|址大全”?#8220;|站D”Q实际上是比较原始的分类目录站点。由于它们提供的站点目录直接从广大网民的角度q行整理Q非常实用,所以目前的宣传效果非常好,讉K量也很大Q如最著名?/span>hao123.com在全球简体中文站点中排名在前14位(ҎALEXA站点l计Q?/span>
你可以到q些站点中,看看是否有自q炚w合的目录和分类Q如果有的话Q直接给站长发信Q要求收录。如果可以收录的话,能带来相当大的访问量?/span>
下面是目前比较出名的站点Q?/span>
http://www.Hao123.com/ (可登?/span>)
http://www.v333.com/ (本nҎALEXA排名Q不提供收录)
http://www.cnww.net/ (可登?/span>)
http://www.5566.net/ (可登?
http://www.37021.com/ (可登?/span>)
http://www.k369.com/ (可登?/span>)
http://www.da123.com/ (可登?/span>)
http://www.265.com/ (可登?/span>)
http://www.guang.org/ (可登?/span>)
5、付费的搜烦引擎推广
现在各大搜烦引擎都在推出自己的付Ҏq,主要包括Q?/span>
癑ֺ的竞h名服务(0.3?/span>/点击以上Q;
GOOGLE?/span>ADWARE服务Q?/span>0.5?/span>/点击以上Q;
3721|络实名Q?/span>500?/span>/普通实?#183;q_Q?/span>
新浪、网易、搜狐和中国搜烦联盟的收费登录和竞h排名?/span>
Ҏ我个人的l验Q首选是3721的网l实名,其覆盖面q而^均成本小?/span>
其他的服务,可以Ҏ自己的营销预算q行安排?/span>