??xml version="1.0" encoding="utf-8" standalone="yes"?>精品一区91,亚洲激情小视频,91啪国产在线http://www.aygfsteel.com/WshmAndLily/category/25054.htmlzh-cnSun, 16 Mar 2008 16:47:23 GMTSun, 16 Mar 2008 16:47:23 GMT60Java 全文本搜索引擎工?http://www.aygfsteel.com/WshmAndLily/articles/186417.htmlsemovysemovySat, 15 Mar 2008 01:02:00 GMThttp://www.aygfsteel.com/WshmAndLily/articles/186417.htmlhttp://www.aygfsteel.com/WshmAndLily/comments/186417.htmlhttp://www.aygfsteel.com/WshmAndLily/articles/186417.html#Feedback0http://www.aygfsteel.com/WshmAndLily/comments/commentRss/186417.htmlhttp://www.aygfsteel.com/WshmAndLily/services/trackbacks/186417.html

Egothor   点击ơ数Q?0000

Egothor是一个用Java~写的开源而高效的全文本搜索引擎。借助Java的跨q_Ҏ,Egothor能应用于M环境的应用,既可配置为单独的搜烦引擎Q又能用于你的应用作为全文检索之用?

Nutch   点击ơ数Q?3225

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自q搜烦引擎所需的全部工兗包括全文搜索和Web爬虫?/p>

Lucene   点击ơ数Q?6817

Apache Lucene是一个开放源E序的搜d引擎Q利用它可以LCؓJava软g加入全文搜寻功能。Lucene的最主要工作是替文g的每一个字作烦引,索引让搜ȝ效率比传l的逐字比较大大提高QLucen提供一l解读,qoQ分析文Ӟ~排和用烦引的APIQ它的强大之处除了高效和单外Q是最重要的是使用者可以随时应自已需要自订其功能?

Oxyus   点击ơ数Q?694

是一个纯java写的web搜烦引擎?/p>

BDDBot   点击ơ数Q?831

BDDBot是一个简单的易于理解和用的搜烦引擎。它目前在一个文本文?urls.txt)列出的URL中爬行,结果保存在一个数据库中。它也支持一个简单的Web服务器,q个服务器接受来自浏览器的查询ƈq回响应l果。它可以方便地集成到你的Web站点中?

Zilverline   点击ơ数Q?484

Zilverline是一个搜索引擎,它通过web方式搜烦本地盘或intranet上的内容。Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar{文档中抓取它们的内Ҏ建立摘要和烦引。从本地盘或intranet中查扑ֈ的结果可重新再进行检索。Zilverline支持多种语言其中包括中文?/p>

XQEngine   点击ơ数Q?235

XQEngine用于XML文档的全文本搜烦引擎.利用XQuery做ؓ它的前端查询语言.它能够让你查询XML文档集合通过使用关键字的逻辑l合.有点cM于Google与其它搜索引擎搜索HTML文档一?XQEngine只是一个用Java开发的很紧凑的可嵌入的lg.

MG4J   点击ơ数Q?054

MG4J可以让你为大量的文档集合构徏一个被压羃的全文本索引,通过使内插编?interpolative coding)技?

JXTA Search   点击ơ数Q?694

JXTA Search是一个分布式的搜索系l?设计用在点对点的|络与网站上.

YaCy   点击ơ数Q?283

YaCyZp2p的分布式Web搜烦引擎.同时也是一个Http~存代理服务?q个目是构建基于p2p Web索引|络的一个新Ҏ.它可以搜索你自己的或全局的烦?也可以Crawl自己的网|启动分布式Crawling{?

Red-Piranha   点击ơ数Q?753

Red-Piranha是一个开源搜索系l?它能够真?学习"你所要查扄是什?Red-Piranha可作Z桌面pȝ(Windows,Linux与Mac)的个人搜索引?或企业内部网搜烦引擎,或ؓ你的|站提供搜烦功能,或作Z个P2P搜烦引擎,或与wikil合作ؓ一个知?文档理解决Ҏ,或搜索你要的RSS聚合信息,或搜索你公司的系l?包括SAP,Oracle或其它Q何Database/Data source),或用于管理PDF,Word和其它文?或作Z个提供搜索信息的WebService或ؓ你的应用E序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜烦后台{等.

LIUS   点击ơ数Q?749

LIUS是一个基于Jakarta Lucene目的烦引框架。LIUS为Lucened了对许多文g格式的进行烦引功能如Q?br /> Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans。针对JavaBeans的烦引特别有用当我们要对数据库进行烦引或刚好用户使用持久层ORM技术如QHibernate,JDO,Torque,TopLinkq行开发时?/p>

Aperture   点击ơ数Q?380

Apertureq个Java框架能够从各U各L资料pȝ(如:文gpȝ、Web站点、IMAP和Outlook邮箱)或存在这些系l中的文??文档、图?爬取和搜索其中的全文本内容与元数据。它当前支持的文件格式如下:

  • Plain text
  • HTML, XHTML
  • XML
  • PDF (Portable Document Format)
  • RTF (Rich Text Format)
  • Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher
  • Microsoft Works
  • OpenOffice 1.x: Writer, Calc, Impress, Draw
  • StarOffice 6.x - 7.x+: Writer, Calc, Impress, Draw
  • OpenDocument (OpenOffice 2.x, StarOffice 8.x)
  • Corel WordPerfect, Quattro, Presentations
  • Emails (.eml files)


  • semovy 2008-03-15 09:02 发表评论
    ]]>
    搜烦引擎 |络营销相关http://www.aygfsteel.com/WshmAndLily/articles/137580.htmlsemovysemovyFri, 17 Aug 2007 08:20:00 GMThttp://www.aygfsteel.com/WshmAndLily/articles/137580.htmlhttp://www.aygfsteel.com/WshmAndLily/comments/137580.htmlhttp://www.aygfsteel.com/WshmAndLily/articles/137580.html#Feedback0http://www.aygfsteel.com/WshmAndLily/comments/commentRss/137580.htmlhttp://www.aygfsteel.com/WshmAndLily/services/trackbacks/137580.html1Q搜索引擎(Search EngineQ:

     

    通过q行一个YӞ该Y件不断在|络上通过域名扫描和各U链接,自动获得大量站点面的信息,q按照一定规则归cL理,从而Ş成数据库Q以备查询。这L站点Q获得信?/span>==>整理建立数据?/span>==>提供查询Q我们就UC?#8220;搜烦引擎”。而所使用的Y件一般叫?#8220;Spider”?#8220;Robot”?#8220;crawlers”{,中文名称“搜烦机器?#8221;?/span>

     

    qx我们在检查站点访问统计时Q在“览器简?#8221;中看到的Baiduspider?/span>Googlebot?/span>MSNBOT是搜烦机器人留下的记录Q分别代表百度?/span>GOOGLE?/span>MSN搜烦机器人?/span>

     

     

    2Q分cȝ录(DirectoryQ:

     

    通过“人工方式”站点进行分c而徏立数据库Q以提供查询Q这L站点叫着“分类目录”。这里的“人工方式”可以是完全的人工Q比如有专门的编辑审核站点,军_是否收录Q也可以是通过你一步步递交后收录?/span>

     

     

    无论“搜烦引擎”q是“分类目录”Q目标都一P获得|站资料Q徏立数据库提供查询。只不过使用的方法不同?#8220;搜烦引擎”因ؓ依靠软g自动q行Q因此,其数据库的容量非常庞大,查询l果往往不够_Q?#8220;分类目录”׃依靠人工分类Q查询得到的信息要准些Q但攉的内定w常有限?/span>

     

    qx我们把这两类都统UCؓ“搜烦引擎”Q而且很多站点也都提供Zq两cL式的查询。比如新搜索(http://search.sina.com.cn/Q缺省是查询新浪自己建立的目录—?#8220;分类|站”查询Q而当我们查询“全部|站”Ӟ它就调用?/span>GOOGLE的搜索引擎(您可以?#8220;时代营销|?#8221;q行查询试试Q?/span>

     

     

    针对目前体中文网l市场来看,有媄响的“搜烦引擎”主要是百度和GOOGLEQ分cȝ录则包括Yahoo!中国?/span>dmoz.org、新搜索、搜狐搜索和|易搜烦Q?/span>3721和中国搜索联盟也在搜索市场有不错表现Q另外很多非L的分cȝ录站点也能带来巨大的讉K量?/span>

     

     

    在进行推q前Q请定您的站点已经完成下面几步Q?/span>

     

    ·站点内容已经完成Q没?#8220;正在?#8221;的页面和断链接;

    ·Dpȝ清晰Qƈh?#8220;站点地图”面Q从该页面可以链接到站点所有的栏目Q?/span>

    ·除非Ҏ需要,设计上力求简z,不要无谓堆砌大量炫耀技巧的FLASH、动画;

    ·完成主要面中的TITLE?/span>META{设|及优化Q尤其是首页Q这斚w请参?#8220;时代营销|?#8221;中相x章)Q?/span>

     

    现在Q开始一步步利用搜烦引擎和分cȝ录开展站点的推广工作?/strong>

     

    1、注册搜索引?/span>

     

    对于体中文网站,目前要注册的两个主要搜烦引擎是百度和GOOGLE?/span>GOOGLE虽然在世界上几乎成ؓ搜烦的代名词Q但是百度以其专注于中文世界、内Ҏ新快、断词顺序合理以及市场宣传等优势Q在大陆市场?/span>GOOGLE中文q齐驱?/span>

     

    癑ֺ?/span>GOOGLE的注册完全免费,一般只需站炚w地址提交Q它们就会自动前来抓取全部内容,为避免部分内容因为链接原因搜索机器h无法抓取Q可以提?#8220;站点地图”面地址作ؓ补充。请C面地址提交Q?/span>

    http://www.baidu.com/search/url_submit.htm

    http://www.google.com/intl/zh-CN/add_url.html

     

    提交地址后,站点会在一C天内出现在百度搜索,而出现在GOOGLE的时间不是很定Q因?/span>GOOGLE大约30天刷Cơ数据库Q这个叫着“Google Dance”Q,所以最长可能需要一个月的时_你提交的站点才能?/span>GOOGLE扑ֈ?/span>

     

    当站Ҏ更新Ӟ应该量把更新的面手工递交Cq搜索引擎,以提醒搜索机器h回访Q从而更新内容快能在q些搜烦引擎中被扑ֈ?/span>

     

    一旦收录到BAIDU?/span>GOOGLE以后Q就可以?/span>BAIDU支持的搜狐和|易的页面搜索?/span>GOOGLE支持的新页面搜索中查找到?/span>

     

     

    2、注册分cȝ?/span>

     

    目前主要的分cȝ录包括下面站点:

     

    Yahoo!中国搜烦引擎       http://cn.yahoo.com/search/

    dmoz.org                            http://dmoz.org/Regional/Asia/China/

    新浪搜烦引擎                  http://search.sina.com.cn/

    搜狐搜烦引擎                  http://dir.sohu.com/

    |易搜烦引擎                  http://search.163.com/

     

    对于dmoz.orgQ一般国内读者不是很了解Q这是一个开攄目录站点Q由很多D~辑负责审核、添加和理Q这点上和网易的站点目录cM。由于大量v外的搜烦引擎?/span>AOL Search, AltaVista, HotBot, Google, Lycos, Netscape Search{都调用该站点的分类目录Q所以也很重要?/span>

     

    在以上分cȝ录中Q?/span>Yahoo!中国?/span>dmoz.org和网易提供完全的免费dQ需要通过人工审核是否收录Q搜狐搜索只针对非商业机构如学校、事业性组l等提供免费dQ新搜索则必须付费才能d?/span>

     

    在登录过E中Q需要你选择最适合自己站点的类别,q填写站点和d者的相关信息Q递交后一般一周会有反馈是否收录?/span>

     

     

    3?/span>3721|络实名和中国搜索联?/span>

     

    3721以网l实名技术ؓ切入点,除了本n的实名用P览器安装了插g的用P外,q与许多站点q行合作Q媄响力已经过了许多搜索引擎,紧跟?/span>BAIDU?/span>GOOGLE之后Q目前和3721合作的站Ҏ新浪、雅虎、搜狐以及中国搜索联盟。虽然注?/span>3721|络实名需要一定的费用Q但是选择合适的关键词进行注册,500?/span>/q的投资是值得的!

     

    中国搜烦联盟实际上是一个分cȝ录,但是它采取联盟的方式出现Q在搜烦市场中异军突P影响力虽然还比较有限Q但是有一定发展前景。目前还支持免费dQ和上面的目录站点相伹{?/span>

    http://service.chinasearch.com.cn/web/frontward/free/free_protocol.htm

     

    4、非L分类目录

     

    在大陆有一U非L的分cȝ录站点,一般自U?#8220;|址大全”?#8220;|站D”Q实际上是比较原始的分类目录站点。由于它们提供的站点目录直接从广大网民的角度q行整理Q非常实用,所以目前的宣传效果非常好,讉K量也很大Q如最著名?/span>hao123.com在全球简体中文站点中排名在前14位(ҎALEXA站点l计Q?/span>

     

    你可以到q些站点中,看看是否有自q炚w合的目录和分类Q如果有的话Q直接给站长发信Q要求收录。如果可以收录的话,能带来相当大的访问量?/span>

     

    下面是目前比较出名的站点Q?/span>

     

    http://www.Hao123.com/ (可登?/span>)

    http://www.v333.com/ (本nҎALEXA排名Q不提供收录)

    http://www.cnww.net/  (可登?/span>)

    http://www.wu123.com/

    http://www.5566.net/     (可登?

    http://www.37021.com/   (可登?/span>)

    http://www.k369.com/    (可登?/span>)

    http://www.da123.com/  (可登?/span>)

    http://www.94135.com/ 

    http://www.265.com/      (可登?/span>)

    http://www.guang.org/     (可登?/span>)

     

     

    5、付费的搜烦引擎推广

     

    现在各大搜烦引擎都在推出自己的付Ҏq,主要包括Q?/span>

     

    癑ֺ的竞h名服务(0.3?/span>/点击以上Q;

    GOOGLE?/span>ADWARE服务Q?/span>0.5?/span>/点击以上Q;

    3721|络实名Q?/span>500?/span>/普通实?#183;q_Q?/span>

     

    新浪、网易、搜狐和中国搜烦联盟的收费登录和竞h排名?/span>

     

    Ҏ我个人的l验Q首选是3721的网l实名,其覆盖面q而^均成本小?/span>

     

    其他的服务,可以Ҏ自己的营销预算q行安排?/span>



    semovy 2007-08-17 16:20 发表评论
    ]]>
    վ֩ģ壺 | | ̨| | | | | | | | | | ϲ| | | Զ| ˮ| | | | Ĭ| | ԣ| | μԴ| ľ| ڰ| | ˴| | ͬ| ˻| Ž| | | | | ƽ| | ʹ| |