??xml version="1.0" encoding="utf-8" standalone="yes"?>热久久一区二区,最新亚洲精品,欧美亚洲第一区http://www.aygfsteel.com/iNeo/category/6271.htmlzh-cnTue, 27 Feb 2007 08:48:50 GMTTue, 27 Feb 2007 08:48:50 GMT60关于搜烦时的相对路径问题http://www.aygfsteel.com/iNeo/archive/2006/08/03/61448.html只牵q只?/dc:creator>只牵q只?/author>Thu, 03 Aug 2006 01:12:00 GMThttp://www.aygfsteel.com/iNeo/archive/2006/08/03/61448.htmlhttp://www.aygfsteel.com/iNeo/comments/61448.htmlhttp://www.aygfsteel.com/iNeo/archive/2006/08/03/61448.html#Feedback0http://www.aygfsteel.com/iNeo/comments/commentRss/61448.htmlhttp://www.aygfsteel.com/iNeo/services/trackbacks/61448.htmlsearcher = new IndexSearcher(“luc\\public\\index?;
报错了,因ؓlucene在FSDirectory里将我的路径lnew File(file.getCanonicalPath());
但奇怪的是file.getCanonicalPath()出来路径不对呀
错误?br />java.io.IOException: D:\eclipse\luc\public\index not a directory
应该是d:\eclipse\workspace\luc\public\index 才对?br />郁闷很久?现在q没办法解决!!!!!!!!!!!!!!!!!!!!!!!!!!

]]>
Google工程师详qGoogle的搜索结果排列算法[转]http://www.aygfsteel.com/iNeo/archive/2005/12/23/25203.html只牵q只?/dc:creator>只牵q只?/author>Fri, 23 Dec 2005 06:43:00 GMThttp://www.aygfsteel.com/iNeo/archive/2005/12/23/25203.htmlhttp://www.aygfsteel.com/iNeo/comments/25203.htmlhttp://www.aygfsteel.com/iNeo/archive/2005/12/23/25203.html#Feedback0http://www.aygfsteel.com/iNeo/comments/commentRss/25203.htmlhttp://www.aygfsteel.com/iNeo/services/trackbacks/25203.htmlGoogle工程师详qGoogle的搜索结果排列算?/A>
 

本文作者马?卡兹QMatt CuttsQ是Google公司品质理部门的Y件工E师。他的工作主要是l好的网站评定等U,q负责开发阻止虚假或垃圾|站出现在Google搜烦l果上的技术?/FONT>

图书馆管理员们提出最多的问题之一是:“对于什么样的结果应该位于搜索列表的最上方QGoogle是如何选择的?”现在品质工E师马特-卡兹介绍了快速入门的知识Q解释了Google是如何在|上爬行和烦引,以及如何评定搜烦l果{的。马特也向学校图书馆理员提出徏议,告诉他们如何辅导学生?

爬行和烦?/STRONG>

在你览包含了Google搜烦l果的网之前,要发生很多事情。首先是在万l网C十亿计的|页上爬行和索引Q这个工作是由Googlebot完成的,它负责与全球的网l服务器q接以收集文件。爬行不是真的在|上漫游Q而是讉K|络服务器返回到一个特定的|页上,接着扫描该网徏立超链接qؓ每一个网늼上号码。爬行可攉大量的文Ӟ但这些文件还不能直接用于搜烦?/P>

如果没有索引Q在你想查询如“civil war”(南北战争Q等内容ӞGoogle的服务器不得不在你每次搜烦旉L一份文件的内容。因此第二个步骤是要建立一个烦引,q样需要“{换?爬行所获得的数据。ؓ了不必在每一份文件上扫描每一个单词,需要在数据上做些文章,以便昄包含了特定单词的所有文件。例如,假设单词“civil”在~号???2?6?8?2的文件上出现q,而单词“war”出现编号ؓ2??5?2?8?7的文件上?/P>

一旦徏立了索引Q就开始对文gq行{评定q确定它们的相关性。假如某个h上Google搜烦q输入“civil war”,为呈现和评h搜烦l果需要做两g事:一是查扑֌含了用户提问的网;二是按照相关性排定匹配网늚位置。Google已经开发出一个有的技术可加速第一步骤的过E:不是所有烦引存储在一台电脑上Q而是使用数百台电脑做q种工作。由于Q务被分配到很多电脑上Q得查询答案更速?/P>

为更加Ş象地描述q个q程Q可以设想下一?0厚书的索引。如果一个h在烦引中查找数页的信息,那么每一ơ搜索都臛_需要花几秒钟的旉Q但如果你将索引的每一分l不同的人去查找呢?三十个h分别查找索引的不同部分,要比一个h独自查找快的多。同PGoogle也是数据分配到各台电脑上以便可以更快地查找文g?/P>

如何查找包含了用h问的|页Q让我们q回C面D的“civil war”例子。单词“civil”在~号???2?6?8?2的文件上Q单词“war”在~号???5?2?8?7的文件上Q我们可以在|页上显C文件ƈL包含两个单词的文Ӟ从下表中可以看出??2?8hӞ?/P>

单词civil 3 8 22 56 68 92

单词war 2 8 15 22 68 77

两个单词都出?8 22 68

包含了一个单词的文g列表被称为“文件标识列表”,查找包含两个单词的文件被UCؓ“文件标识列表的交集”?/P>

评定搜烦l果

有了包含用户提问的网后Q就该按照相x评定网了。Google使用了很多技术,其中 PageRank法是最有名的。PageRank评定的是两种事情Q从|站到某一|页有多个链接Q提供链接的|站的排名。用PageRankQ来?CNN和纽U时报网站的链接的h|是很多不太有名网站的两倍?/P>

除了PageRank外Googleq用了很多其他技术,例如一份文件所包含?“civil”和“war”两个单词靠的很q,比只用了“war”单词的包含“Revolutionary War”(独立战争Q的文g相关性要大的多。另外在题目中出C“civil war”的|页Q它的相x就比题目ؓ?9th Century American Clothing”(19世纪的美国服装)要重要的多。同样如果“civil war”在|页上出C数次Q比出现一ơ的|页要相关的多?/P>

Google的目的是要找到知名度和相x都大的|页。如果两个网出现匹配提问的信息数量几乎一P我们常常会选择更有名网站的链接。但如果其他斚w表明一个网|为相养I也会选择更少链接或更低排名的|页。例如,一个网全都是讲“南北战争”的内容Q会比只是略微提到“南北战争”的|页更ؓ有用Q即使这个网|出现不太有名的网站上。一旦我们有了文件的列表和分|׃选择最高分倹{最匚w的文件?/P>

Google从包含了提问单词的每一份文件中提取几句话作为摘要显C,接着排好的URLs和摘要显C在搜烦l果上。正如你所知道的运行一个搜索器需要大量的计算资源。每一ơ搜索需?00C上的电脑一起工作,搜烦的时间还不到半秒钟?/P>



Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=559502



]]>
վ֩ģ壺 Ȫ| ˮ| | ÷| ˫| | ɶ| | | ˿| | | ѭ| | Ӵ| | | ɽ| | Ҧ| ϳ| ̨| | ǿ| ƽ| | | | ƽ| ˳| | Һ| | | ˮ| | | | | Ϻ| |