本文作者马?卡兹QMatt CuttsQ是Google公司品质理部门的Y件工E师。他的工作主要是l好的网站评定等U,q负责开发阻止虚假或垃圾|站出现在Google搜烦l果上的技术?/FONT>
图书馆管理员们提出最多的问题之一是:“对于什么样的结果应该位于搜索列表的最上方QGoogle是如何选择的?”现在品质工E师马特-卡兹介绍了快速入门的知识Q解释了Google是如何在|上爬行和烦引,以及如何评定搜烦l果{的。马特也向学校图书馆理员提出徏议,告诉他们如何辅导学生?
爬行和烦?/STRONG>
在你览包含了Google搜烦l果的网之前,要发生很多事情。首先是在万l网C十亿计的|页上爬行和索引Q这个工作是由Googlebot完成的,它负责与全球的网l服务器q接以收集文件。爬行不是真的在|上漫游Q而是讉K|络服务器返回到一个特定的|页上,接着扫描该网徏立超链接qؓ每一个网늼上号码。爬行可攉大量的文Ӟ但这些文件还不能直接用于搜烦?/P>
如果没有索引Q在你想查询如“civil war”(南北战争Q等内容ӞGoogle的服务器不得不在你每次搜烦旉L一份文件的内容。因此第二个步骤是要建立一个烦引,q样需要“{换?爬行所获得的数据。ؓ了不必在每一份文件上扫描每一个单词,需要在数据上做些文章,以便昄包含了特定单词的所有文件。例如,假设单词“civil”在~号???2?6?8?2的文件上出现q,而单词“war”出现编号ؓ2??5?2?8?7的文件上?/P>
一旦徏立了索引Q就开始对文gq行{评定q确定它们的相关性。假如某个h上Google搜烦q输入“civil war”,为呈现和评h搜烦l果需要做两g事:一是查扑含了用户提问的网;二是按照相关性排定匹配网늚位置。Google已经开发出一个有的技术可加速第一步骤的过E:不是所有烦引存储在一台电脑上Q而是使用数百台电脑做q种工作。由于Q务被分配到很多电脑上Q得查询答案更速?/P>
为更加Ş象地描述q个q程Q可以设想下一?0厚书的索引。如果一个h在烦引中查找数页的信息,那么每一ơ搜索都臛_需要花几秒钟的旉Q但如果你将索引的每一分l不同的人去查找呢?三十个h分别查找索引的不同部分,要比一个h独自查找快的多。同PGoogle也是数据分配到各台电脑上以便可以更快地查找文g?/P>
如何查找包含了用h问的|页Q让我们q回C面D的“civil war”例子。单词“civil”在~号???2?6?8?2的文件上Q单词“war”在~号???5?2?8?7的文件上Q我们可以在|页上显C文件ƈL包含两个单词的文Ӟ从下表中可以看出??2?8hӞ?/P>
单词civil 3 8 22 56 68 92
单词war 2 8 15 22 68 77
两个单词都出?8 22 68
包含了一个单词的文g列表被称为“文件标识列表”,查找包含两个单词的文件被UCؓ“文件标识列表的交集”?/P>
评定搜烦l果
有了包含用户提问的网后Q就该按照相x评定网了。Google使用了很多技术,其中 PageRank法是最有名的。PageRank评定的是两种事情Q从|站到某一|页有多个链接Q提供链接的|站的排名。用PageRankQ来?CNN和纽U时报网站的链接的h|是很多不太有名网站的两倍?/P>
除了PageRank外Googleq用了很多其他技术,例如一份文件所包含?“civil”和“war”两个单词靠的很q,比只用了“war”单词的包含“Revolutionary War”(独立战争Q的文g相关性要大的多。另外在题目中出C“civil war”的|页Q它的相x就比题目ؓ?9th Century American Clothing”(19世纪的美国服装)要重要的多。同样如果“civil war”在|页上出C数次Q比出现一ơ的|页要相关的多?/P>
Google的目的是要找到知名度和相x都大的|页。如果两个网出现匹配提问的信息数量几乎一P我们常常会选择更有名网站的链接。但如果其他斚w表明一个网|为相养I也会选择更少链接或更低排名的|页。例如,一个网全都是讲“南北战争”的内容Q会比只是略微提到“南北战争”的|页更ؓ有用Q即使这个网|出现不太有名的网站上。一旦我们有了文件的列表和分|׃选择最高分倹{最匚w的文件?/P>
Google从包含了提问单词的每一份文件中提取几句话作为摘要显C,接着排好的URLs和摘要显C在搜烦l果上。正如你所知道的运行一个搜索器需要大量的计算资源。每一ơ搜索需?00C上的电脑一起工作,搜烦的时间还不到半秒钟?/P>
Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=559502