??xml version="1.0" encoding="utf-8" standalone="yes"?>
]]>
Google ?/span> “Page Rank” Q网|名)是怎么回事呢?其实单说是民主表决。打个比方,假如我们要找李开复博士,有一百个ZD手说自己是李开复。那么谁是真的呢Q也许有好几个真的,但即使如此谁又是大家真正x的呢Q?/span>:-) 如果大家都说?/span> Google 公司的那个是真的Q那么他是真的?/span>
在互联网上,如果一个网被很多其它|页所链接Q说明它受到普遍的承认和信赖Q那么它的排名就高。这是 Page Rank 的核心思想?/span>当然 Google ?/span> Page Rank 法实际上要复杂得多。比如说Q对来自不同|页的链接对待不同,本n|页排名高的链接更可靠,于是l这些链接予较大的权重?/span>Page Rank 考虑了这个因素,可是现在问题又来了,计算搜烦l果的网|名过E中需要用到网|w的排名Q这不成了先有鸡q是先有蛋的问题了吗Q?/span>
Google 的两个创始h拉里•佩奇Q?/span>Larry Page Q和谢尔?/span>•布林 (Sergey Brin) 把这个问题变成了一个二l矩늛乘的问题Qƈ且用q代的方法解决了q个问题。他们先假定所有网늚排名是相同的Qƈ且根据这个初始|出各个|页的第一ơP代排名,然后再根据第一ơP代排名算出第二次的排名。他们两Z理论上证明了不论初始值如何选取Q这U算法都保证了网|名的估计D收敛C们的真实倹{值得一提的事,q种法是完全没有Q何h工干预的?/span>
理论问题解决了,又遇到实际问题。因Z联网上网늚数量是巨大的Q上面提到的二维矩阵从理Z讲有|页数目qx之多个元素。如果我们假定有十亿个网,那么q个矩阵有一百亿亿个元素。这样大的矩늛乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计的技巧,大大的简化了计算量,q实Cq个|页排名法。今?/span> Google 的工E师把这个算法移植到q行的计机中,q一步羃短了计算旉Qɾ|页更新的周期比以前短了许多?/span>
我来 Google 后,拉里 (Larry) 在和我们几个新员工谈时Q讲起他当年和谢盖(Sergey) 是怎么惛_|页排名法的。他_"当时我们觉得整个互联|就像一张大的图Q?/span>Graph)Q每个网站就像一个节点,而每个网늚链接像一个弧。我惻I互联|可以用一个图或者矩阉|qͼ我也许可以用q个发现做个博士论文?/span>" 他和谢尔盖就q样发明?/span> Page Rank 的算法?/span>
|页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中W合了系l论的观炏V相比之下,以前的信息检索大多把每一个网当作独立的个体对待Q很多h当初只注意了|页内容和查询语句的相关性,忽略了网之间的关系?/span>
今天Q?/span>Google 搜烦引擎比最初复杂、完善了许多。但是网|名在 Google 所有算法中依然是至关重要的。在学术?/span>, q个法被公认ؓ是文献检索中最大的贡献之一Qƈ且被很多大学引入了信息检索课E?/span> (Information Retrieval) 的教E?/span>