h1>如何提高網站在Google中的排名
??? ——面向搜索引擎的網站設計

作者: 車東 Email: chedongATbigfoot.com/chedongATchedong.com

寫于:2003/01 最后更新: 08/05/2006 14:47:05

版權聲明:可以任意轉載,轉載時請務必以超鏈接形式標明文章原始出處和作者信息及本聲明
http://www.chedong.com/tech/google.html

關鍵詞:Google PageRank "link popularity" "website promotion" "optimization for search engine"?

內容摘要:(注意:這個網站設計本身就利用了其中一些方法)。
網站設計中面向搜索引擎的優化注意事項:

誰不想自己的網站在Google的搜索結果重排名靠前呢,但你的網站設計是Search Engine Ready的嗎?

什么是PageRank

Google等新一帶搜索引擎的優勢之一在于不僅索引量很大,而且還將最好的結果排在搜索結果的最前面,具體的原理可以參考Google の秘密 - PageRank 徹底解説一文,PageRank簡單的說類似于科技論文中的引用機制:誰的論文被引用次數多,誰就是權威。在互聯網上PageRank就是基于網頁中相互鏈接關系的分析得出的,由此引出第一個要點:

鏈接就是一切

在互聯網的海洋中,最重要的就是互聯互通,不被其他網站引用的網站就是“信息孤島”。“酒好也怕巷子深”,也許這話說起來有點像垃圾郵件廣告,但事實就是這樣。所以如果做網站的目的不是孤芳自賞,就需要積極的推廣自己的網站。通過搜索引擎推廣自己需要注意以下幾個方面:

  1. 以量取勝:不一定加入大型網站的分類目錄才是網站推廣,來自其他網站的任何反相鏈接都是有用的
    網站推廣比較經典的方式就是加入比較大型門戶網站的分類目錄,比如:Yahoo!dmoz.org等。其實這里有一個誤區:不一定非要加入大型網站的分類目錄才是網站推廣,因為現在搜索引擎已經不再只是網站目錄的索引,而是更全面的網頁索引,所以無論來自其他網站任何地方的反相鏈接都是非常有價值的,哪怕是出現在新聞報道,論壇,郵件列表歸檔中。因此在往很多大型站點的郵件列表發郵件時,一定注意在自己的簽名中加上自己網站的地址。
    Blogger(Weblog的簡稱)們也許最深刻地理解了“鏈接就是一切”這句話的含義,由于Blog的內容之間有大量的相互鏈接,因此最經常被引用的Blog頁面在搜索引擎中的排名往往比一些大型商業網站的頁面還要高。
  2. 以質取勝:被PageRank高的網站引用能更快地提高PageRank
    數量只是關鍵因素之一,來自PageRank高的頁面的鏈接還能更快的提高被鏈接目標的PageRank,以我的個人網站為例:我沒有加入任何分類目錄,只是將一些文章投稿在了ZDNet中國上,由于頁面上有文章出處鏈接,相應網頁和網站整體的PageRank過了一段時間后就有了很大的提升。有時候被什么樣的網站引用有時候比引用次數多更重要。這里我要特別感謝的是,當時ZDNet中國是唯一遵循了我的版權聲明的要求表明了文章出處,并且有反相鏈接的網站。
  3. 了解搜索引擎的"價值觀":
    Lucene簡介這篇文章被Jakarta.apache.org的lucene項目引用以后,這篇文章就成為了所有頁面中PageRank最高的頁面(在Google工具欄上顯示是6/10),而Google深厚的學院氣氛讓我一直懷疑他們對 .edu等非功利站點有特別加分 :-),畢竟.org .edu才代表了互聯網精神的實質:知識的共享。
    但更合理的解釋是:.org很多都是開放技術平臺的開發者,他們會在首頁這樣的地方加入Powered By Apache, Power by FreeBSD之類的鏈接表示對其他開源平臺的尊重,所以象Apache, PHP, FreeBSD這樣的開源站點在GOOGLE中都有非常高的PageRank。而在.edu這些站點中,很多都是學術性比較強的文檔,以超鏈接形式標明參考文獻的出處已經成為一種習慣,而這也無疑正是PageRank最好的依據。
    注意:千萬不要通過Link Farm提高自身的站點排名:Google會懲罰那些主動鏈接到Link Farm站點以提高自身排名站點,相應站點的頁面將不會被收入到索引中。但如果你的頁面被別的Link Farm鏈接了也不必擔心,因為這種被動的鏈接是不會被懲罰的。

另外在推廣自己網站之前也許首先需要了解自己網站目前在一些搜索引擎中的知名度,這里我做了個小工具可以用于這一目的:
http://www.chedong.com/linkPopCheck.php
原理非常簡單,可以參考如何評價網站的人氣:http://www.chedong.com/tech/link_pop_check.html一文。

網站推廣只是手段,如何突出內容、讓需要相關信息的用戶能夠盡快的找到你的網站才是目的,PageRank高并不代表像Yahoo!這樣的門戶站點就能,因為搜索引擎的結果是搜索關鍵詞在頁面中的匹配度和頁面的PageRank相結合的排名結果。因此第二個要點:

如何突出關鍵詞

  1. 不要空著標題:空著<title></title>無異于浪費了最有價值的一塊陣地;
    傳統的頁面中,HTML頁面中會有類似以下的隱含信息,用于說明當前網頁的主要內容關鍵字:
    <header>
    ??? <meta name="keyword" content="mp3 download music...">
    </header>
    后來由于這種人工添加關鍵詞的方式被濫用,大量網頁中為了提高被搜索引擎命中的概率,經常添加一些和實際網頁內容無關的熱門關鍵比如:“music mp3 download”等,所以新一代的搜索引擎已經不再關心頁面頭文件中的人工meta keyword聲明,而頁面標題在搜索引擎的關鍵詞的命中命中過程中往往有著更高的比重,如果一個關鍵詞在標題中命中會比在頁面中命中有更高的得分,從而在相應的搜索結果排名中更靠前。
  2. 標題長度和內容:不要過長,一般在40個字符以內,并充分突出關鍵詞的比重;
    如果更長的標題搜索引擎一般會忽略掉,所以要盡可能將主要關鍵詞放在標題靠前的位置。省略掉不必要的形容詞吧,畢竟用戶主要通過名詞來找到需要的內容。標題內容:盡量用一些別人可以通過關鍵詞找到的字眼(也別太過頭,如果標題中的字眼超過1半內容中都沒有,有可能被搜索引擎排除出索引),因此基于web日志中來自其他搜索引擎的關鍵詞查詢統計非常必要。
  3. 如果網頁很多的話,盡量使用不同的網頁標題,爭取讓自己網站的內容更多的進入搜索引擎索引范圍;
    因為搜索引擎會根據頁面內容的相似度把一些內容當成重復頁面排除出索引范圍;
    http://www.chedong.com/phpMan.php是我的網站上的一個小應用:一個web界面的unix命令手冊(man page),在以前的設計中所有動態頁面使用的都是同樣的標題:"phpMan: man page /perldoc /info page web interface" ,Google索引了大約3000多個頁面,后來我將頁面標題改成了"phpMan:? [命令名]"這樣的格式,比如:"phpMan: ls",這樣大部分動態頁面的標題就都不一樣了,一個月后Google從這個頁面入口索引了大約6000個頁面。因此,如果網站中很多網頁都使用相同的標題,比如:“新聞頻道”,“論壇”,這些頁面中很大一部分就會被排重機制忽略掉。
  4. 除了<title></title>外,還可以用<h1></h1>標題行突出內容主題,加強標題的效果;
    在我的網站設計中:我會把用<h1>[標題]</h1>這樣的模板把標題突出顯示,而不是通過改變字體的方式突出標題。

其他網站設計提示

  1. 盡量使用靜態網頁:目前能夠像Google一樣對動態網頁進行索引的搜索引擎還比較少,而同樣內容的動態網頁其權重比靜態網頁也要低很多。因此無論從效率上講還是方便搜索引擎收錄,使用內容發布系統將網站內容發布成靜態網頁都是非常必要的。
    比如:http://www.chedong.com/phpMan.php/man/intro/3
    肯定比 http://www.chedong.com/phpMan.php?mode=man&parameter=intro&section=3
    更容易進入搜索引擎的索引。而且在URL中的命中有時候比在標題中還能突出關鍵詞。
  2. 表現和內容的分離:“綠色”網頁
    網頁中的javascript和css盡可能和網頁分離,一方面提高代碼重用度(也方便頁面緩存),另外一方面,由于有效內容占網頁長度的百分比高,也能提高相關關鍵詞在頁面中的比重。總之,應該鼓勵遵循w3c的規范,使用更規范的XHTML和XML作為顯示格式便于內容更長時間的保存。
  3. 讓所有的頁面都有能夠快速入口:站點地圖,方便網頁爬蟲(spider)快速遍歷網站所有需要發布的內容。如果首頁就是用Flash或圖片進入的話,無異于將搜索引擎拒之門外,除了UI設計的用戶友好外,spider friendly也是非常重要的。
  4. 保持網站自身的健康:經常利用壞鏈檢查工具檢查網站中是否有死鏈。
  5. 保持網頁內容/鏈接的穩定性和持久性:在搜索引擎索引中網頁存在的歷史也是一個比較重要的因素,而且歷史比較久的網頁被鏈接的幾率越高。為了保證自己網頁能夠被比較持久的被其他網站的頁面引用,如果自己網頁中有鏈接更新時,最好能保留舊的頁面并做好鏈接轉向,以保持內容的連續性。要知道,把一個網站和內容在搜索引擎中的排名“培養”的很高是一件非常不容易的事情,誰都不希望好不容易自己的內容被別人找到了,點擊卻是“404 頁面不存在”吧,因此站點管理員對自身站點error.log的分析也是非常必要的。
  6. 文件類型因素:Google有對PDF, Word(Power Point, Excel), PS文檔的索引能力,由于這種文檔的內容比一般的HTML經過了更多的整理,學術價值一般比較高,所以這些類型的文檔天生就比一般的HTML類型的文檔PageRank要高。因此,對于比較重要的文檔:技術白皮書,FAQ,安裝文檔等建議使用PDF PS等高級格式存取,這樣在搜索結果中也能獲得比較靠前的位置。
  7. “一人得道,雞犬升天”:常常能發現門戶站點的一條新聞往往比其他站點的首頁排名還要靠前。因此一個站點總體PageRank提高了以后,往往自身一些并不重要的內容也會被同那些高PageRank的內容一起帶入被搜索引擎優先查詢的列表中。這點有些不是很合理,因為這樣經常造成很多大站點的郵件列表歸檔往往比其他站點的首頁PageRank還要高。

知己知彼——站點訪問統計/日志分析挖掘的重要性

網站設計不僅僅只是被動的迎合搜索引擎的索引,更重要是充分利用搜索引擎帶來的流量進行更深層次的用戶行為分析。目前,來自搜索引擎關鍵詞統計幾乎是各種WEB日志分析工具的標準功能,相信商業日志統計工具在這方面應該會有更強化的實現。WEB日志統計這個功能如此重要,以至于新的RedHat 8中已經將日志分析工具webalizer作為標準的服務器配置應用之一。

以Apache/webalizer為例,具體的做法如下:
  1. 記錄訪問來源:
    在Apache配置文件中設置日志格式為combined格式,這樣的日志中會包含擴展信息:其中有一個字段就是相應訪問的轉向來源:HTTP_REFERER,如果用戶是從某個搜索引擎的搜索結果中找到了你的網頁并點擊過來,日志中記錄的HTTP_REFERER就是用戶在搜索引擎結果頁面的URL,這個URL中包含了用戶查詢的關鍵詞。
  2. 在webalizer中缺省配置針對搜索引擎的統計:如何提取HTTP_REFERER中的關鍵詞
    webalizer中缺省有針對yahoo, google等國際流行搜索引擎的查詢格式:這里我增加了針對國內門戶站點的搜索引擎參數設置
    SearchEngine yahoo.com p=
    SearchEngine altavista.com q=
    SearchEngine google.com q=
    SearchEngine??? sina.com.cn word=
    SearchEngine??? baidu.com?? word=
    SearchEngine??? sohu.com??? word=
    SearchEngine??? 163.com q=

通過這樣設置webalizer統計時就會將HTTP_REFERER中來自搜索引擎的URL中的keyword提取出來,比如:所有來自google.com鏈接中,參數q的值都將被作為關鍵詞統計下來:,從匯總統計結果中,就可以發現用戶是根據什么關鍵詞找到你的次數,以及找到你的用戶最感興趣的是那些關鍵詞等,進一步的,在webalizer中有設置還可以將統計結果倒出成CSV格式的日志,便于以后導入數據庫進行歷史統計,做更深層次的數據挖掘等。

以前通過WEB日志的用戶分析主要是簡單的基于日志中的訪問時間/IP地址來源等,很明顯,基于搜索引擎關鍵詞的統計能得到的分析結果更豐富、更直觀。因此,搜索引擎服務的潛在商業價值幾乎是不言而喻的,也許這也是Yahoo!Altavista等傳統搜索引擎網站在門戶模式后重新開始重視搜索引擎市場的原因,看看Google的年度關鍵詞統計就知道了,在互聯網上有誰比搜索引擎更了解用戶對什么更感興趣呢?

請看本站的反相鏈接統計:http://www.chedong.com/log/2003_2.log
需要注意的是:由于Google針對Windows 2000中的IE使用的是UTF-8方式的編碼,因此很多統計有時候需要在UTF-8方式下查看才是正確字符顯示。從統計中能夠感受到:在使用水平比較高的IT開發人員中Google已經成為最常用的搜索引擎。而使用百度的用戶也已經大大超過了傳統的搜狐,新浪等門戶站點,因此傳統門戶網站在搜索引擎上的優勢將是非常脆弱的。而從技術的發展趨勢來看,以后還會有更多的利用互聯網媒體做更深層次數據挖掘的服務模式出現:

轉載自cnblog.org——“突發”文字可能揭示社會趨勢

在“新科學家”(New Scientist)在線雜志上,公布了康奈爾大學的一個新研究成果,引人注目,也許與Google 收購Pyra 的動機有關。

這所大學的計算機科學家 Jon Klenberg 開發了一個計算機算法,能夠識別一篇文章中某些文字的“突發”增長,而且他發現,這些“突發”增長的文字可以用來快速識別最新的趨勢和熱點問題,因此能夠更有效地篩選重要信息。過去很多搜索技術都采用了簡單計算文字/詞組出現頻率的方法,卻忽略了文字使用增加的速率。

Jon 特別指出,這種方法可以應用到大量Weblog上,以跟蹤社會趨勢,這對商業應用也很有潛力。例如,廣告商可以從成千上萬的個人Blog 中快速找到潛在的需求風尚。而且只要Blog 覆蓋話題范圍足夠大(實際上發展趨勢確實如此),這項技術對政治、社會、文化和經濟等領域也都會有實際意義了。

雖然Google 新聞的內部算法至今沒有公開,但是人們猜測這種完全由機器所搜集的頭條新聞應當不是Google搜索引擎中慣用的鴿子算法,很可能與這種“突發”判斷算法有關。如此說來,Google收購Blog工具供應商的舉動確實還有更深層次的遠見了。

- NewScientist.com news, Word 'bursts' may reveal online trends
- 還沒有寫完這些介紹,在 SlashDot 上也看到了很多有關這個發現的討論
<a >www.best-code.com</a>

參考資料:

面向Google搜索引擎的網站設計優化
http://www.google-search-engine-optimization.com/

關于Google的十個神話:
http://www.promotionbase.com/printTemplate.php?aid=971

如何評價一個網站的人氣
http://www.chedong.com/tech/link_pop_check.html

如何提高網站在Google中的排名——面向搜索引擎的廣告模式
http://www.chedong.com/tech/google_ads.html

Measuring Link Popularity
http://searchenginewatch.com/webmasters/popularity.html

Google の秘密 - PageRank 徹底解説
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html
這篇文章是在查"Google PageRank"的時候查到的,這篇文章不僅有一個算法說明,也是一個Google的weblog,記錄了很多關于Google的新聞和一些市場動態信息。

Google的海量處理機制:鴿子系統
http://www.google.com/technology/pigeonrank.html

WEB日值統計工具Webalizer
http://www.webalizer.org

Robots的說明:
http://bar.baidu.com/robots/
http://www.google.com/bot.html
搜索引擎通過一種程序robot(又稱spider),自動訪問互聯網上的網頁并獲取網頁信息。您可以在您的網站中創建一個純文本文件robots.txt,在這個文件中聲明該網站中哪些內容可以被robot訪問,哪些不可以。
www.best-code.com
原文出處:<a >http://www.chedong.com/tech/google.html</a>