提高網(wǎng)站在Google中的排名 ——面向搜索引擎的網(wǎng)站設(shè)計
Google排名優(yōu)化-面向搜索引擎的網(wǎng)站設(shè)計
內(nèi)容摘要:
目前中文網(wǎng)站在整個互聯(lián)網(wǎng)中的影響還比較小,這主要是由于中文網(wǎng)站總體的水平(技術(shù)上,內(nèi)容上)都還相對落后造成的,最主要的表現(xiàn)有:
- 行業(yè)知識:不知道搜索引擎對吸引的新用戶的重要性,在搜索引擎排名服務(wù)中追求“傻瓜相關(guān)”,購買一些其實沒有太多實際意義的行業(yè)關(guān)鍵詞。其實能夠用戶輸入的關(guān)鍵詞越多,其目標(biāo)性越強(qiáng),這樣的客戶價值越高。用戶能夠直接定位到產(chǎn)品具體內(nèi)容頁比到網(wǎng)站首頁有價值的多;
- 發(fā)布技術(shù):網(wǎng)站的網(wǎng)頁進(jìn)入Google的索引量非常小,主要是由于大量使用動態(tài)網(wǎng)頁造成的。需要將動態(tài)頁面鏈接改寫成靜態(tài)鏈接;
- 頁面設(shè)計:頁面標(biāo)題重復(fù),關(guān)鍵詞不突出,過渡使用JavaScript腳本/圖片/Flash等不適合搜索引擎索引的非文本形式;
SEO的目的是通過一些簡單的策略,讓網(wǎng)站自身的水平在互聯(lián)網(wǎng)中有一個真實的體現(xiàn)。
網(wǎng)站結(jié)構(gòu)設(shè)計中面向搜索引擎的優(yōu)化注意事項包括:
- 鏈接引用的重要性;
- 如何突出關(guān)鍵詞:網(wǎng)頁標(biāo)題、主題的設(shè)計;
- 頁面及站點結(jié)構(gòu)設(shè)計注意事項;
- 以及站點訪問統(tǒng)計的重要性等;
- Google的站點設(shè)計指南
什么是PageRank
Google等新一帶搜索引擎的優(yōu)勢之一在于不僅索引量很大,而且還將最好的結(jié)果排在搜索結(jié)果的最前面,具體的原理可以參考Google の秘密 - PageRank 徹底解説一文,PageRank簡單的說類似于科技論文中的引用機(jī)制:誰的論文被引用次數(shù)多,誰就是權(quán)威。在互聯(lián)網(wǎng)上PageRank就是基于網(wǎng)頁中相互鏈接關(guān)系的分析得出的。
此外,從計算方法角度闡述PageRank機(jī)制還有這篇文章:http://pr.efactory.de/里面有更詳細(xì)的PageRank算法說明和各種清晰的小型個案分析:
比如:子頁中導(dǎo)航條的重要性
B <=> A => C
Vs
B <=> A <=> C (好)
頁面數(shù)量因素:
B <=> A <=> C
Vs
F <=\ /=> G
B <=> A <=> C (好)
D <=/ \=> E
一個意想不到的結(jié)論:
(B <=> A <=> C) ( E <=> D <=> F)
Vs
(B <=> A <=> C) <=> ( E <=> D <=> F)
PageRank升高的只是被鏈接的2個首頁A和D,而網(wǎng)站子頁面的PageRank平均會略有下降。同時:一個網(wǎng)站進(jìn)入Google的索引量越大其受類似因素影響越小。
PageRank不對稱的頁面互鏈:
Google會用BadRank之類的算法進(jìn)行糾正,而且一個網(wǎng)頁著有來自“與其自身不相稱”的高PageRank站點的鏈接,而自身又缺少足夠數(shù)量和質(zhì)量的反相鏈接的話,其PageRank會自動降低為0,A(pr=7) <=> B(pr=0)
簡單的說就是:偶爾要被權(quán)威站點反相鏈接不算數(shù),要被足夠多的權(quán)威站點引用才能提高自身網(wǎng)頁的PageRank。
Web超鏈分析算法綜述(南京大學(xué)論文) 更多論文可以通過搜索:“filetype:pdf google pagerank anchor text bayesian”得到
鏈接就是一切
在互聯(lián)網(wǎng)的海洋中,最重要的就是互聯(lián)互通,不被其他網(wǎng)站引用的網(wǎng)站就是“信息孤島”。“酒好也怕藏的深”,也許這話說起來有點像垃圾郵件廣告,但事實就是這樣。所以如果做網(wǎng)站的目的不是孤芳自賞,就需要積極的推廣自己的網(wǎng)站。
通過搜索引擎推廣自己需要注意以下幾個方面:
- 以量取勝:不一定加入傳統(tǒng)門戶網(wǎng)站的分類目錄才是網(wǎng)站推廣,來自其他網(wǎng)站的任何反相鏈接都是有用的
網(wǎng)站推廣比較經(jīng)典的方式就是加入比較大型門戶網(wǎng)站的分類目錄,比如:Yahoo!,dmoz.org等。其實這里有一個誤區(qū):不一定非要加入大型網(wǎng)站的分類目錄才是網(wǎng)站推廣,因為現(xiàn)在搜索引擎已經(jīng)不再只是網(wǎng)站目錄的索引,而是更全面的網(wǎng)頁索引,所以無論來自其他網(wǎng)站任何地方的反相鏈接都是非常有價值的,哪怕是出現(xiàn)在新聞報道,論壇,郵件列表歸檔中。Blogger(Weblog的簡稱)們也許最深刻地理解了“鏈接就是一切”這句話的含義,由于Blog的內(nèi)容之間有大量的相互鏈接(他們之間利用RSS很容易進(jìn)行鏈接大量傳播),因此最經(jīng)常被引用的Blog頁面在搜索引擎中的排名往往比一些大型商業(yè)網(wǎng)站的頁面還要高。而WIKI這樣的文檔管理系統(tǒng)更加突出了良好結(jié)構(gòu),良好引用的特征。而目前很多網(wǎng)站通過在各種WIKI/留言簿中灌注垃圾留言的方法,這種方式是非常不可取的。這種鏈接不穩(wěn)定: - 以質(zhì)取勝:被PageRank高的網(wǎng)站引用能更快地提高PageRank
數(shù)量只是關(guān)鍵因素之一,來自PageRank高的頁面的鏈接還能更快的提高被鏈接目標(biāo)的PageRank,我只是將一些文章投稿在了ZDNet中國上,由于頁面上有文章出處鏈接,相應(yīng)網(wǎng)頁和網(wǎng)站整體的PageRank過了一段時間后就有了很大的提升。有時候被什么樣的網(wǎng)站引用有時候比引用次數(shù)多更重要。這里我要特別感謝的是,當(dāng)時ZDNet中國是唯一遵循了我的版權(quán)聲明的要求表明了文章出處,并且有反相鏈接的網(wǎng)站。
按照這個原則:能夠名列Yahoo!和DMOZ這樣的大型權(quán)威目錄的頭2層是非常有價值的。 - 了解搜索引擎的"價值觀":
Lucene簡介這篇文章被Jakarta.apache.org的lucene項目引用以后,這篇文章就成為了所有頁面中PageRank最高的頁面,而Google支持的一些項目,比如:Folding@Home,讓我一直懷疑他們對政府,教育和非盈利組織的站點有特別加分,畢竟.org .edu才代表了互聯(lián)網(wǎng)的實質(zhì):分權(quán)和共享。
但更合理的解釋是:.org很多都是開放技術(shù)平臺的開發(fā)者,他們會在首頁這樣的地方加入Powered By Apache, Power by FreeBSD之類的鏈接表示對其他開源平臺的尊重,所以象Apache, PHP, FreeBSD這樣的開源站點在GOOGLE中都有非常高的PageRank。而在.edu這些站點中,很多都是學(xué)術(shù)性比較強(qiáng)的文檔,以超鏈接形式標(biāo)明參考文獻(xiàn)的出處已經(jīng)成為一種習(xí)慣,而這也無疑正是PageRank最好的依據(jù)。
注意:不要通過Link Farm提高自身的站點排名:Google會懲罰那些主動鏈接到Link Farm站點以提高自身排名站點,相應(yīng)站點的頁面將不會被收入到索引中。但如果你的頁面被別的Link Farm鏈接了也不必?fù)?dān)心,因為這種被動的鏈接是不會被懲罰的。
- 不要吝嗇給其他網(wǎng)站的鏈接:如果一個網(wǎng)頁只有大量的進(jìn)入鏈接,而缺乏導(dǎo)出鏈接,也會被搜索引擎認(rèn)為是沒有價值的站點。保證你的網(wǎng)站能夠幫助搜索引擎更準(zhǔn)確地判斷哪些是對用戶最有價值的信息,也就是說如果你的網(wǎng)站只有外部反向鏈接而沒有導(dǎo)出鏈接的話,也會對你的網(wǎng)站在搜索結(jié)果中的表現(xiàn)帶來負(fù)面影響。當(dāng)然網(wǎng)站中連一個導(dǎo)出鏈接都沒有的情況非常罕見,除非你是刻意這么做。正常情況下大家都會自然地在網(wǎng)頁中加上一些其他網(wǎng)站的鏈接,帶領(lǐng)訪問者去到我們認(rèn)為重要或能夠提供更多有價值信息的地方,
另外在推廣自己網(wǎng)站之前也許首先需要了解自己網(wǎng)站目前在一些搜索引擎中的知名度,原理非常簡單,可以參考如何評價網(wǎng)站的人氣一文。
網(wǎng)站推廣只是手段,如何突出內(nèi)容、讓需要相關(guān)信息的用戶能夠盡快的找到你的網(wǎng)站才是目的,PageRank高并不代表像Yahoo!這樣的門戶站點就能在所有搜索結(jié)果中排名靠前,因為搜索引擎的結(jié)果是搜索關(guān)鍵詞在頁面中的匹配度和頁面的PageRank相結(jié)合的排名結(jié)果。因此第二個要點:如何突出關(guān)鍵詞。
如何突出關(guān)鍵詞:面向主題(Theme)的關(guān)鍵詞匹配
- Theme Engine正在逐步超過PR,成為結(jié)果排序中更主要的因素,可以比較一下以下現(xiàn)象:
- 為什么查“新聞”,“汽車”之類的文字,各種門戶網(wǎng)站的首頁不在第一位?要知道他們的頁面中都有相應(yīng)頻道的鏈接文字的
- 一篇新聞頁面中,搜索引擎如何不通過模板匹配,自動將新聞的主體和頁面中的頁頭,欄目導(dǎo)航條,頁尾等部分的內(nèi)容區(qū)分開的?
首先將能夠描述一個頁面內(nèi)容的分成以下幾種類型:
- 鏈入文字描述:inbound link text
http://www.searchenginedictionary.com/terms-inbound-link.shtml
- HTML頁面標(biāo)題:title 好標(biāo)題一般會將頁面中最重要的關(guān)鍵詞放在最前面,比如:ABC-10型吸塵器 - XX家電城
- HTML內(nèi)容主體:content text
- 鏈出文字:outbound link text
一個頁面中關(guān)鍵詞命中權(quán)重:鏈入文字 > HTML標(biāo)題文字 > HTML頁面主體內(nèi)容 >> 出鏈文字,以上現(xiàn)象就比較好解釋了。
鏈入文字是頁面上看不見的,但鏈入文字對被鏈接頁面有巨大的作用:在現(xiàn)代搜索引擎在關(guān)鍵詞匹配的過程中,匹配的過程不只看當(dāng)前頁面的內(nèi)容摘要:很大程度上,不只看這個網(wǎng)頁自己說自己有什么內(nèi)容,還要看別人如何鏈接時,如何描述你的網(wǎng)站別人怎么稱呼你,比你自己說自己更重要。。
比如查:“世界衛(wèi)生組織”,返回結(jié)果中有 http://www.who.int/ 而這個頁面中是沒有中文的,之所以能匹配上,是因為很多鏈接它的中文網(wǎng)站使用了:<a >世界衛(wèi)生組織</a>,所以,這個頁面中不存在的中文關(guān)鍵詞也成為了頁面摘要的一部分。這樣一想,就可以知道鏈出鏈接的文字其實是為被鏈接的子頻道首頁或者內(nèi)容詳情頁服務(wù)的。對自身頁面的關(guān)鍵詞密度只有負(fù)面的影響,這也是Google建議一個頁面中鏈接不要超過100個的原因:他根本不索引100個鏈接以后的內(nèi)容。按照以上規(guī)則,搜索引擎將一篇新聞詳情頁中的新聞內(nèi)容提取出來就是把頁面上所有帶HTTP鏈接的文字都去掉,就是新聞的內(nèi)容部分了,更精確一些可以通過取最長文本段落等策略實現(xiàn);而很多網(wǎng)站首頁或頻道首頁中幾乎全部都是鏈接,經(jīng)過搜索引擎分析的結(jié)果就是:什么內(nèi)容也沒有,能夠被命中的關(guān)鍵詞僅僅是別人鏈接你用的“網(wǎng)站首頁”和頻道標(biāo)題Title中的站點名稱等的幾個關(guān)鍵詞,而頁面中其他的文字則遠(yuǎn)遠(yuǎn)不如相應(yīng)子頻道和具體內(nèi)容頁面的匹配度高,而搜索引擎能夠通過以上規(guī)則,讓用戶更快的直接定位到有具體內(nèi)容的內(nèi)容詳情頁面。因此希望通過一個首頁,盡可能多的命中所有希望推廣的關(guān)鍵詞是不可能的。讓網(wǎng)頁盡可能多的進(jìn)入搜索引擎的索引,然后把握好整個網(wǎng)站的主題風(fēng)格是非常重要的,讓網(wǎng)站的主題關(guān)鍵詞能夠比較均勻的按照金字塔模式分布到網(wǎng)站中可以參考:網(wǎng)站的主題金字塔設(shè)計 網(wǎng)站名稱(用戶通過1-2個抽象關(guān)鍵詞)
/ \
子頻道1 子頻道2 (用戶通過2-3個關(guān)鍵詞命中)
/ \ / \
產(chǎn)品1 產(chǎn)品2 文章1 文章2 (用戶通過3-4個關(guān)鍵詞命中:這種用戶最有價值)
- 不要空著標(biāo)題:空著<title></title>無異于浪費了最有價值的一塊陣地;
不要使用meta keywords/description
傳統(tǒng)的頁面中,HTML頁面中會有類似以下的隱含信息,用于說明當(dāng)前網(wǎng)頁的主要內(nèi)容關(guān)鍵字:
<header>
<meta name="keyword" content="mp3 download music...">
</header>
后來由于這種人工添加關(guān)鍵詞的方式被濫用,大量網(wǎng)頁中為了提高被搜索引擎命中的概率,經(jīng)常添加一些和實際網(wǎng)頁內(nèi)容無關(guān)的熱門關(guān)鍵比如:“music mp3 download”等,所以新一代的搜索引擎已經(jīng)不再關(guān)心頁面頭文件中的人工meta keyword聲明,而頁面標(biāo)題在搜索引擎的關(guān)鍵詞的命中命中過程中往往有著更高的比重,如果一個關(guān)鍵詞在標(biāo)題中命中會比在頁面中命中有更高的得分,從而在相應(yīng)的搜索結(jié)果排名中更靠前。 - 標(biāo)題長度和內(nèi)容:不要過長,一般在40個字(80個字節(jié))以內(nèi),并充分突出關(guān)鍵詞的比重;
如果更長的標(biāo)題搜索引擎一般會忽略掉,所以要盡可能將主要關(guān)鍵詞放在標(biāo)題靠前的位置。省略掉不必要的形容詞吧,畢竟用戶主要通過名詞來找到需要的內(nèi)容。標(biāo)題內(nèi)容:盡量用一些別人可以通過關(guān)鍵詞找到的字眼(也別太過頭,如果標(biāo)題中的字眼超過1半內(nèi)容中都沒有,有可能被搜索引擎排除出索引),因此基于web日志中來自其他搜索引擎的關(guān)鍵詞查詢統(tǒng)計非常必要。 - 如果網(wǎng)頁很多的話,盡量使用不同的網(wǎng)頁標(biāo)題,爭取讓自己網(wǎng)站的內(nèi)容更多的進(jìn)入搜索引擎索引范圍;
因為搜索引擎會根據(jù)頁面內(nèi)容的相似度把一些內(nèi)容當(dāng)成重復(fù)頁面排除出索引范圍;
http://www.chedong.com/phpMan.php是我的網(wǎng)站上的一個小應(yīng)用:一個web界面的unix命令手冊(man page),在以前的設(shè)計中所有動態(tài)頁面使用的都是同樣的標(biāo)題:"phpMan: man page /perldoc /info page web interface" ,Google索引了大約3000多個頁面,后來我將頁面標(biāo)題改成了"phpMan: [命令名]"這樣的格式,比如:"phpMan: ls",這樣大部分動態(tài)頁面的標(biāo)題就都不一樣了,一個月后Google從這個頁面入口索引了大約6000個頁面。因此,如果網(wǎng)站中很多網(wǎng)頁都使用相同的標(biāo)題,比如:“新聞頻道”,“論壇”,這些頁面中很大一部分就會被排重機(jī)制忽略掉。 - 除了<title></title>外,還可以用<h1></h1>標(biāo)題行突出內(nèi)容主題,加強(qiáng)標(biāo)題的效果;
在我的網(wǎng)站設(shè)計中:我會把用<h1>[標(biāo)題]</h1>這樣的模板把標(biāo)題突出顯示,而不是通過改變字體的方式突出標(biāo)題。
其他網(wǎng)站設(shè)計提示
- 靜態(tài)鏈接:Blog網(wǎng)站另外一個優(yōu)勢在于其網(wǎng)頁是靜態(tài)鏈接:動態(tài)網(wǎng)頁占到整個互聯(lián)網(wǎng)內(nèi)容的90%以上。各個搜索引擎其實能夠表現(xiàn)的都只不過是互聯(lián)網(wǎng)的冰山一角(3-5%),不同的只是誰讓優(yōu)質(zhì)網(wǎng)頁排名靠前的策略更優(yōu)秀而已:大部分搜索引擎都認(rèn)為靜態(tài)鏈接的網(wǎng)頁是優(yōu)質(zhì)網(wǎng)頁,Google在優(yōu)先抓取索引的網(wǎng)頁中70%以上是不帶參數(shù)鏈接的靜態(tài)網(wǎng)頁。而且即使同樣的內(nèi)容,靜態(tài)網(wǎng)頁也會比動態(tài)網(wǎng)頁權(quán)重高:很容易理解:query?a=1&b=2這樣的鏈接由于參數(shù)順序顛倒的query?b=2&a=1完全相同。盡量使用靜態(tài)網(wǎng)頁:目前能夠動態(tài)網(wǎng)頁進(jìn)行全面的索引還比較難,而即使是Google也更不會索引所有的內(nèi)容,因此很少會對參數(shù)超過2個的動態(tài)網(wǎng)頁進(jìn)行進(jìn)一步的抓取和分析。以下是一個phpBB論壇頁面返回的HTTP頭信息:
HTTP/1.1 200 OK Date: Wed, 28 Jan 2004 12:58:54 GMT Server: Apache/1.3.29 (Unix) mod_gzip/1.3.26.1a PHP/4.3.4 X-Powered-By: PHP/4.3.4 Set-Cookie: phpBB_data=a%3A0%3A%7B%7D; expires=Thu, 27-Jan-2005 12:58:54 GMT; path=/; Set-Cookie: phpBB_sid=09f67a83ee108ecbf11e35bb6f36fcec; path=/; Content-Encoding: gzip Cache-Control: private, pre-check=0, post-check=0, max-age=0 Expires: 0 Pragma: no-cache Connection: close Content-Type: text/html
為了避免隱私問題:Googlebot可以通過對頁面http header中的session id和session cookie進(jìn)行一些甄別,這樣很多需要認(rèn)證信息的論壇內(nèi)容就無法進(jìn)入索引了。
總體上說Google喜歡新的,靜態(tài)的內(nèi)容。因此無論從效率上講還是方便搜索引擎收錄:使用內(nèi)容發(fā)布系統(tǒng)將網(wǎng)站內(nèi)容發(fā)布成靜態(tài)網(wǎng)頁都是非常必要的,從某種程度上說google friendly = anonymous cache friendly。
比如:http://www.chedong.com/phpMan.php/man/intro/3
比http://www.chedong.com/phpMan.php?mode=man¶meter=intro§ion=3這樣的鏈接更容易進(jìn)入搜索引擎的索引。而且在URL中的命中也能突出關(guān)鍵詞。 - 能夠進(jìn)入Google索引的頁面數(shù)量越多越好。用類似以下的腳本可以統(tǒng)計自己的網(wǎng)站被搜索引擎索引的情況。
#!/bin/sh YESTERDAY=`date -d yesterday +%Y%m%d` # for FreeBSD: YESTERDAY=`date -v-1d +%Y%m%d` LOG_FILE='/home/apache/logs/access_log' grep -i Googlebot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.googlebot.txt grep -i baiduspider $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.baiduspider.txt grep -i msnbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.msnbot.txt grep -i inktomi $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.inktomi.txt grep -i openbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort |uniq -c | sort -rn > spider/$YESTERDAY.openbot.txt
- 網(wǎng)站目錄結(jié)構(gòu)要扁平,因為每深一級目錄,PAGERANK降低1-2個檔次。假設(shè)首頁是3,其子可能目錄就是1了,更深可能就無法列入評級范圍了。
- 表現(xiàn)和內(nèi)容的分離:“綠色”網(wǎng)頁
網(wǎng)頁中的javascript和css盡可能和網(wǎng)頁分離,一方面提高代碼重用度(也方便頁面緩存),另外一方面,由于有效內(nèi)容占網(wǎng)頁長度的百分比高,也能提高相關(guān)關(guān)鍵詞在頁面中的比重也增加了。總之,應(yīng)該鼓勵遵循w3c的規(guī)范,使用更規(guī)范的XHTML和XML作為顯示格式便于內(nèi)容更長時間的保存。 - 讓所有的頁面都有能夠快速入口:站點地圖,方便網(wǎng)頁爬蟲(spider)快速遍歷網(wǎng)站所有需要發(fā)布的內(nèi)容。如果首頁就是用Flash或圖片進(jìn)入的話,無異于將搜索引擎拒之門外,除了UI設(shè)計的用戶友好外,spider friendly也是非常重要的。
- 保持網(wǎng)站自身的健康:經(jīng)常利用壞鏈檢查工具檢查網(wǎng)站中是否有死鏈。
- 保持網(wǎng)頁內(nèi)容/鏈接的穩(wěn)定性和持久性:在搜索引擎索引中網(wǎng)頁存在的歷史也是一個比較重要的因素,而且歷史比較久的網(wǎng)頁被鏈接的幾率越高。為了保證自己網(wǎng)頁能夠被比較持久的被其他網(wǎng)站的頁面引用,如果自己網(wǎng)頁中有鏈接更新時,最好能保留舊的頁面并做好鏈接轉(zhuǎn)向,以保持內(nèi)容的連續(xù)性。要知道,把一個網(wǎng)站和內(nèi)容在搜索引擎中的排名“培養(yǎng)”的很高是一件非常不容易的事情,誰都不希望好不容易自己的內(nèi)容被別人找到了,點擊卻是“404 頁面不存在”吧,因此站點管理員對自身站點error.log的分析也是非常必要的。
- 文件類型因素:Google有對PDF, Word(Power Point, Excel), PS文檔的索引能力,由于這種文檔的內(nèi)容比一般的HTML經(jīng)過了更多的整理,學(xué)術(shù)價值一般比較高,所以這些類型的文檔天生就比一般的HTML類型的文檔 PageRank要高。因此,對于比較重要的文檔:技術(shù)白皮書,F(xiàn)AQ,安裝文檔等建議使用PDF PS等高級格式存取,這樣在搜索結(jié)果中也能獲得比較靠前的位置。
- 常常能發(fā)現(xiàn)門戶站點的一條新聞往往比其他站點的首頁排名還要靠前。因此一個站點總體PageRank提高了以后,往往自身一些并不重要的內(nèi)容也會被同那些高PageRank的內(nèi)容一起帶入被搜索引擎優(yōu)先查詢的列表中。這樣經(jīng)常造成很多大的開發(fā)站點的郵件列表歸檔往往比其他站點的首頁PageRank還要高。
知己知彼——站點訪問統(tǒng)計/日志分析挖掘的重要性
網(wǎng)站設(shè)計不僅僅只是被動的迎合搜索引擎的索引,更重要是充分利用搜索引擎帶來的流量進(jìn)行更深層次的用戶行為分析。目前,來自搜索引擎關(guān)鍵詞統(tǒng)計幾乎是各種WEB日志分析工具的標(biāo)準(zhǔn)功能,相信商業(yè)日志統(tǒng)計工具在這方面應(yīng)該會有更強(qiáng)化的實現(xiàn)。WEB日志統(tǒng)計這個功能如此重要,以至于新的RedHat 8中已經(jīng)將日志分析工具webalizer作為標(biāo)準(zhǔn)的服務(wù)器配置應(yīng)用之一。
- 記錄訪問來源:
在Apache配置文件中設(shè)置日志格式為combined格式,這樣的日志中會包含擴(kuò)展信息:其中有一個字段就是相應(yīng)訪問的轉(zhuǎn)向來源: HTTP_REFERER,如果用戶是從某個搜索引擎的搜索結(jié)果中找到了你的網(wǎng)頁并點擊過來,日志中記錄的HTTP_REFERER就是用戶在搜索引擎結(jié)果頁面的URL,這個URL中包含了用戶查詢的關(guān)鍵詞。
- 在webalizer中缺省配置針對搜索引擎的統(tǒng)計:如何提取HTTP_REFERER中的關(guān)鍵詞
webalizer中缺省有針對yahoo, google等國際流行搜索引擎的查詢格式:這里我增加了針對國內(nèi)門戶站點的搜索引擎參數(shù)設(shè)置
SearchEngine yahoo.com p=
SearchEngine altavista.com q=
SearchEngine google.com q=
SearchEngine sina.com.cn word=
SearchEngine baidu.com word=
SearchEngine sohu.com word=
SearchEngine 163.com q=
通過這樣設(shè)置webalizer統(tǒng)計時就會將HTTP_REFERER中來自搜索引擎的URL中的keyword提取出來,比如:所有來自 google.com鏈接中,參數(shù)q的值都將被作為關(guān)鍵詞統(tǒng)計下來:,從匯總統(tǒng)計結(jié)果中,就可以發(fā)現(xiàn)用戶是根據(jù)什么關(guān)鍵詞找到你的次數(shù),以及找到你的用戶最感興趣的是那些關(guān)鍵詞等,進(jìn)一步的,在webalizer中有設(shè)置還可以將統(tǒng)計結(jié)果倒出成CSV格式的日志,便于以后導(dǎo)入數(shù)據(jù)庫進(jìn)行歷史統(tǒng)計,做更深層次的數(shù)據(jù)挖掘等。
以前通過WEB日志的用戶分析主要是簡單的基于日志中的訪問時間/IP地址來源等,很明顯,基于搜索引擎關(guān)鍵詞的統(tǒng)計能得到的分析結(jié)果更豐富、更直觀。因此,搜索引擎服務(wù)的潛在商業(yè)價值幾乎是不言而喻的,也許這也是Yahoo! Altavista等傳統(tǒng)搜索引擎網(wǎng)站在門戶模式后重新開始重視搜索引擎市場的原因,看看Google的年度關(guān)鍵詞統(tǒng)計就知道了,在互聯(lián)網(wǎng)上有誰比搜索引擎更了解用戶對什么更感興趣呢?
請看本站的反相鏈接統(tǒng)計:http://www.chedong.com/log/2003_6.log
需要注意的是:由于Google針對Windows 2000中的IE使用的是UTF-8方式的編碼,因此很多統(tǒng)計有時候需要在UTF-8方式下查看才是正確字符顯示。從統(tǒng)計中能夠感受到:在使用水平比較高的IT開發(fā)人員中Google已經(jīng)成為最常用的搜索引擎。而使用百度的用戶也已經(jīng)大大超過了傳統(tǒng)的搜狐,新浪等門戶站點,因此傳統(tǒng)門戶網(wǎng)站在搜索引擎上的優(yōu)勢將是非常脆弱的。而從技術(shù)的發(fā)展趨勢來看,以后還會有更多的利用互聯(lián)網(wǎng)媒體做更深層次數(shù)據(jù)挖掘的服務(wù)模式出現(xiàn):
轉(zhuǎn)載自cnblog.org——“突發(fā)”文字可能揭示社會趨勢
在“新科學(xué)家”(New Scientist)在線雜志上,公布了康奈爾大學(xué)的一個新研究成果,引人注目,也許與Google 收購Pyra 的動機(jī)有關(guān)。
這所大學(xué)的計算機(jī)科學(xué)家 Jon Klenberg 開發(fā)了一個計算機(jī)算法,能夠識別一篇文章中某些文字的“突發(fā)”增長,而且他發(fā)現(xiàn),這些“突發(fā)”增長的文字可以用來快速識別最新的趨勢和熱點問題,因此能夠更有效地篩選重要信息。過去很多搜索技術(shù)都采用了簡單計算文字/詞組出現(xiàn)頻率的方法,卻忽略了文字使用增加的速率。
Jon 特別指出,這種方法可以應(yīng)用到大量Weblog上,以跟蹤社會趨勢,這對商業(yè)應(yīng)用也很有潛力。例如,廣告商可以從成千上萬的個人Blog 中快速找到潛在的需求風(fēng)尚。而且只要Blog 覆蓋話題范圍足夠大(實際上發(fā)展趨勢確實如此),這項技術(shù)對政治、社會、文化和經(jīng)濟(jì)等領(lǐng)域也都會有實際意義了。
雖然Google 新聞的內(nèi)部算法至今沒有公開,但是人們猜測這種完全由機(jī)器所搜集的頭條新聞應(yīng)當(dāng)不是Google搜索引擎中慣用的鴿子算法,很可能與這種“突發(fā)”判斷算法有關(guān)。如此說來,Google收購Blog工具供應(yīng)商的舉動確實還有更深層次的遠(yuǎn)見了。
- NewScientist.com news,
- 還沒有寫完這些介紹,在 SlashDot 上也看到了很多有關(guān)這個發(fā)現(xiàn)的討論
附:Google官方的站點設(shè)計指南
- Make a site with a clear hierarchy and text links. Every page should be reachable from at least one static text link. 讓網(wǎng)站有著清晰的結(jié)構(gòu)和文本鏈接,所有的頁面至少要有一個靜態(tài)文本鏈接入口
批注:盡量不要用圖片和JAVASCRIPT - Offer a site map to your users with links that point to the important parts of your site. If the site map is larger than 100 or so links, you may want to break the site map into separate pages.
為用戶提供一個站點地圖:轉(zhuǎn)向網(wǎng)站的重要部分。如果站點地圖頁面超過100個鏈接,則需要將頁面分成多個頁面。
批注:索引頁不要超過100個鏈接:SPIDER只考慮頁面中頭100個鏈接 - Create a useful, information-rich site and write pages that clearly and accurately describe your content.
用一些有用的,信息量豐富的站點,清晰并正確的描述你的信息。 - Think about the words users would type to find your pages, and make sure that your site actually includes those words within it.
想像用戶可能用來找到你的關(guān)鍵詞,并保證這些關(guān)鍵詞在網(wǎng)站中出現(xiàn)。
批注:少用“最大”,“最好”之類的形容詞,用用戶最關(guān)心的詞,比如:下載,歌星名字,而不是一些抽象名詞。 - Try to use text instead of images to display important names, content, or links. The Google crawler doesn't recognize text contained in images.
盡可能使用文本,而不是圖片顯示重要的名稱,內(nèi)容和鏈接。GOOGLE的機(jī)器人不認(rèn)識圖片中的文字。 - Make sure that your TITLE and ALT tags are descriptive and accurate.
保證:頁面的TITLE和ALT標(biāo)記正確的精確描述 - Check for broken links and correct HTML.
檢查壞鏈并修正這些HTML錯誤。 - If you decide to use dynamic pages (i.e., the URL contains a '?' character), be aware that not every search engine spider crawls dynamic pages as well as static pages. It helps to keep the parameters short and the number of them small.
如果你打算使用動態(tài)頁面:鏈接中包含"?",必須了解:并非所有的搜索引擎的機(jī)器人能想對待靜態(tài)頁面一樣對待動態(tài)頁面,保持動態(tài)頁面的參數(shù)盡可能的少也會很有幫助。 - Keep the links on a given page to a reasonable number (fewer than 100).
讓一個頁面中的鏈接少于100個。
批注:用lynx -dump http://www.chedong.com 可以模擬從robot角度看到的頁面。其最后有鏈接統(tǒng)計
輸出類似:
[1]Google Free Search _______________________________ Google Search
(_) Search WWW (_) Search chedong.com
更 新 [2]站點地圖 / Site Map [3]留 言簿 / Guest Book [4]意見反饋 /
Feed Back
...
References
Visible links
1. http://www.google.com/services/free.html
2. http://www.chedong.com/sitemap.html#sitemap
3. http://www.chedong.com/guestbook/
4. http://www.chedong.com/formmail.htm
...
Hidden links:
50. http://www.chedong.com/bbcweb/
...
搜索引擎的宗旨在于提取互聯(lián)網(wǎng)中質(zhì)量最好的內(nèi)容提供給用戶,任何有利于幫助用戶獲得相對公正,優(yōu)質(zhì)內(nèi)容的策略都是搜索引擎追求目標(biāo)。PageRank是一個非常好的策略,但是并非所有策略都是基于非常復(fù)雜的算法。
從搜索引擎看來什么是互聯(lián)網(wǎng)中“好”的內(nèi)容呢?
- 首先:互聯(lián)網(wǎng)大約是8G個網(wǎng)頁,而且以每天2M的速度增長的。其中80%以上是動態(tài)網(wǎng)頁,而占總量20%的靜態(tài)網(wǎng)頁就是一個相對比較簡單的過濾規(guī)則。
- 其次:用戶友好(User friendly)也是很重要的方面,搜索引擎利用算法幫助提升這些優(yōu)質(zhì)網(wǎng)站,包括:通過CSS將內(nèi)容和表現(xiàn)分離:較少的javascript和frame結(jié)構(gòu),spider本身也很難深入抓取這些網(wǎng)頁:Javascript和frame結(jié)構(gòu)大部分是廣告。
- 標(biāo)題明確:無標(biāo)題,重復(fù)標(biāo)題或者標(biāo)題SPAM(類似于:游戲游戲游戲游戲游戲游戲這樣的標(biāo)題)進(jìn)行過濾或降低得分頁面大小:因為頁面過大會導(dǎo)致用戶下載緩慢,所以很多引擎只計算頁面大小在100k以內(nèi)的網(wǎng)頁。
- 鏈接引用:不僅需要有鏈接鏈入,也需要幫助用戶找到其他更有價值的內(nèi)容;
- 文件類型:PDF和DOC等專業(yè)文檔和來自edu,gov等非贏利網(wǎng)站的內(nèi)容;
- 鏈入網(wǎng)站的文字:所有用戶不可見的因素全部被忽略。此外:用戶搜索的行為本身也被Google記錄,可能對目標(biāo)網(wǎng)站的主題相關(guān)度有幫助。
參考資料:
面向Google搜索引擎的網(wǎng)站設(shè)計優(yōu)化
http://www.google-search-engine-optimization.com/
如何評價一個網(wǎng)站的人氣
http://www.chedong.com/tech/link_pop_check.html
如何提高網(wǎng)站在Google中的排名——面向搜索引擎的廣告模式
http://www.chedong.com/tech/google_ads.html
如何提高網(wǎng)站在Google中的排名——面向搜索引擎的網(wǎng)站鏈接設(shè)計
http://www.chedong.com/tech/google_url.html
Google不斷改進(jìn)相應(yīng)的算法:HillTop
Hilltop: A Search Engine based on Expert Documents
Google の秘密 - PageRank 徹底解説
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html
這篇文章是在查"Google PageRank"的時候查到的,這篇文章不僅有一個算法說明,也是一個Google的weblog,記錄了很多關(guān)于Google的新聞和一些市場動態(tài)信息。
Google 的秘密- PageRank 徹底解說 中文版
更詳細(xì)的PageRank算法說明:
http://pr.efactory.de/
WEB日志統(tǒng)計工具AWStats的使用:增加了Unicode的解碼和中國主要門戶搜索的定義
http://www.chedong.com/tech/awstats.html
Robots的說明:
http://bar.baidu.com/robots/
http://www.google.com/bot.html
搜索引擎通過一種程序robot(又稱spider),自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息。您可以在您的網(wǎng)站中創(chuàng)建一個純文本文件 robots.txt,在這個文件中聲明該網(wǎng)站中哪些內(nèi)容可以被robot訪問,哪些不可以。
反Google站點:觀點也很有趣
http://www.google-watch.org/
關(guān)于Google的WebLog
http://google.blogspace.com/
搜索引擎相關(guān)論壇
http://searchengineforums.com/
http://searchenginewatch.com
http://www.webmasterworld.com/
posted @ 2008-01-04 09:43 風(fēng)雨兼程 閱讀(266) | 評論 (0) | 編輯 收藏