提高網(wǎng)站在Google中的排名 ——面向搜索引擎的網(wǎng)站設(shè)計(jì)
Google排名優(yōu)化-面向搜索引擎的網(wǎng)站設(shè)計(jì)
內(nèi)容摘要:
目前中文網(wǎng)站在整個(gè)互聯(lián)網(wǎng)中的影響還比較小,這主要是由于中文網(wǎng)站總體的水平(技術(shù)上,內(nèi)容上)都還相對(duì)落后造成的,最主要的表現(xiàn)有:
- 行業(yè)知識(shí):不知道搜索引擎對(duì)吸引的新用戶的重要性,在搜索引擎排名服務(wù)中追求“傻瓜相關(guān)”,購買一些其實(shí)沒有太多實(shí)際意義的行業(yè)關(guān)鍵詞。其實(shí)能夠用戶輸入的關(guān)鍵詞越多,其目標(biāo)性越強(qiáng),這樣的客戶價(jià)值越高。用戶能夠直接定位到產(chǎn)品具體內(nèi)容頁比到網(wǎng)站首頁有價(jià)值的多;
- 發(fā)布技術(shù):網(wǎng)站的網(wǎng)頁進(jìn)入Google的索引量非常小,主要是由于大量使用動(dòng)態(tài)網(wǎng)頁造成的。需要將動(dòng)態(tài)頁面鏈接改寫成靜態(tài)鏈接;
- 頁面設(shè)計(jì):頁面標(biāo)題重復(fù),關(guān)鍵詞不突出,過渡使用JavaScript腳本/圖片/Flash等不適合搜索引擎索引的非文本形式;
SEO的目的是通過一些簡單的策略,讓網(wǎng)站自身的水平在互聯(lián)網(wǎng)中有一個(gè)真實(shí)的體現(xiàn)。
網(wǎng)站結(jié)構(gòu)設(shè)計(jì)中面向搜索引擎的優(yōu)化注意事項(xiàng)包括:
- 鏈接引用的重要性;
- 如何突出關(guān)鍵詞:網(wǎng)頁標(biāo)題、主題的設(shè)計(jì);
- 頁面及站點(diǎn)結(jié)構(gòu)設(shè)計(jì)注意事項(xiàng);
- 以及站點(diǎn)訪問統(tǒng)計(jì)的重要性等;
- Google的站點(diǎn)設(shè)計(jì)指南
什么是PageRank
Google等新一帶搜索引擎的優(yōu)勢(shì)之一在于不僅索引量很大,而且還將最好的結(jié)果排在搜索結(jié)果的最前面,具體的原理可以參考Google の秘密 - PageRank 徹底解説一文,PageRank簡單的說類似于科技論文中的引用機(jī)制:誰的論文被引用次數(shù)多,誰就是權(quán)威。在互聯(lián)網(wǎng)上PageRank就是基于網(wǎng)頁中相互鏈接關(guān)系的分析得出的。
此外,從計(jì)算方法角度闡述PageRank機(jī)制還有這篇文章:http://pr.efactory.de/里面有更詳細(xì)的PageRank算法說明和各種清晰的小型個(gè)案分析:
比如:子頁中導(dǎo)航條的重要性
B <=> A => C
Vs
B <=> A <=> C (好)
頁面數(shù)量因素:
B <=> A <=> C
Vs
F <=\ /=> G
B <=> A <=> C (好)
D <=/ \=> E
一個(gè)意想不到的結(jié)論:
(B <=> A <=> C) ( E <=> D <=> F)
Vs
(B <=> A <=> C) <=> ( E <=> D <=> F)
PageRank升高的只是被鏈接的2個(gè)首頁A和D,而網(wǎng)站子頁面的PageRank平均會(huì)略有下降。同時(shí):一個(gè)網(wǎng)站進(jìn)入Google的索引量越大其受類似因素影響越小。
PageRank不對(duì)稱的頁面互鏈:
Google會(huì)用BadRank之類的算法進(jìn)行糾正,而且一個(gè)網(wǎng)頁著有來自“與其自身不相稱”的高PageRank站點(diǎn)的鏈接,而自身又缺少足夠數(shù)量和質(zhì)量的反相鏈接的話,其PageRank會(huì)自動(dòng)降低為0,A(pr=7) <=> B(pr=0)
簡單的說就是:偶爾要被權(quán)威站點(diǎn)反相鏈接不算數(shù),要被足夠多的權(quán)威站點(diǎn)引用才能提高自身網(wǎng)頁的PageRank。
Web超鏈分析算法綜述(南京大學(xué)論文) 更多論文可以通過搜索:“filetype:pdf google pagerank anchor text bayesian”得到
鏈接就是一切
在互聯(lián)網(wǎng)的海洋中,最重要的就是互聯(lián)互通,不被其他網(wǎng)站引用的網(wǎng)站就是“信息孤島”。“酒好也怕藏的深”,也許這話說起來有點(diǎn)像垃圾郵件廣告,但事實(shí)就是這樣。所以如果做網(wǎng)站的目的不是孤芳自賞,就需要積極的推廣自己的網(wǎng)站。
通過搜索引擎推廣自己需要注意以下幾個(gè)方面:
- 以量取勝:不一定加入傳統(tǒng)門戶網(wǎng)站的分類目錄才是網(wǎng)站推廣,來自其他網(wǎng)站的任何反相鏈接都是有用的
網(wǎng)站推廣比較經(jīng)典的方式就是加入比較大型門戶網(wǎng)站的分類目錄,比如:Yahoo!,dmoz.org等。其實(shí)這里有一個(gè)誤區(qū):不一定非要加入大型網(wǎng)站的分類目錄才是網(wǎng)站推廣,因?yàn)楝F(xiàn)在搜索引擎已經(jīng)不再只是網(wǎng)站目錄的索引,而是更全面的網(wǎng)頁索引,所以無論來自其他網(wǎng)站任何地方的反相鏈接都是非常有價(jià)值的,哪怕是出現(xiàn)在新聞報(bào)道,論壇,郵件列表歸檔中。Blogger(Weblog的簡稱)們也許最深刻地理解了“鏈接就是一切”這句話的含義,由于Blog的內(nèi)容之間有大量的相互鏈接(他們之間利用RSS很容易進(jìn)行鏈接大量傳播),因此最經(jīng)常被引用的Blog頁面在搜索引擎中的排名往往比一些大型商業(yè)網(wǎng)站的頁面還要高。而WIKI這樣的文檔管理系統(tǒng)更加突出了良好結(jié)構(gòu),良好引用的特征。而目前很多網(wǎng)站通過在各種WIKI/留言簿中灌注垃圾留言的方法,這種方式是非常不可取的。這種鏈接不穩(wěn)定: - 以質(zhì)取勝:被PageRank高的網(wǎng)站引用能更快地提高PageRank
數(shù)量只是關(guān)鍵因素之一,來自PageRank高的頁面的鏈接還能更快的提高被鏈接目標(biāo)的PageRank,我只是將一些文章投稿在了ZDNet中國上,由于頁面上有文章出處鏈接,相應(yīng)網(wǎng)頁和網(wǎng)站整體的PageRank過了一段時(shí)間后就有了很大的提升。有時(shí)候被什么樣的網(wǎng)站引用有時(shí)候比引用次數(shù)多更重要。這里我要特別感謝的是,當(dāng)時(shí)ZDNet中國是唯一遵循了我的版權(quán)聲明的要求表明了文章出處,并且有反相鏈接的網(wǎng)站。
按照這個(gè)原則:能夠名列Yahoo!和DMOZ這樣的大型權(quán)威目錄的頭2層是非常有價(jià)值的。 - 了解搜索引擎的"價(jià)值觀":
Lucene簡介這篇文章被Jakarta.apache.org的lucene項(xiàng)目引用以后,這篇文章就成為了所有頁面中PageRank最高的頁面,而Google支持的一些項(xiàng)目,比如:Folding@Home,讓我一直懷疑他們對(duì)政府,教育和非盈利組織的站點(diǎn)有特別加分,畢竟.org .edu才代表了互聯(lián)網(wǎng)的實(shí)質(zhì):分權(quán)和共享。
但更合理的解釋是:.org很多都是開放技術(shù)平臺(tái)的開發(fā)者,他們會(huì)在首頁這樣的地方加入Powered By Apache, Power by FreeBSD之類的鏈接表示對(duì)其他開源平臺(tái)的尊重,所以象Apache, PHP, FreeBSD這樣的開源站點(diǎn)在GOOGLE中都有非常高的PageRank。而在.edu這些站點(diǎn)中,很多都是學(xué)術(shù)性比較強(qiáng)的文檔,以超鏈接形式標(biāo)明參考文獻(xiàn)的出處已經(jīng)成為一種習(xí)慣,而這也無疑正是PageRank最好的依據(jù)。
注意:不要通過Link Farm提高自身的站點(diǎn)排名:Google會(huì)懲罰那些主動(dòng)鏈接到Link Farm站點(diǎn)以提高自身排名站點(diǎn),相應(yīng)站點(diǎn)的頁面將不會(huì)被收入到索引中。但如果你的頁面被別的Link Farm鏈接了也不必?fù)?dān)心,因?yàn)檫@種被動(dòng)的鏈接是不會(huì)被懲罰的。
- 不要吝嗇給其他網(wǎng)站的鏈接:如果一個(gè)網(wǎng)頁只有大量的進(jìn)入鏈接,而缺乏導(dǎo)出鏈接,也會(huì)被搜索引擎認(rèn)為是沒有價(jià)值的站點(diǎn)。保證你的網(wǎng)站能夠幫助搜索引擎更準(zhǔn)確地判斷哪些是對(duì)用戶最有價(jià)值的信息,也就是說如果你的網(wǎng)站只有外部反向鏈接而沒有導(dǎo)出鏈接的話,也會(huì)對(duì)你的網(wǎng)站在搜索結(jié)果中的表現(xiàn)帶來負(fù)面影響。當(dāng)然網(wǎng)站中連一個(gè)導(dǎo)出鏈接都沒有的情況非常罕見,除非你是刻意這么做。正常情況下大家都會(huì)自然地在網(wǎng)頁中加上一些其他網(wǎng)站的鏈接,帶領(lǐng)訪問者去到我們認(rèn)為重要或能夠提供更多有價(jià)值信息的地方,
另外在推廣自己網(wǎng)站之前也許首先需要了解自己網(wǎng)站目前在一些搜索引擎中的知名度,原理非常簡單,可以參考如何評(píng)價(jià)網(wǎng)站的人氣一文。
網(wǎng)站推廣只是手段,如何突出內(nèi)容、讓需要相關(guān)信息的用戶能夠盡快的找到你的網(wǎng)站才是目的,PageRank高并不代表像Yahoo!這樣的門戶站點(diǎn)就能在所有搜索結(jié)果中排名靠前,因?yàn)樗阉饕娴慕Y(jié)果是搜索關(guān)鍵詞在頁面中的匹配度和頁面的PageRank相結(jié)合的排名結(jié)果。因此第二個(gè)要點(diǎn):如何突出關(guān)鍵詞。
如何突出關(guān)鍵詞:面向主題(Theme)的關(guān)鍵詞匹配
- Theme Engine正在逐步超過PR,成為結(jié)果排序中更主要的因素,可以比較一下以下現(xiàn)象:
- 為什么查“新聞”,“汽車”之類的文字,各種門戶網(wǎng)站的首頁不在第一位?要知道他們的頁面中都有相應(yīng)頻道的鏈接文字的
- 一篇新聞頁面中,搜索引擎如何不通過模板匹配,自動(dòng)將新聞的主體和頁面中的頁頭,欄目導(dǎo)航條,頁尾等部分的內(nèi)容區(qū)分開的?
首先將能夠描述一個(gè)頁面內(nèi)容的分成以下幾種類型:
- 鏈入文字描述:inbound link text
http://www.searchenginedictionary.com/terms-inbound-link.shtml
- HTML頁面標(biāo)題:title 好標(biāo)題一般會(huì)將頁面中最重要的關(guān)鍵詞放在最前面,比如:ABC-10型吸塵器 - XX家電城
- HTML內(nèi)容主體:content text
- 鏈出文字:outbound link text
一個(gè)頁面中關(guān)鍵詞命中權(quán)重:鏈入文字 > HTML標(biāo)題文字 > HTML頁面主體內(nèi)容 >> 出鏈文字,以上現(xiàn)象就比較好解釋了。
鏈入文字是頁面上看不見的,但鏈入文字對(duì)被鏈接頁面有巨大的作用:在現(xiàn)代搜索引擎在關(guān)鍵詞匹配的過程中,匹配的過程不只看當(dāng)前頁面的內(nèi)容摘要:很大程度上,不只看這個(gè)網(wǎng)頁自己說自己有什么內(nèi)容,還要看別人如何鏈接時(shí),如何描述你的網(wǎng)站別人怎么稱呼你,比你自己說自己更重要。。
比如查:“世界衛(wèi)生組織”,返回結(jié)果中有 http://www.who.int/ 而這個(gè)頁面中是沒有中文的,之所以能匹配上,是因?yàn)楹芏噫溄铀闹形木W(wǎng)站使用了:<a >世界衛(wèi)生組織</a>,所以,這個(gè)頁面中不存在的中文關(guān)鍵詞也成為了頁面摘要的一部分。這樣一想,就可以知道鏈出鏈接的文字其實(shí)是為被鏈接的子頻道首頁或者內(nèi)容詳情頁服務(wù)的。對(duì)自身頁面的關(guān)鍵詞密度只有負(fù)面的影響,這也是Google建議一個(gè)頁面中鏈接不要超過100個(gè)的原因:他根本不索引100個(gè)鏈接以后的內(nèi)容。按照以上規(guī)則,搜索引擎將一篇新聞詳情頁中的新聞內(nèi)容提取出來就是把頁面上所有帶HTTP鏈接的文字都去掉,就是新聞的內(nèi)容部分了,更精確一些可以通過取最長文本段落等策略實(shí)現(xiàn);而很多網(wǎng)站首頁或頻道首頁中幾乎全部都是鏈接,經(jīng)過搜索引擎分析的結(jié)果就是:什么內(nèi)容也沒有,能夠被命中的關(guān)鍵詞僅僅是別人鏈接你用的“網(wǎng)站首頁”和頻道標(biāo)題Title中的站點(diǎn)名稱等的幾個(gè)關(guān)鍵詞,而頁面中其他的文字則遠(yuǎn)遠(yuǎn)不如相應(yīng)子頻道和具體內(nèi)容頁面的匹配度高,而搜索引擎能夠通過以上規(guī)則,讓用戶更快的直接定位到有具體內(nèi)容的內(nèi)容詳情頁面。因此希望通過一個(gè)首頁,盡可能多的命中所有希望推廣的關(guān)鍵詞是不可能的。讓網(wǎng)頁盡可能多的進(jìn)入搜索引擎的索引,然后把握好整個(gè)網(wǎng)站的主題風(fēng)格是非常重要的,讓網(wǎng)站的主題關(guān)鍵詞能夠比較均勻的按照金字塔模式分布到網(wǎng)站中可以參考:網(wǎng)站的主題金字塔設(shè)計(jì) 網(wǎng)站名稱(用戶通過1-2個(gè)抽象關(guān)鍵詞)
/ \
子頻道1 子頻道2 (用戶通過2-3個(gè)關(guān)鍵詞命中)
/ \ / \
產(chǎn)品1 產(chǎn)品2 文章1 文章2 (用戶通過3-4個(gè)關(guān)鍵詞命中:這種用戶最有價(jià)值)
- 不要空著標(biāo)題:空著<title></title>無異于浪費(fèi)了最有價(jià)值的一塊陣地;
不要使用meta keywords/description
傳統(tǒng)的頁面中,HTML頁面中會(huì)有類似以下的隱含信息,用于說明當(dāng)前網(wǎng)頁的主要內(nèi)容關(guān)鍵字:
<header>
<meta name="keyword" content="mp3 download music...">
</header>
后來由于這種人工添加關(guān)鍵詞的方式被濫用,大量網(wǎng)頁中為了提高被搜索引擎命中的概率,經(jīng)常添加一些和實(shí)際網(wǎng)頁內(nèi)容無關(guān)的熱門關(guān)鍵比如:“music mp3 download”等,所以新一代的搜索引擎已經(jīng)不再關(guān)心頁面頭文件中的人工meta keyword聲明,而頁面標(biāo)題在搜索引擎的關(guān)鍵詞的命中命中過程中往往有著更高的比重,如果一個(gè)關(guān)鍵詞在標(biāo)題中命中會(huì)比在頁面中命中有更高的得分,從而在相應(yīng)的搜索結(jié)果排名中更靠前。 - 標(biāo)題長度和內(nèi)容:不要過長,一般在40個(gè)字(80個(gè)字節(jié))以內(nèi),并充分突出關(guān)鍵詞的比重;
如果更長的標(biāo)題搜索引擎一般會(huì)忽略掉,所以要盡可能將主要關(guān)鍵詞放在標(biāo)題靠前的位置。省略掉不必要的形容詞吧,畢竟用戶主要通過名詞來找到需要的內(nèi)容。標(biāo)題內(nèi)容:盡量用一些別人可以通過關(guān)鍵詞找到的字眼(也別太過頭,如果標(biāo)題中的字眼超過1半內(nèi)容中都沒有,有可能被搜索引擎排除出索引),因此基于web日志中來自其他搜索引擎的關(guān)鍵詞查詢統(tǒng)計(jì)非常必要。 - 如果網(wǎng)頁很多的話,盡量使用不同的網(wǎng)頁標(biāo)題,爭取讓自己網(wǎng)站的內(nèi)容更多的進(jìn)入搜索引擎索引范圍;
因?yàn)樗阉饕鏁?huì)根據(jù)頁面內(nèi)容的相似度把一些內(nèi)容當(dāng)成重復(fù)頁面排除出索引范圍;
http://www.chedong.com/phpMan.php是我的網(wǎng)站上的一個(gè)小應(yīng)用:一個(gè)web界面的unix命令手冊(cè)(man page),在以前的設(shè)計(jì)中所有動(dòng)態(tài)頁面使用的都是同樣的標(biāo)題:"phpMan: man page /perldoc /info page web interface" ,Google索引了大約3000多個(gè)頁面,后來我將頁面標(biāo)題改成了"phpMan: [命令名]"這樣的格式,比如:"phpMan: ls",這樣大部分動(dòng)態(tài)頁面的標(biāo)題就都不一樣了,一個(gè)月后Google從這個(gè)頁面入口索引了大約6000個(gè)頁面。因此,如果網(wǎng)站中很多網(wǎng)頁都使用相同的標(biāo)題,比如:“新聞?lì)l道”,“論壇”,這些頁面中很大一部分就會(huì)被排重機(jī)制忽略掉。 - 除了<title></title>外,還可以用<h1></h1>標(biāo)題行突出內(nèi)容主題,加強(qiáng)標(biāo)題的效果;
在我的網(wǎng)站設(shè)計(jì)中:我會(huì)把用<h1>[標(biāo)題]</h1>這樣的模板把標(biāo)題突出顯示,而不是通過改變字體的方式突出標(biāo)題。
其他網(wǎng)站設(shè)計(jì)提示
- 靜態(tài)鏈接:Blog網(wǎng)站另外一個(gè)優(yōu)勢(shì)在于其網(wǎng)頁是靜態(tài)鏈接:動(dòng)態(tài)網(wǎng)頁占到整個(gè)互聯(lián)網(wǎng)內(nèi)容的90%以上。各個(gè)搜索引擎其實(shí)能夠表現(xiàn)的都只不過是互聯(lián)網(wǎng)的冰山一角(3-5%),不同的只是誰讓優(yōu)質(zhì)網(wǎng)頁排名靠前的策略更優(yōu)秀而已:大部分搜索引擎都認(rèn)為靜態(tài)鏈接的網(wǎng)頁是優(yōu)質(zhì)網(wǎng)頁,Google在優(yōu)先抓取索引的網(wǎng)頁中70%以上是不帶參數(shù)鏈接的靜態(tài)網(wǎng)頁。而且即使同樣的內(nèi)容,靜態(tài)網(wǎng)頁也會(huì)比動(dòng)態(tài)網(wǎng)頁權(quán)重高:很容易理解:query?a=1&b=2這樣的鏈接由于參數(shù)順序顛倒的query?b=2&a=1完全相同。盡量使用靜態(tài)網(wǎng)頁:目前能夠動(dòng)態(tài)網(wǎng)頁進(jìn)行全面的索引還比較難,而即使是Google也更不會(huì)索引所有的內(nèi)容,因此很少會(huì)對(duì)參數(shù)超過2個(gè)的動(dòng)態(tài)網(wǎng)頁進(jìn)行進(jìn)一步的抓取和分析。以下是一個(gè)phpBB論壇頁面返回的HTTP頭信息:
HTTP/1.1 200 OK Date: Wed, 28 Jan 2004 12:58:54 GMT Server: Apache/1.3.29 (Unix) mod_gzip/1.3.26.1a PHP/4.3.4 X-Powered-By: PHP/4.3.4 Set-Cookie: phpBB_data=a%3A0%3A%7B%7D; expires=Thu, 27-Jan-2005 12:58:54 GMT; path=/; Set-Cookie: phpBB_sid=09f67a83ee108ecbf11e35bb6f36fcec; path=/; Content-Encoding: gzip Cache-Control: private, pre-check=0, post-check=0, max-age=0 Expires: 0 Pragma: no-cache Connection: close Content-Type: text/html
為了避免隱私問題:Googlebot可以通過對(duì)頁面http header中的session id和session cookie進(jìn)行一些甄別,這樣很多需要認(rèn)證信息的論壇內(nèi)容就無法進(jìn)入索引了。
總體上說Google喜歡新的,靜態(tài)的內(nèi)容。因此無論從效率上講還是方便搜索引擎收錄:使用內(nèi)容發(fā)布系統(tǒng)將網(wǎng)站內(nèi)容發(fā)布成靜態(tài)網(wǎng)頁都是非常必要的,從某種程度上說google friendly = anonymous cache friendly。
比如:http://www.chedong.com/phpMan.php/man/intro/3
比http://www.chedong.com/phpMan.php?mode=man¶meter=intro§ion=3這樣的鏈接更容易進(jìn)入搜索引擎的索引。而且在URL中的命中也能突出關(guān)鍵詞。 - 能夠進(jìn)入Google索引的頁面數(shù)量越多越好。用類似以下的腳本可以統(tǒng)計(jì)自己的網(wǎng)站被搜索引擎索引的情況。
#!/bin/sh YESTERDAY=`date -d yesterday +%Y%m%d` # for FreeBSD: YESTERDAY=`date -v-1d +%Y%m%d` LOG_FILE='/home/apache/logs/access_log' grep -i Googlebot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.googlebot.txt grep -i baiduspider $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.baiduspider.txt grep -i msnbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.msnbot.txt grep -i inktomi $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.inktomi.txt grep -i openbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort |uniq -c | sort -rn > spider/$YESTERDAY.openbot.txt
- 網(wǎng)站目錄結(jié)構(gòu)要扁平,因?yàn)槊可钜患?jí)目錄,PAGERANK降低1-2個(gè)檔次。假設(shè)首頁是3,其子可能目錄就是1了,更深可能就無法列入評(píng)級(jí)范圍了。
- 表現(xiàn)和內(nèi)容的分離:“綠色”網(wǎng)頁
網(wǎng)頁中的javascript和css盡可能和網(wǎng)頁分離,一方面提高代碼重用度(也方便頁面緩存),另外一方面,由于有效內(nèi)容占網(wǎng)頁長度的百分比高,也能提高相關(guān)關(guān)鍵詞在頁面中的比重也增加了。總之,應(yīng)該鼓勵(lì)遵循w3c的規(guī)范,使用更規(guī)范的XHTML和XML作為顯示格式便于內(nèi)容更長時(shí)間的保存。 - 讓所有的頁面都有能夠快速入口:站點(diǎn)地圖,方便網(wǎng)頁爬蟲(spider)快速遍歷網(wǎng)站所有需要發(fā)布的內(nèi)容。如果首頁就是用Flash或圖片進(jìn)入的話,無異于將搜索引擎拒之門外,除了UI設(shè)計(jì)的用戶友好外,spider friendly也是非常重要的。
- 保持網(wǎng)站自身的健康:經(jīng)常利用壞鏈檢查工具檢查網(wǎng)站中是否有死鏈。
- 保持網(wǎng)頁內(nèi)容/鏈接的穩(wěn)定性和持久性:在搜索引擎索引中網(wǎng)頁存在的歷史也是一個(gè)比較重要的因素,而且歷史比較久的網(wǎng)頁被鏈接的幾率越高。為了保證自己網(wǎng)頁能夠被比較持久的被其他網(wǎng)站的頁面引用,如果自己網(wǎng)頁中有鏈接更新時(shí),最好能保留舊的頁面并做好鏈接轉(zhuǎn)向,以保持內(nèi)容的連續(xù)性。要知道,把一個(gè)網(wǎng)站和內(nèi)容在搜索引擎中的排名“培養(yǎng)”的很高是一件非常不容易的事情,誰都不希望好不容易自己的內(nèi)容被別人找到了,點(diǎn)擊卻是“404 頁面不存在”吧,因此站點(diǎn)管理員對(duì)自身站點(diǎn)error.log的分析也是非常必要的。
- 文件類型因素:Google有對(duì)PDF, Word(Power Point, Excel), PS文檔的索引能力,由于這種文檔的內(nèi)容比一般的HTML經(jīng)過了更多的整理,學(xué)術(shù)價(jià)值一般比較高,所以這些類型的文檔天生就比一般的HTML類型的文檔 PageRank要高。因此,對(duì)于比較重要的文檔:技術(shù)白皮書,F(xiàn)AQ,安裝文檔等建議使用PDF PS等高級(jí)格式存取,這樣在搜索結(jié)果中也能獲得比較靠前的位置。
- 常常能發(fā)現(xiàn)門戶站點(diǎn)的一條新聞往往比其他站點(diǎn)的首頁排名還要靠前。因此一個(gè)站點(diǎn)總體PageRank提高了以后,往往自身一些并不重要的內(nèi)容也會(huì)被同那些高PageRank的內(nèi)容一起帶入被搜索引擎優(yōu)先查詢的列表中。這樣經(jīng)常造成很多大的開發(fā)站點(diǎn)的郵件列表歸檔往往比其他站點(diǎn)的首頁P(yáng)ageRank還要高。
知己知彼——站點(diǎn)訪問統(tǒng)計(jì)/日志分析挖掘的重要性
網(wǎng)站設(shè)計(jì)不僅僅只是被動(dòng)的迎合搜索引擎的索引,更重要是充分利用搜索引擎帶來的流量進(jìn)行更深層次的用戶行為分析。目前,來自搜索引擎關(guān)鍵詞統(tǒng)計(jì)幾乎是各種WEB日志分析工具的標(biāo)準(zhǔn)功能,相信商業(yè)日志統(tǒng)計(jì)工具在這方面應(yīng)該會(huì)有更強(qiáng)化的實(shí)現(xiàn)。WEB日志統(tǒng)計(jì)這個(gè)功能如此重要,以至于新的RedHat 8中已經(jīng)將日志分析工具webalizer作為標(biāo)準(zhǔn)的服務(wù)器配置應(yīng)用之一。
- 記錄訪問來源:
在Apache配置文件中設(shè)置日志格式為combined格式,這樣的日志中會(huì)包含擴(kuò)展信息:其中有一個(gè)字段就是相應(yīng)訪問的轉(zhuǎn)向來源: HTTP_REFERER,如果用戶是從某個(gè)搜索引擎的搜索結(jié)果中找到了你的網(wǎng)頁并點(diǎn)擊過來,日志中記錄的HTTP_REFERER就是用戶在搜索引擎結(jié)果頁面的URL,這個(gè)URL中包含了用戶查詢的關(guān)鍵詞。
- 在webalizer中缺省配置針對(duì)搜索引擎的統(tǒng)計(jì):如何提取HTTP_REFERER中的關(guān)鍵詞
webalizer中缺省有針對(duì)yahoo, google等國際流行搜索引擎的查詢格式:這里我增加了針對(duì)國內(nèi)門戶站點(diǎn)的搜索引擎參數(shù)設(shè)置
SearchEngine yahoo.com p=
SearchEngine altavista.com q=
SearchEngine google.com q=
SearchEngine sina.com.cn word=
SearchEngine baidu.com word=
SearchEngine sohu.com word=
SearchEngine 163.com q=
通過這樣設(shè)置webalizer統(tǒng)計(jì)時(shí)就會(huì)將HTTP_REFERER中來自搜索引擎的URL中的keyword提取出來,比如:所有來自 google.com鏈接中,參數(shù)q的值都將被作為關(guān)鍵詞統(tǒng)計(jì)下來:,從匯總統(tǒng)計(jì)結(jié)果中,就可以發(fā)現(xiàn)用戶是根據(jù)什么關(guān)鍵詞找到你的次數(shù),以及找到你的用戶最感興趣的是那些關(guān)鍵詞等,進(jìn)一步的,在webalizer中有設(shè)置還可以將統(tǒng)計(jì)結(jié)果倒出成CSV格式的日志,便于以后導(dǎo)入數(shù)據(jù)庫進(jìn)行歷史統(tǒng)計(jì),做更深層次的數(shù)據(jù)挖掘等。
以前通過WEB日志的用戶分析主要是簡單的基于日志中的訪問時(shí)間/IP地址來源等,很明顯,基于搜索引擎關(guān)鍵詞的統(tǒng)計(jì)能得到的分析結(jié)果更豐富、更直觀。因此,搜索引擎服務(wù)的潛在商業(yè)價(jià)值幾乎是不言而喻的,也許這也是Yahoo! Altavista等傳統(tǒng)搜索引擎網(wǎng)站在門戶模式后重新開始重視搜索引擎市場(chǎng)的原因,看看Google的年度關(guān)鍵詞統(tǒng)計(jì)就知道了,在互聯(lián)網(wǎng)上有誰比搜索引擎更了解用戶對(duì)什么更感興趣呢?
請(qǐng)看本站的反相鏈接統(tǒng)計(jì):http://www.chedong.com/log/2003_6.log
需要注意的是:由于Google針對(duì)Windows 2000中的IE使用的是UTF-8方式的編碼,因此很多統(tǒng)計(jì)有時(shí)候需要在UTF-8方式下查看才是正確字符顯示。從統(tǒng)計(jì)中能夠感受到:在使用水平比較高的IT開發(fā)人員中Google已經(jīng)成為最常用的搜索引擎。而使用百度的用戶也已經(jīng)大大超過了傳統(tǒng)的搜狐,新浪等門戶站點(diǎn),因此傳統(tǒng)門戶網(wǎng)站在搜索引擎上的優(yōu)勢(shì)將是非常脆弱的。而從技術(shù)的發(fā)展趨勢(shì)來看,以后還會(huì)有更多的利用互聯(lián)網(wǎng)媒體做更深層次數(shù)據(jù)挖掘的服務(wù)模式出現(xiàn):
轉(zhuǎn)載自cnblog.org——“突發(fā)”文字可能揭示社會(huì)趨勢(shì)
在“新科學(xué)家”(New Scientist)在線雜志上,公布了康奈爾大學(xué)的一個(gè)新研究成果,引人注目,也許與Google 收購Pyra 的動(dòng)機(jī)有關(guān)。
這所大學(xué)的計(jì)算機(jī)科學(xué)家 Jon Klenberg 開發(fā)了一個(gè)計(jì)算機(jī)算法,能夠識(shí)別一篇文章中某些文字的“突發(fā)”增長,而且他發(fā)現(xiàn),這些“突發(fā)”增長的文字可以用來快速識(shí)別最新的趨勢(shì)和熱點(diǎn)問題,因此能夠更有效地篩選重要信息。過去很多搜索技術(shù)都采用了簡單計(jì)算文字/詞組出現(xiàn)頻率的方法,卻忽略了文字使用增加的速率。
Jon 特別指出,這種方法可以應(yīng)用到大量Weblog上,以跟蹤社會(huì)趨勢(shì),這對(duì)商業(yè)應(yīng)用也很有潛力。例如,廣告商可以從成千上萬的個(gè)人Blog 中快速找到潛在的需求風(fēng)尚。而且只要Blog 覆蓋話題范圍足夠大(實(shí)際上發(fā)展趨勢(shì)確實(shí)如此),這項(xiàng)技術(shù)對(duì)政治、社會(huì)、文化和經(jīng)濟(jì)等領(lǐng)域也都會(huì)有實(shí)際意義了。
雖然Google 新聞的內(nèi)部算法至今沒有公開,但是人們猜測(cè)這種完全由機(jī)器所搜集的頭條新聞應(yīng)當(dāng)不是Google搜索引擎中慣用的鴿子算法,很可能與這種“突發(fā)”判斷算法有關(guān)。如此說來,Google收購Blog工具供應(yīng)商的舉動(dòng)確實(shí)還有更深層次的遠(yuǎn)見了。
- NewScientist.com news,
- 還沒有寫完這些介紹,在 SlashDot 上也看到了很多有關(guān)這個(gè)發(fā)現(xiàn)的討論
附:Google官方的站點(diǎn)設(shè)計(jì)指南
- Make a site with a clear hierarchy and text links. Every page should be reachable from at least one static text link. 讓網(wǎng)站有著清晰的結(jié)構(gòu)和文本鏈接,所有的頁面至少要有一個(gè)靜態(tài)文本鏈接入口
批注:盡量不要用圖片和JAVASCRIPT - Offer a site map to your users with links that point to the important parts of your site. If the site map is larger than 100 or so links, you may want to break the site map into separate pages.
為用戶提供一個(gè)站點(diǎn)地圖:轉(zhuǎn)向網(wǎng)站的重要部分。如果站點(diǎn)地圖頁面超過100個(gè)鏈接,則需要將頁面分成多個(gè)頁面。
批注:索引頁不要超過100個(gè)鏈接:SPIDER只考慮頁面中頭100個(gè)鏈接 - Create a useful, information-rich site and write pages that clearly and accurately describe your content.
用一些有用的,信息量豐富的站點(diǎn),清晰并正確的描述你的信息。 - Think about the words users would type to find your pages, and make sure that your site actually includes those words within it.
想像用戶可能用來找到你的關(guān)鍵詞,并保證這些關(guān)鍵詞在網(wǎng)站中出現(xiàn)。
批注:少用“最大”,“最好”之類的形容詞,用用戶最關(guān)心的詞,比如:下載,歌星名字,而不是一些抽象名詞。 - Try to use text instead of images to display important names, content, or links. The Google crawler doesn't recognize text contained in images.
盡可能使用文本,而不是圖片顯示重要的名稱,內(nèi)容和鏈接。GOOGLE的機(jī)器人不認(rèn)識(shí)圖片中的文字。 - Make sure that your TITLE and ALT tags are descriptive and accurate.
保證:頁面的TITLE和ALT標(biāo)記正確的精確描述 - Check for broken links and correct HTML.
檢查壞鏈并修正這些HTML錯(cuò)誤。 - If you decide to use dynamic pages (i.e., the URL contains a '?' character), be aware that not every search engine spider crawls dynamic pages as well as static pages. It helps to keep the parameters short and the number of them small.
如果你打算使用動(dòng)態(tài)頁面:鏈接中包含"?",必須了解:并非所有的搜索引擎的機(jī)器人能想對(duì)待靜態(tài)頁面一樣對(duì)待動(dòng)態(tài)頁面,保持動(dòng)態(tài)頁面的參數(shù)盡可能的少也會(huì)很有幫助。 - Keep the links on a given page to a reasonable number (fewer than 100).
讓一個(gè)頁面中的鏈接少于100個(gè)。
批注:用lynx -dump http://www.chedong.com 可以模擬從robot角度看到的頁面。其最后有鏈接統(tǒng)計(jì)
輸出類似:
[1]Google Free Search _______________________________ Google Search
(_) Search WWW (_) Search chedong.com
更 新 [2]站點(diǎn)地圖 / Site Map [3]留 言簿 / Guest Book [4]意見反饋 /
Feed Back
...
References
Visible links
1. http://www.google.com/services/free.html
2. http://www.chedong.com/sitemap.html#sitemap
3. http://www.chedong.com/guestbook/
4. http://www.chedong.com/formmail.htm
...
Hidden links:
50. http://www.chedong.com/bbcweb/
...
搜索引擎的宗旨在于提取互聯(lián)網(wǎng)中質(zhì)量最好的內(nèi)容提供給用戶,任何有利于幫助用戶獲得相對(duì)公正,優(yōu)質(zhì)內(nèi)容的策略都是搜索引擎追求目標(biāo)。PageRank是一個(gè)非常好的策略,但是并非所有策略都是基于非常復(fù)雜的算法。
從搜索引擎看來什么是互聯(lián)網(wǎng)中“好”的內(nèi)容呢?
- 首先:互聯(lián)網(wǎng)大約是8G個(gè)網(wǎng)頁,而且以每天2M的速度增長的。其中80%以上是動(dòng)態(tài)網(wǎng)頁,而占總量20%的靜態(tài)網(wǎng)頁就是一個(gè)相對(duì)比較簡單的過濾規(guī)則。
- 其次:用戶友好(User friendly)也是很重要的方面,搜索引擎利用算法幫助提升這些優(yōu)質(zhì)網(wǎng)站,包括:通過CSS將內(nèi)容和表現(xiàn)分離:較少的javascript和frame結(jié)構(gòu),spider本身也很難深入抓取這些網(wǎng)頁:Javascript和frame結(jié)構(gòu)大部分是廣告。
- 標(biāo)題明確:無標(biāo)題,重復(fù)標(biāo)題或者標(biāo)題SPAM(類似于:游戲游戲游戲游戲游戲游戲這樣的標(biāo)題)進(jìn)行過濾或降低得分頁面大小:因?yàn)轫撁孢^大會(huì)導(dǎo)致用戶下載緩慢,所以很多引擎只計(jì)算頁面大小在100k以內(nèi)的網(wǎng)頁。
- 鏈接引用:不僅需要有鏈接鏈入,也需要幫助用戶找到其他更有價(jià)值的內(nèi)容;
- 文件類型:PDF和DOC等專業(yè)文檔和來自edu,gov等非贏利網(wǎng)站的內(nèi)容;
- 鏈入網(wǎng)站的文字:所有用戶不可見的因素全部被忽略。此外:用戶搜索的行為本身也被Google記錄,可能對(duì)目標(biāo)網(wǎng)站的主題相關(guān)度有幫助。
參考資料:
面向Google搜索引擎的網(wǎng)站設(shè)計(jì)優(yōu)化
http://www.google-search-engine-optimization.com/
如何評(píng)價(jià)一個(gè)網(wǎng)站的人氣
http://www.chedong.com/tech/link_pop_check.html
如何提高網(wǎng)站在Google中的排名——面向搜索引擎的廣告模式
http://www.chedong.com/tech/google_ads.html
如何提高網(wǎng)站在Google中的排名——面向搜索引擎的網(wǎng)站鏈接設(shè)計(jì)
http://www.chedong.com/tech/google_url.html
Google不斷改進(jìn)相應(yīng)的算法:HillTop
Hilltop: A Search Engine based on Expert Documents
Google の秘密 - PageRank 徹底解説
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html
這篇文章是在查"Google PageRank"的時(shí)候查到的,這篇文章不僅有一個(gè)算法說明,也是一個(gè)Google的weblog,記錄了很多關(guān)于Google的新聞和一些市場(chǎng)動(dòng)態(tài)信息。
Google 的秘密- PageRank 徹底解說 中文版
更詳細(xì)的PageRank算法說明:
http://pr.efactory.de/
WEB日志統(tǒng)計(jì)工具AWStats的使用:增加了Unicode的解碼和中國主要門戶搜索的定義
http://www.chedong.com/tech/awstats.html
Robots的說明:
http://bar.baidu.com/robots/
http://www.google.com/bot.html
搜索引擎通過一種程序robot(又稱spider),自動(dòng)訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息。您可以在您的網(wǎng)站中創(chuàng)建一個(gè)純文本文件 robots.txt,在這個(gè)文件中聲明該網(wǎng)站中哪些內(nèi)容可以被robot訪問,哪些不可以。
反Google站點(diǎn):觀點(diǎn)也很有趣
http://www.google-watch.org/
關(guān)于Google的WebLog
http://google.blogspace.com/
搜索引擎相關(guān)論壇
http://searchengineforums.com/
http://searchenginewatch.com
http://www.webmasterworld.com/
posted @ 2008-01-04 09:43 風(fēng)雨兼程 閱讀(266) | 評(píng)論 (0) | 編輯 收藏