狂淘

          www.kuangtao.net

             :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
            6 隨筆 :: 185 文章 :: 68 評論 :: 0 Trackbacks

          通過給網站設置適當的robots.txt對Google和百度seo優化的作用是很明顯的。WordPress博客網站也一樣。

          我們先看看robots.txt是什么,有什么作用?

          robots.txt是什么?

          我們都知道txt后綴的文件是純文本文檔,robots是機器人的意思,所以顧名思義,robots.txt文件也就是給搜索引擎蜘蛛這個機器人看 的純文本文件。robots.txt是搜索引擎公認遵循的一個規范文 檔,它告訴Google、百度等搜索引擎哪些網頁允許抓取、索引并在搜索結果中顯示,哪些網頁是被禁止收錄的。 搜索引擎蜘蛛 spider(Googlebot/Baiduspider)來訪問你的網站頁面的時候,首先會查看你的網站根目錄下是否有robots.txt文件,如 果有則按照里面設置的規則權限對你網站頁面進行抓取和索引。如淘寶網就通過設置robots.txt屏蔽百度搜索引擎:

          User-agent: Baiduspider
          Disallow: /
          User-agent: baiduspider
          Disallow: /

          robots.txt的作用

          我們了解了什么是robots.txt,那它有什么作用,總體來說,robots.txt文件至少有下面兩方面的作用:

          1、通過設置屏蔽搜索引擎訪問不必要被收錄的網站頁面,可以大大減少因spider抓取頁面所占用的網站帶寬,小網站不明顯,大型網站就很明顯了。

          2、設置robots.txt可以指定google或百度不去索引哪些網址,比如我們通過url重寫將動態網址靜態化為永久固定鏈接之后,就可以通過robots.txt設置權限,阻止Google或百度等搜索引擎索引那些動態網址,從而大大減少了網站重復頁面,對SEO優化起到了很明顯的作用。

          robots.txt的寫法

          關于如何寫robots.txt文件,在下面我們會以WordPress博客來作更具體舉例說明。這里先提示幾點robots.txt寫法中應該注意的地方。如robots.txt文件里寫入以下代碼:

          User-agent: *
          Disallow:
          Allow: /

          robots.txt必須上傳到你的網站根名錄下,在子目錄下無效;

          robots.txt,Disallow等必須注意大小寫,不能變化;

          User-agent,Disallow等后面的冒號必須是英文狀態下的,冒號后面可以空一格,也可以不空格。網上有人說冒號后面必須有空格,其實沒有也是可以的,請看谷歌中文網站管理員博客的設置就是這樣:http://www.googlechinawebmaster.com/robots.txt ;

          User-agent表示搜索引擎spider:星號“*”代表所有spider,Google的spider是“Googlebot”,百度是“Baiduspider”;

          Disallow:表示不允許搜索引擎訪問和索引的目錄;

          Allow:指明允許spider訪問和索引的目錄,Allow: / 表示允許所有,和Disallow: 等效。

          robots.txt文件寫法舉例說明

          禁止Google/百度等所有搜索引擎訪問整個網站

          User-agent: *
          Disallow: /

          允許所有的搜索引擎spider訪問整個網站(Disallow:可以用Allow: /替代)

          User-agent: *
          Disallow:

          禁止Baiduspider訪問您的網站,Google等其他搜索引擎不阻止

          User-agent: Baiduspider
          Disallow: /

          只允許Google spider: Googlebot訪問您的網站,禁止百度等其他搜索引擎

          User-agent: Googlebot
          Disallow:
          User-agent: *
          Disallow: /

          禁止搜索引擎蜘蛛spider訪問指定目錄
            (spider不訪問這幾個目錄。每個目錄要分開聲明,不能合在一起)

          User-agent: *
          Disallow: /cgi-bin/
          Disallow: /admin/
          Disallow: /~jjjj/

          禁止搜索引擎spider訪問指定目錄,但允許訪問該指定目錄的某個子目錄

          User-agent: *
          Allow: /admin/far
          Disallow: /admin/

          使用通配符星號"*"設置禁止訪問的url
             (禁止所有搜索引擎抓取/cgi-bin/目錄下的所有以".html"格式的網頁(包含子目錄))

          User-agent: *
          Disallow: /cgi-bin/*.html

          使用美元符號"$"設置禁止訪問某一后綴的文件
             (只允許訪問以".html"格式的網頁文件。)

          User-agent: *
          Allow: .html$
          Disallow: /

          阻止google、百度等所有搜索引擎訪問網站中所有帶有?的動態網址頁面

          User-agent: *
          Disallow: /*?*

          阻止Google spider:Googlebot訪問網站上某種格式的圖片
            (禁止訪問.jpg 格式的圖片)

          User-agent: Googlebot
          Disallow: .jpg$

          只允許Google spider:Googlebot抓取網頁和.gif格式圖片
             (Googlebot只能抓取gif格式的圖片和網頁,其他格式的圖片被禁止;
                      其他搜索引擎未設置)

          User-agent: Googlebot
          Allow: .gif$
          Disallow: .jpg$
          .......

          只禁止Google spider:Googlebot抓取.jpg格式圖片
                     (其他搜索引擎和其他格式圖片沒有禁止)

          User-agent: Googlebot
          Disallow: .jpg$

          www.kuangtao.net  淘寶網首頁
          posted on 2010-05-28 22:11 狂淘 閱讀(323) 評論(1)  編輯  收藏 所屬分類: SEO

          評論

          # re: robots.txt用法和seo作用-Googlebot/Baiduspider 2010-07-03 11:03 深圳酒店預訂網
          學習了!!!  回復  更多評論
            

          主站蜘蛛池模板: 荆门市| 上饶县| 离岛区| 磐石市| 石渠县| 岗巴县| 晴隆县| 新龙县| 安化县| 赣州市| 扎鲁特旗| 股票| 榆树市| 台江县| 繁昌县| 鹿泉市| 布拖县| 普陀区| 军事| 灌云县| 昌都县| 汾阳市| 罗江县| 定州市| 厦门市| 通海县| 盐山县| 宣城市| 自治县| 洛隆县| 申扎县| 兴业县| 巴塘县| 钟祥市| 南昌县| 岫岩| 忻城县| 黑龙江省| 客服| 康乐县| 郧西县|