使用robots.txt的注意事項(xiàng)
<a >www.best-code.com</a>
robots.txt的創(chuàng)建很簡(jiǎn)單,只需設(shè)置User-agent與Disallow兩項(xiàng)內(nèi)容,其中User-agent項(xiàng)設(shè)置特定的搜索引擎Spider,Disallow項(xiàng)設(shè)定不允許Spider抓取和索引的內(nèi)容。盡管如此,筆者卻常常見一些設(shè)置不當(dāng)?shù)睦樱诖税裷obots.txt有關(guān)的注意事項(xiàng)介紹一下:

robots.txt文件
  robots.txt只能存放于網(wǎng)站的根目錄下,置于除此之外的任何地方均不會(huì)被Spider發(fā)現(xiàn)。

  每個(gè)網(wǎng)站,或每個(gè)域名(包括子域名),只能有一個(gè)robots.txt。

  文件名“robots.txt”為小寫字母,其他如Robots.txt或robots.Txt是不正確的,命名錯(cuò)誤將會(huì)被Spider忽略。

  正如上篇文章中介紹的,Spider在網(wǎng)站內(nèi)找不到robots.txt時(shí)將會(huì)被重定向到404??錯(cuò)誤頁(yè)面,這便有可能阻礙Spider抓取和收錄頁(yè)面。雖然這并不一定會(huì)發(fā)生,但很多時(shí)候我們沒必要冒這樣的風(fēng)險(xiǎn),一般來(lái)說(shuō),即使我們對(duì)網(wǎng)站的所有內(nèi)容都沒有限制,對(duì)所有的搜索引擎Spider??都?xì)g迎,最好也在根目錄下創(chuàng)建一個(gè)robots.txt文件:

User-agent:??*
Disallow:

robots.txt的語(yǔ)法規(guī)則
  在Disallow項(xiàng)中使用小寫字母,即文件名和目錄名使用小寫字母,特別在對(duì)大小寫敏感的Unix下更要注意。

  robots.txt惟一支持的通配符是在User-agent使用的“*”,其代表所有的Spider。除此之外,別的通配符均不可用。這方面的錯(cuò)誤常見于在文件名或目錄名中使用通配符。

  robots.txt的限定項(xiàng)

  在User-agent和Disallow項(xiàng)的設(shè)定中,每行只允許有一個(gè)設(shè)定值,同時(shí),注意不要有空行。至于行數(shù),則沒有限制,理論上說(shuō)可以根據(jù)需要?jiǎng)?chuàng)建具有無(wú)數(shù)行的robots.txt。

  下面即是一個(gè)錯(cuò)誤的例子

User-agent:??*
Disallow:??/dir1/??/dir2/??/dir3/

  正確設(shè)置應(yīng)為:

User-agent:??*
Disallow:??/dir1/
Disallow:??/dir2/
Disallow:??/dir3/

  robots.txt中的文件與目錄

  既定某個(gè)文件拒絕索引時(shí),格式為文件名(包括擴(kuò)展名),其后無(wú)“/”,而限定目錄時(shí),則需在目錄名后加“/”。如下面的示例:

User-agent:??*
Disallow:??/file.html
Disallow:??/dir/

  特別注意的是,不要省略掉目錄名后的“/”,不然,Spider便極有可能誤讀相應(yīng)的設(shè)置。

  robots.txt中限定項(xiàng)的順序

  請(qǐng)看下方的示例:

User-agent:??*
Disallow:??/
User-agent:??Googlebot
Disallow:

  該設(shè)定本意是想允許Google訪問(wèn)所有頁(yè)面,同時(shí)禁止其他Spider的訪問(wèn)。但在這樣的設(shè)置下,Googlebot在讀取前2行后便會(huì)離開網(wǎng)站,后面對(duì)其的“解禁”完全失去了意義。正確的格式應(yīng)為:

User-agent:??Googlebot
Disallow:
User-agent:??*
Disallow:??/

  robots.txt中的注釋

  盡管在robots.txt的標(biāo)準(zhǔn)中,可以在限定項(xiàng)的后面使用“#”添加注釋,如下面的例子

User-agent:??Googlebot??#這是對(duì)Google的設(shè)置
Disallow:

  但很多研究與測(cè)試表明,不少Spider對(duì)這樣格式的解讀存在問(wèn)題。為確保其能更好地工作,最好采用如下設(shè)置:
www.best-code.com
#這是對(duì)Google的設(shè)置
User-agent:??Googlebot
Disallow: