葉明的javablog

          java學(xué)習(xí)天堂,個人關(guān)于其他blog:blog.javaworker.cn,歡迎大家訪問
          posts - 64, comments - 50, trackbacks - 0, articles - 3

          Google SiteMap Protocol是Google自己推出的一種站點地圖協(xié)議,此協(xié)議文件基于早期的robots.txt文件協(xié)議,并有所升級。在Google官方指南中指出加入了Google SiteMap文件的網(wǎng)站將更有利于Google網(wǎng)頁爬行機器人的爬行索引,這樣將提高索引網(wǎng)站內(nèi)容的效率和準(zhǔn)確度。文件協(xié)議應(yīng)用了簡單的XML格式,一共用到6個標(biāo)簽,其中關(guān)鍵標(biāo)簽包括鏈接地址、更新時間、更新頻率和索引優(yōu)先權(quán)。

          Google SiteMap文件生成后格式如下: <urlset xmlns="http://www.google.com/schemas/sitemap /0.84"> <url> <loc>http://duduwolf.winzheng.com</loc> <lastmod>2005-06-03T04:20-08:00</lastmod> <changefreq>always</changefreq> <priority>1.0</priority> </url> <url> <loc>http://duduwolf.winzheng.com/post/140.html</loc> <lastmod>2005-06-02T20:20:36Z</lastmod> <changefreq>daily</changefreq> <priority>0.8</priority> </url> </urlset> XML標(biāo)簽
          • changefreq:頁面內(nèi)容更新頻率。
          • lastmod:頁面最后修改時間
          • loc:頁面永久鏈接地址
          • priority:相對于其他頁面的優(yōu)先權(quán)
          • url:相對于前4個標(biāo)簽的父標(biāo)簽
          • urlset:相對于前5個標(biāo)簽的父標(biāo)簽
          我將一句一句分解講解這個xml文件的每一個標(biāo)簽:
          1. <urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
            這一行定義了此xml文件的命名空間,相當(dāng)于網(wǎng)頁文件中的<html>標(biāo)簽一樣的作用。
          2. <url>這是具體某一個鏈接的定義入口,你所希望展示在SiteMap文件中的每一個鏈接都要用<url>和</url>包含在里面,這是必須的。
          3. <loc>http://duduwolf.winzheng.com</loc>用<loc>描述出具體的鏈接地址,這里需要注意的是鏈接地址中的一些特殊字符必須轉(zhuǎn)換為XML(HTML)定義的轉(zhuǎn)義字符,如下表:
            字符 轉(zhuǎn)義后的字符
            HTML字符 字符編碼
            and(和) & &amp; &
            單引號 &apos; &apos; '
            雙引號 " &quot; "
            大于號 > &gt; >
            小于號 < &lt; <
          4. <lastmod>2005-06-03T04:20:32-08:00</lastmod><lastmod>是用來指定該鏈接的最后更新時間,這個很重要。Google的機器人會在索引此鏈接前先和上次索引記錄的最后更新時間進(jìn)行比較,如果時間一樣就會跳過不再索引。所以如果你的鏈接內(nèi)容基于上次Google索引時的內(nèi)容有所改變,應(yīng)該更新該時間,讓Google下次索引時會重新對該鏈接內(nèi)容進(jìn)行分析和提取關(guān)鍵字。這里必須用ISO 8601中指定的時間格式進(jìn)行描述,格式化的時間格式如下:
            • 年:YYYY(2005)
            • 年和月:YYYY-MM(2005-06)
            • 年月日:YYYY-MM-DD(2005-06-04)
            • 年月日小時分鐘:YYYY-MM-DDThh:mmTZD(2005-06-04T10:37+08:00)
            • 年月日小時分鐘秒:YYYY-MM-DDThh:mmTZD(2005-06-04T10:37:30+08:00)
            這里需注意的是TZD,TZD指定就是本地時間區(qū)域標(biāo)記,像中國就是+08:00了
          5. <changefreq>always</changefreq>用這個標(biāo)簽告訴Google此鏈接可能會出現(xiàn)的更新頻率,比如首頁肯定就要用always(經(jīng)常),而對于很久前的鏈接或者不再更新內(nèi)容的鏈接就可以用yearly(每年)。這里可以用來描述的單詞共這幾個:"always", "hourly", "daily", "weekly", "monthly", "yearly",具體含義我就不用解釋了吧,光看單詞的意思就明白了。
          6. <priority>1.0</priority> <priority>是用來指定此鏈接相對于其他鏈接的優(yōu)先權(quán)比值,此值定于0.0 - 1.0之間
          7. 還有</url>和</urlset>,這兩個就是來關(guān)閉xml標(biāo)簽的,這和HTML中的</body>和</html>是一個道理
          8. 另外需要注意的是,這個xml文件必須是utf-8的編碼格式,不管你是手動生成還是通過代碼生成,建議最好檢查一下xml文件是否是utf-8編碼,最簡單的方法就是用記事本打開xml然后另存為時選擇編碼(或轉(zhuǎn)換器)為UTF-8。
          主站蜘蛛池模板: 临夏县| 呼图壁县| 托克逊县| 黔南| 五大连池市| 沛县| 汽车| 泌阳县| 三台县| 齐河县| 吕梁市| 茶陵县| 宝清县| 长春市| 泸州市| 准格尔旗| 藁城市| 江陵县| 武山县| 湖北省| 华宁县| 印江| 尚义县| 新沂市| 通辽市| 卢湾区| 嘉定区| 商丘市| 内黄县| 惠来县| 黄石市| 郎溪县| 嵊泗县| 蛟河市| 满城县| 汽车| 双流县| 常熟市| 蒙自县| 长岛县| 吉木萨尔县|