weidagang2046的專欄

          物格而后知致
          隨筆 - 8, 文章 - 409, 評論 - 101, 引用 - 0
          數據加載中……

          Google SiteMap Protocol協議

          在新浪看到這樣的新聞Google雅虎微軟聯手支持網頁手工提交標準, Google、微軟和雅虎認為,統一標準有助于從整體上改進站點地圖,從而搜索引擎可以將更廣泛的信息加入索引。當然,搜索終端用戶也將從中獲益。Google網站管理員中心產品經理瓦內薩·??怂?Vanessa Fox)表示:“我們的首要任務是為用戶提供最佳搜索結果,以及為網站所有者運營網站提供便利?!盙oogle、微軟和雅虎還將推動其它搜索引擎運營商,以及相關軟件廠商加入Sitemaps協議支持者的行列。Google、雅虎以及微軟宣布已經達成共識,旗下的搜索引擎將采用統一的Sitemaps 0.9(站點地圖)協議對網站進行索引。目前,在www.sitemaps.org網站上,已經為網站管理員準備了一套簡單快捷的指引,使搜索引擎能夠完整、有效地對網站進行索引。了解一下Google SiteMap Protocol.

          Google SiteMap Protocol是Google自己推出的一種站點地圖協議,此協議文件基于早期的robots.txt文件協議,并有所升級。在Google官方指南中指出加入了Google SiteMap文件的網站將更有利于Google網頁爬行機器人的爬行索引,這樣將提高索引網站內容的效率和準確度。文件協議應用了簡單的XML格式,一共用到6個標簽,其中關鍵標簽包括鏈接地址、更新時間、更新頻率和索引優先權。

          Google SiteMap文件生成后格式如下:
          <urlset xmlns="http://www.google.com/schemas/sitemap&#xD;&#xA;/0.84"> <url> <loc>http://www.keyusoft.cn</loc> <lastmod>2005-06-03T04:20-08:00</lastmod> <changefreq>always</changefreq> <priority>1.0</priority> </url> <url> <loc>http://www.keyusoft.cn/post/140.html</loc> <lastmod>2005-06-02T20:20:36Z</lastmod> <changefreq>daily</changefreq> <priority>0.8</priority> </url> </urlset>
          XML標簽
          • changefreq:頁面內容更新頻率。
          • lastmod:頁面最后修改時間
          • loc:頁面永久鏈接地址
          • priority:相對于其他頁面的優先權
          • url:相對于前4個標簽的父標簽
          • urlset:相對于前5個標簽的父標簽
          我將一句一句分解講解這個xml文件的每一個標簽:
          1. <urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
            這一行定義了此xml文件的命名空間,相當于網頁文件中的<html>標簽一樣的作用。
          2. <url></url>這是具體某一個鏈接的定義入口,你所希望展示在SiteMap文件中的每一個鏈接都要用<url>和</url>包含在里面,這是必須的。
          3. <loc>http://www.keyusoft.cn</loc>用<loc>描述出具體的鏈接地址,這里需要注意的是鏈接地址中的一些特殊字符必須轉換為XML(HTML)定義的轉義字符,如下表:
            字符轉義后的字符
            HTML字符字符編碼
            and(和)&&amp;&#38;
            單引號&apos;&apos;&#39;
            雙引號"&quot;&#34;
            大于號>&gt;&#62;
            小于號<&lt;&#60;
          4. <lastmod>2005-06-03T04:20:32-08:00</lastmod><lastmod>是用來指定該鏈接的最后更新時間,這個很重要。Google的機器人會在索引此鏈接前先和上次索引記錄的最后更新時間進行比較,如果時間一樣就會跳過不再索引。所以如果你的鏈接內容基于上次Google索引時的內容有所改變,應該更新該時間,讓Google下次索引時會重新對該鏈接內容進行分析和提取關鍵字。這里必須用ISO 8601中指定的時間格式進行描述,格式化的時間格式如下:
            • 年:YYYY(2005)
            • 年和月:YYYY-MM(2005-06)
            • 年月日:YYYY-MM-DD(2005-06-04)
            • 年月日小時分鐘:YYYY-MM-DDThh:mmTZD(2005-06-04T10:37+08:00)
            • 年月日小時分鐘秒:YYYY-MM-DDThh:mmTZD(2005-06-04T10:37:30+08:00)
            這里需注意的是TZD,TZD指定就是本地時間區域標記,像中國就是+08:00了
          5. <changefreq>always</changefreq>用這個標簽告訴Google此鏈接可能會出現的更新頻率,比如首頁肯定就要用always(經常),而對于很久前的鏈接或者不再更新內容的鏈接就可以用yearly(每年)。這里可以用來描述的單詞共這幾個:"always", "hourly", "daily", "weekly", "monthly", "yearly",具體含義我就不用解釋了吧,光看單詞的意思就明白了。
          6. <priority>1.0</priority><priority>是用來指定此鏈接相對于其他鏈接的優先權比值,此值定于0.0 - 1.0之間
          7. 還有</url>和</urlset>,這兩個就是來關閉xml標簽的,這和HTML中的</body>和</html>是一個道理
          8. 另外需要注意的是,這個xml文件必須是utf-8的編碼格式,不管你是手動生成還是通過代碼生成,建議最好檢查一下xml文件是否是utf-8編碼,最簡單的方法就是用記事本打開xml然后另存為時選擇編碼(或轉換器)為UTF-8。

          from: http://www.cnblogs.com/shanyou/archive/2006/11/17/564152.aspx

          posted on 2006-12-30 17:36 weidagang2046 閱讀(243) 評論(0)  編輯  收藏 所屬分類: Search Engine

          主站蜘蛛池模板: 东乌珠穆沁旗| 湖北省| 安图县| 侯马市| 兴国县| 阿城市| 柞水县| 北碚区| 临西县| 鲁甸县| 塘沽区| 邵武市| 麻江县| 承德县| 武邑县| 通化市| 甘南县| 邳州市| 宿州市| 遵化市| 山阳县| 三原县| 祥云县| 阜宁县| 库尔勒市| 东乡族自治县| 桓仁| 余庆县| 大悟县| 西城区| 武隆县| 梅河口市| 鹤峰县| 博野县| 双峰县| 巴青县| 西贡区| 兰考县| 左权县| 新绛县| 平定县|