隨筆 - 10, 文章 - 0, 評論 - 2, 引用 - 0
          數據加載中……

          一種面向搜索引擎的網頁分塊、切片的原理,實現和演示

          一種面向搜索引擎的網頁分塊、切片的原理,實現和演示



          最近看到 2005 年的 全國搜索引擎和網上信息挖掘學術研討會 上 華南木棉信息檢索的隊長 歐健文 的 華南木棉信息檢索 的ppt。很有啟發。

          于是自己也根據自己的理解準備做一個實現。
          實現前提假設:
              1、網頁分塊切分的基本單位是html中的table , div 等標簽(目前版本只支持:table ,div 標簽)。
              2、網頁分塊切片識別依賴于相似url的對比。比如:我們認為一下兩個url的網頁html文本結構相似:
                  http://news.soufun.com/2005-11-26/580107.htm
                  http://news.soufun.com/2005-11-26/580175.htm
                 而下面兩個url的網頁結構不相似:
                  http://news.soufun.com/subject/weekly051121/index.html
                  http://news.soufun.com/2005-11-26/580175.htm

          用途:
              1、根據分析網頁結構區分網頁是 主題型網頁 還是 目錄型網頁;
              2、根據分析網頁結構 找出 網頁的 主題內容,相關內容和噪音內容;

          實現的3個階段:
              1、對網頁結構進行合理切片;
              2、比較相似網頁的切片結構;
              3、分析切片數據,得出結論。
          演示地址:
                 http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp


          posted on 2005-11-28 10:17 我要去桂林 閱讀(654) 評論(0)  編輯  收藏


          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 綦江县| 万年县| 苏尼特左旗| 尚义县| 基隆市| 邵武市| 若尔盖县| 嵊泗县| 政和县| 罗定市| 张家界市| 曲松县| 镇康县| 陆丰市| 钟祥市| 泰安市| 日照市| 昆山市| 双辽市| 彰化市| 阳春市| 余干县| 汉沽区| 广汉市| 贺州市| 武清区| 汕尾市| 无极县| 梧州市| 桃园县| 西乌珠穆沁旗| 宝坻区| 无锡市| 封开县| 玛曲县| 博湖县| 竹北市| 正定县| 阿克| 阜康市| 碌曲县|