隨筆 - 10, 文章 - 0, 評論 - 2, 引用 - 0
          數據加載中……

          一種面向搜索引擎的網頁分塊、切片的原理,實現和演示

          一種面向搜索引擎的網頁分塊、切片的原理,實現和演示



          最近看到 2005 年的 全國搜索引擎和網上信息挖掘學術研討會 上 華南木棉信息檢索的隊長 歐健文 的 華南木棉信息檢索 的ppt。很有啟發。

          于是自己也根據自己的理解準備做一個實現。
          實現前提假設:
              1、網頁分塊切分的基本單位是html中的table , div 等標簽(目前版本只支持:table ,div 標簽)。
              2、網頁分塊切片識別依賴于相似url的對比。比如:我們認為一下兩個url的網頁html文本結構相似:
                  http://news.soufun.com/2005-11-26/580107.htm
                  http://news.soufun.com/2005-11-26/580175.htm
                 而下面兩個url的網頁結構不相似:
                  http://news.soufun.com/subject/weekly051121/index.html
                  http://news.soufun.com/2005-11-26/580175.htm

          用途:
              1、根據分析網頁結構區分網頁是 主題型網頁 還是 目錄型網頁;
              2、根據分析網頁結構 找出 網頁的 主題內容,相關內容和噪音內容;

          實現的3個階段:
              1、對網頁結構進行合理切片;
              2、比較相似網頁的切片結構;
              3、分析切片數據,得出結論。
          演示地址:
                 http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp


          posted on 2005-11-28 10:17 我要去桂林 閱讀(650) 評論(0)  編輯  收藏


          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 承德市| 临汾市| 都昌县| 高碑店市| 公主岭市| 呈贡县| 广宁县| 长垣县| 莱西市| 清远市| 东乡族自治县| 齐齐哈尔市| 镇宁| 札达县| 漾濞| 阳原县| 平山县| 邵东县| 永寿县| 昭觉县| 嘉祥县| 朝阳县| 突泉县| 从江县| 黑河市| 务川| 偃师市| 莲花县| 米泉市| 绵阳市| 福清市| 云浮市| 仙居县| 南投市| 博白县| 固原市| 阜新市| 定南县| 安阳市| 磐安县| 常宁市|