我要去桂林---田春峰的網志

我要去桂林

隨筆 - 10, 文章 - 0, 評論 - 2, 引用 - 0

數據加載中……

一種面向搜索引擎的網頁分塊、切片的原理，實現和演示

最近看到 2005 年的全國搜索引擎和網上信息挖掘學術研討會上華南木棉信息檢索的隊長歐健文的華南木棉信息檢索的ppt。很有啟發。

于是自己也根據自己的理解準備做一個實現。
實現前提假設：
   1、網頁分塊切分的基本單位是html中的table , div 等標簽（目前版本只支持：table ,div 標簽）。
   2、網頁分塊切片識別依賴于相似url的對比。比如：我們認為一下兩個url的網頁html文本結構相似：
       http://news.soufun.com/2005-11-26/580107.htm
       http://news.soufun.com/2005-11-26/580175.htm
       而下面兩個url的網頁結構不相似：
       http://news.soufun.com/subject/weekly051121/index.html
       http://news.soufun.com/2005-11-26/580175.htm

用途：
   1、根據分析網頁結構區分網頁是主題型網頁還是目錄型網頁；
   2、根據分析網頁結構找出網頁的主題內容，相關內容和噪音內容；

實現的3個階段：
   1、對網頁結構進行合理切片；
   2、比較相似網頁的切片結構；
   3、分析切片數據，得出結論。
演示地址：
       http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp

posted on 2005-11-28 10:17 我要去桂林閱讀(654) 評論(0) 編輯收藏

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

我要去桂林---田春峰的網志

一種面向搜索引擎的網頁分塊、切片的原理，實現和演示

導航

常用鏈接

留言簿(1)

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜