一種面向搜索引擎的網頁分塊、切片的原理,實現和演示
一種面向搜索引擎的網頁分塊、切片的原理,實現和演示
最近看到 2005 年的 全國搜索引擎和網上信息挖掘學術研討會 上 華南木棉信息檢索的隊長 歐健文 的 華南木棉信息檢索 的ppt。很有啟發。
于是自己也根據自己的理解準備做一個實現。
實現前提假設:
1、網頁分塊切分的基本單位是html中的table , div 等標簽(目前版本只支持:table ,div 標簽)。
2、網頁分塊切片識別依賴于相似url的對比。比如:我們認為一下兩個url的網頁html文本結構相似:
http://news.soufun.com/2005-11-26/580107.htm
http://news.soufun.com/2005-11-26/580175.htm
而下面兩個url的網頁結構不相似:
http://news.soufun.com/subject/weekly051121/index.html
http://news.soufun.com/2005-11-26/580175.htm
用途:
1、根據分析網頁結構區分網頁是 主題型網頁 還是 目錄型網頁;
2、根據分析網頁結構 找出 網頁的 主題內容,相關內容和噪音內容;
實現的3個階段:
1、對網頁結構進行合理切片;
2、比較相似網頁的切片結構;
3、分析切片數據,得出結論。
演示地址:
http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp