一種面向搜索引擎的網(wǎng)頁分塊、切片的原理,實現(xiàn)和演示
一種面向搜索引擎的網(wǎng)頁分塊、切片的原理,實現(xiàn)和演示
最近看到 2005 年的 全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會 上 華南木棉信息檢索的隊長 歐健文 的 華南木棉信息檢索 的ppt。很有啟發(fā)。
于是自己也根據(jù)自己的理解準備做一個實現(xiàn)。
實現(xiàn)前提假設(shè):
1、網(wǎng)頁分塊切分的基本單位是html中的table , div 等標簽(目前版本只支持:table ,div 標簽)。
2、網(wǎng)頁分塊切片識別依賴于相似url的對比。比如:我們認為一下兩個url的網(wǎng)頁html文本結(jié)構(gòu)相似:
http://news.soufun.com/2005-11-26/580107.htm
http://news.soufun.com/2005-11-26/580175.htm
而下面兩個url的網(wǎng)頁結(jié)構(gòu)不相似:
http://news.soufun.com/subject/weekly051121/index.html
http://news.soufun.com/2005-11-26/580175.htm
用途:
1、根據(jù)分析網(wǎng)頁結(jié)構(gòu)區(qū)分網(wǎng)頁是 主題型網(wǎng)頁 還是 目錄型網(wǎng)頁;
2、根據(jù)分析網(wǎng)頁結(jié)構(gòu) 找出 網(wǎng)頁的 主題內(nèi)容,相關(guān)內(nèi)容和噪音內(nèi)容;
實現(xiàn)的3個階段:
1、對網(wǎng)頁結(jié)構(gòu)進行合理切片;
2、比較相似網(wǎng)頁的切片結(jié)構(gòu);
3、分析切片數(shù)據(jù),得出結(jié)論。
演示地址:
http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp