隨筆 - 10, 文章 - 0, 評論 - 2, 引用 - 0
          數(shù)據(jù)加載中……

          一種面向搜索引擎的網(wǎng)頁分塊、切片的原理,實現(xiàn)和演示

          一種面向搜索引擎的網(wǎng)頁分塊、切片的原理,實現(xiàn)和演示



          最近看到 2005 年的 全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會 上 華南木棉信息檢索的隊長 歐健文 的 華南木棉信息檢索 的ppt。很有啟發(fā)。

          于是自己也根據(jù)自己的理解準備做一個實現(xiàn)。
          實現(xiàn)前提假設(shè):
              1、網(wǎng)頁分塊切分的基本單位是html中的table , div 等標簽(目前版本只支持:table ,div 標簽)。
              2、網(wǎng)頁分塊切片識別依賴于相似url的對比。比如:我們認為一下兩個url的網(wǎng)頁html文本結(jié)構(gòu)相似:
                  http://news.soufun.com/2005-11-26/580107.htm
                  http://news.soufun.com/2005-11-26/580175.htm
                 而下面兩個url的網(wǎng)頁結(jié)構(gòu)不相似:
                  http://news.soufun.com/subject/weekly051121/index.html
                  http://news.soufun.com/2005-11-26/580175.htm

          用途:
              1、根據(jù)分析網(wǎng)頁結(jié)構(gòu)區(qū)分網(wǎng)頁是 主題型網(wǎng)頁 還是 目錄型網(wǎng)頁;
              2、根據(jù)分析網(wǎng)頁結(jié)構(gòu) 找出 網(wǎng)頁的 主題內(nèi)容,相關(guān)內(nèi)容和噪音內(nèi)容;

          實現(xiàn)的3個階段:
              1、對網(wǎng)頁結(jié)構(gòu)進行合理切片;
              2、比較相似網(wǎng)頁的切片結(jié)構(gòu);
              3、分析切片數(shù)據(jù),得出結(jié)論。
          演示地址:
                 http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp


          posted on 2005-11-28 10:17 我要去桂林 閱讀(650) 評論(0)  編輯  收藏


          只有注冊用戶登錄后才能發(fā)表評論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 筠连县| 兴安县| 永胜县| 龙南县| 利川市| 兴国县| 贵州省| 武义县| 普定县| 育儿| 勃利县| 南雄市| 开鲁县| 利津县| 凤翔县| 广安市| 渑池县| 黔西县| 江津市| 博白县| 南充市| 宜阳县| 正阳县| 建昌县| 台北市| 玉树县| 勐海县| 临桂县| 明水县| 禄劝| 广元市| 象州县| 江门市| 沙雅县| 泰安市| 古交市| 乐昌市| 新龙县| 三亚市| 绥江县| 桦甸市|