隨筆-28  評論-51  文章-10  trackbacks-0

          網站:JavaEye 作者:fullfocus 發表時間: 2007-03-27 19:11 此文章來自于 http://www.JavaEye.com
          聲明:本文系JavaEye網站原創文章,未經JavaEye網站或者作者本人書面許可,任何其他網站嚴禁擅自發表本文,否則必將追究法律責任!
          原文鏈接: http://fullfocus.javaeye.com/blog/65867

















          (本科)畢業設計(論文)的目標:

           

          目標:

          Web搜索引擎返回的頁面進行自動的分類。

          要點:

          1. Web搜索引擎返回的頁面是動態的,其文檔類別是未知的、不固定的。

          2. 根據頁面內容自身的差異,使用文檔聚類的方法對頁面進行自動歸類。

          3. 分類顯示搜索結果。

          4. 滿足中文查詢需求。

          5. 針對兩類文件:a. 純文本文件(無超鏈接,無格式)

                                          b. 網頁(html,xml..

             注:暫不考慮各種顏色信息,以及各種格式對文本分析的影響

                 暫不考慮doc, pdf等有格式文件

          6. 系統能夠做到快速的反應

          7. 分類結果的顯示具備人性化,使用戶可以輕松的根據分類目錄標題找到自己需要的信息。

          子功能:

          1.從搜索引擎獲得Web頁面

          2.Web網頁文檔的預處理

          3.文檔聚類算法

          4.Web文檔聚類結果的可視化展現

           

           

           

           

           

           

           

           

           

           

           

           

           

           


          實現方法:

          本系統擬采用無監督的自動聚類算法,并根據系統的整個運作流程,劃分為三個主要模塊:輸入模塊,過濾模塊,輸出模塊。下面針對各個模塊的實現方法進行詳細的講解。


          圖1-1 web網頁自動分類系統的基本框架

          一.輸入模塊

          自動分類系統首先需要從各大搜索引擎中獲得原始數據源。這里我們根據用戶輸入的關鍵詞,通過Google提供的搜索API獲得查詢結果的一個列表。這個便是我們最初的數據源。其中的每一條結果至少包含一個URL鏈接,一個標題,以及一些關于此文檔的摘要。根據(Oren Zamir and Oren Etzioni,2001)的研究,源輸入數據為文檔摘要和整個文檔的對比過程中,采用文檔摘要的方法不僅大大提高處理速度,而且摘要提供的信息足以滿足聚類分析的要求。所以在本系統中,我們采用文檔摘要方法。

          對中文內容采用中科院研制的ICTCLAS進行分詞,英文使用SNOWBALL進行詞干化。分詞并消除噪聲后,建立VSM(向量空間模型)為下面各種工作的進行打下基礎。然后,進行特征提取以達到進一步降維的目的。

           

          二.過濾模塊

          根據建立的VSM模型和實際的情況,我們采用STC(Suffix Tree Clustering,OrenZamir,OrenEtzioni)后綴樹算法對文檔進行聚類。為了在最后的聚類結果中,分類目錄標簽更有易知性,濃縮性,并更好的反映該分類的所有內容,我們采用描述符優先方法DCFC(Description comes first clustering),與傳統的聚類方式不同,DCFC先提取一個有意義的,多樣的分類標簽(cluster labels)集合,然后把文檔聚類到合適的標簽底下—這就完成了web文檔的聚類。

           

          三.輸出模塊

          聚類完成后,采用什么方式展現給用戶也是個十分重要的問題。主要要求是:易懂,便捷。我們采用分類目錄的結構形式提交給用戶。搜索引擎返回的結果已經按照相關度的高低進行排序,所以考慮到速度,性能,效率因素,我們選取并返回一定量的搜索結果(比如默認為100條)。在界面中,為了更好的增強用戶體驗,我們將會加入Ajax異步通訊功能,使界面更加友好。示例如下:

          (查詢詞:“引擎”, 括號內的數字表示該類中包含的文檔個數)

          +網絡服務(6)

          +汽車(10)

          +計算機圖像(7)

          +工業(2)

          +軍事(9)

          +經濟時代(3)

          +查看更多(…)

           

          四.系統流程全圖


          圖1-2 系統流程全圖

           

          五.開發平臺和相關資源

          1.開發工具:Eclipse + Struts + Tomcat

          2.版本管理工具: CVS

          3.測試工具: JUnit(單元測試) + JMeter(壓力測試)

          4.基于平臺: Windows

          5.相關資源:Google API包

           


          時間進度安排:

          2007年2月26日-2007年3月31 學習各種相關知識。熟悉系統的開發平和相應的開發工具。架構好整個開發框架。

          2007年4月 1日-2006年4月 7 日 完成系統的數據獲取模塊

          2007年4月 8日-2006年4月22 完成系統的過濾模塊。

          2007年4月23日-2006年4月31日 完成系統的輸出模塊。

          2007年5月04日-2006年5月25 完成系統的集成測試和壓力測試。

          2007年5月26日-2006年6月初     完成畢業論文并裝訂。

           




          -----------------------------------------------抓魚社區 www.zhuayu.net------------------------------------------------------------




          《 畢業設計6---web網頁自動分類(開題報告)3.27 》 的評論也很精彩,歡迎您也添加評論。查看詳細 >>

          推薦相關文章:
            Struts2 入門實例代碼
            配置struts2.0.6+spring2.0.3+hibernane3備忘




          JavaEye推薦
          上海樂福狗信息技術有限公司:誠聘技術經理和開發工程師
          免費下載IBM社區版軟件--它基于開放的標準,支持廣泛的開發類型,讓您的開發高效自主!
          京滬穗蓉四地免費注冊,SOA技術高手匯聚交鋒.
          上海:優秀公司德比:高薪誠聘 資深Java工程師
          廣州:優易公司:誠聘Java工程師,開發經理
          上海:尤恩斯國際集團:誠聘開發工程師
          北京:優秀公司NHNChina招聘:WEB開發,系統管理,JAVA開發, DBA



          文章來源: http://fullfocus.javaeye.com/blog/65867
          posted on 2007-03-27 19:11 fullfocus 閱讀(499) 評論(0)  編輯  收藏

          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 乌拉特后旗| 正镶白旗| 长寿区| 塘沽区| 长宁区| 和政县| 东明县| 富宁县| 昌黎县| 新余市| 莱西市| 大英县| 锦屏县| 隆子县| 图木舒克市| 隆回县| 扬中市| 河东区| 达日县| 龙里县| 仁化县| 滦平县| 若尔盖县| 洪湖市| 溧水县| 师宗县| 桓台县| 南溪县| 七台河市| 东明县| 长武县| 瓦房店市| 理塘县| 沁源县| 金门县| 珠海市| 仁布县| 马关县| 罗平县| 巴南区| 东兴市|