我的畢設題目
我的畢設題目是“基于able的互聯網分布式主題搜索技術研究”,重點研究了搜索引擎的兩個重要組成部分:網絡信息的搜索和網頁信息的抽取。所要設計實現的專利信息采集抽取系統可以讓我們及時地了解某類專利在一定時期的發展狀況,它是一個主題搜索引擎系統,包括專利網頁抓取和專利信息抽取兩個子系統。在專利網頁抓取子系統中,利用網絡爬行器,使用JSP腳本語言實現了原型系統的后端,即專利數據庫的選擇、查詢結果的返回以及網頁源文件的自動下載。在專利信息抽取子系統中,通過XML處理器和JTidy工具生成DOM樹,利用XSLT樣式表和XPath語句將下載到本地的HTML源文件轉換成XML文件,從中進行專利信息的提取,然后通過Oracle JDBC驅動進行入庫操作,最后利用IBM的able分布式軟件平臺將各種算法封裝成Agent,以供將來的分布式運行。只要對信息源進行足夠的分析工作,此系統可以應用在其它一些行業領域中,如股票價格查詢、新聞信息搜索等等。我的系統還有許多不成熟的地方,歡迎有這方面經驗的人與我一起探討共勉!qq:173635235
msn:bisal1130@yahoo.com.cn
emails:bill1130@gmail.com & bill15@tom.com