Java心路

          Java、Eclipse、Ajax......一個(gè)都不能少

           

          我的畢設(shè)題目

              我的畢設(shè)題目是“基于able的互聯(lián)網(wǎng)分布式主題搜索技術(shù)研究”,重點(diǎn)研究了搜索引擎的兩個(gè)重要組成部分:網(wǎng)絡(luò)信息的搜索和網(wǎng)頁信息的抽取。所要設(shè)計(jì)實(shí)現(xiàn)的專利信息采集抽取系統(tǒng)可以讓我們及時(shí)地了解某類專利在一定時(shí)期的發(fā)展?fàn)顩r,它是一個(gè)主題搜索引擎系統(tǒng),包括專利網(wǎng)頁抓取和專利信息抽取兩個(gè)子系統(tǒng)。在專利網(wǎng)頁抓取子系統(tǒng)中,利用網(wǎng)絡(luò)爬行器,使用JSP腳本語言實(shí)現(xiàn)了原型系統(tǒng)的后端,即專利數(shù)據(jù)庫的選擇、查詢結(jié)果的返回以及網(wǎng)頁源文件的自動(dòng)下載。在專利信息抽取子系統(tǒng)中,通過XML處理器和JTidy工具生成DOM樹,利用XSLT樣式表和XPath語句將下載到本地的HTML源文件轉(zhuǎn)換成XML文件,從中進(jìn)行專利信息的提取,然后通過Oracle JDBC驅(qū)動(dòng)進(jìn)行入庫操作,最后利用IBM的able分布式軟件平臺(tái)將各種算法封裝成Agent,以供將來的分布式運(yùn)行。只要對(duì)信息源進(jìn)行足夠的分析工作,此系統(tǒng)可以應(yīng)用在其它一些行業(yè)領(lǐng)域中,如股票價(jià)格查詢、新聞信息搜索等等。我的系統(tǒng)還有許多不成熟的地方,歡迎有這方面經(jīng)驗(yàn)的人與我一起探討共勉!
          qq:173635235 
          msn:bisal1130@yahoo.com.cn
          emails:bill1130@gmail.com & bill15@tom.com

          posted on 2006-06-25 13:18 bisal 閱讀(570) 評(píng)論(0)  編輯  收藏


          只有注冊用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           

          導(dǎo)航

          統(tǒng)計(jì)

          常用鏈接

          留言簿(4)

          隨筆檔案

          文章檔案

          相冊

          Java戰(zhàn)友兄弟

          常用技術(shù)交流平臺(tái)

          搜索

          最新評(píng)論

          閱讀排行榜

          評(píng)論排行榜

          主站蜘蛛池模板: 龙井市| 浦江县| 洪湖市| 海阳市| 宜州市| 巴马| 彭阳县| 会宁县| 铜陵市| 乐清市| 新野县| 泰州市| 兴和县| 梁河县| 白城市| 尼勒克县| 冕宁县| 清流县| 乌拉特中旗| 绥德县| 封开县| 科技| 三门县| 咸阳市| 北京市| 呼玛县| 横峰县| 海淀区| 杭锦后旗| 隆回县| 个旧市| 绥德县| 太仆寺旗| 五寨县| 禄劝| 宁陕县| 衡阳县| 南宁市| 临桂县| 普兰店市| 茶陵县|