kingpub

          海內存知己,博客若比鄰

           

          WebLucene 之安裝習行錄

           清人顏元曾說過:“學而必習,習又必行,固也”。若干年來,本人一直對這句話奉若神明,深感只有致用才能鞏固學的效果,發(fā)現學的不足,享受學的樂趣。
            搜索引擎在近幾年的發(fā)展雖沒有大的突破,卻逐步走向成熟,走向商業(yè)。同時,隨著開源的搜索引擎逐漸增多,門檻也逐步降低,使得普通程序員也能有機會接觸到這一高深的領域。由于對搜索引擎的興趣所致,筆者也利用部分業(yè)余時間對此進行一些研究與嘗試。本文及后續(xù)的文章主要記載筆者在實踐中的一些操作過程及應用體會,同時參考了一些前人的文章,目的主要是為了備忘,也希望能對后來者有所參考與助益。
            目前較為有名的開源搜索引擎Nutch、Compass、Solr等都是基于Lucene之上,而在眾多基于Lucene的檢索系統(tǒng)中,車東先生的WebLucene可以說是國人在此領域非常有影響力的作品,那就首先從WebLucene的安裝開始說起吧!
          ?
            1、安裝系統(tǒng)環(huán)境
            (1)安裝Java JDK
            安裝Java JDK 1.4或更新的版本,同時設置好環(huán)境變量。這應該是這篇文章讀者電腦里的基本設置,所以不再詳述。
            (2)安裝JavaCC 2.1
            從JavaCC的 項目主頁(https://javacc.dev.java.net/servlets/ProjectDocumentList?folderID=212&expandFolder=212&folderID=0 下載到JavaCC 2.1的版本,請注意,一定要下載JavaCC 2.1版本。筆者下載了JavaCC的最新版本4.0之后,發(fā)現WebLucene并不支持此版本,只好重新去下載JavaCC 2.1。
            解壓JavaCC2_1.zip文件后,打開DOS命令提示符窗口,來到剛解壓生成的目錄,輸入如下命令來安裝JavaCC(如圖1所示):
          ?????? java -cp ./ JavaCC2_1 -c

          ???????????????????????             (圖1)
          ?
          在接受協(xié)議之后,選擇要安裝的目錄路徑,回車后就進行自動的安裝操作了,等看到如圖
          2所示的提示表示已安裝成功。

          ??????????       (圖2)
          ?
            (3)安裝Ant
            http://ant.apache.org下載Ant的最新版本,解壓文件后,分別設置環(huán)境變量ANT_HOME與PATH。
            在DOS命令提示符窗口輸入ant,如果出現如圖3所示的提示,則表明已安裝成功。

          ??????????????     (圖3)
          ?
            (4)部署WebLucene工程
            
          本文使用的應用服務器為resin-3.0.17,將下載來的WebLucene壓縮包解壓到resin-3.0.17目錄下的webapps目錄中。
          ?
            2、Build項目
            (1)準備Build環(huán)境
            首先將weblucene目錄下的文件build.properties.default重命名為build.properties,打開此文件,將內容修改為如下的形式,讀者可依據自己的實際目錄來做相應調整:
          # ---------------------------------------------------------
          # WebLucene?BUILD?PROPERTIES
          # ---------------------------------------------------------
          jsdk_jar=E:\\resin-3.0.17\\lib\\jsdk-24.jar
          javacc.home=D:\\opensource\\JavaCC2_1\\javacc2.1\\bin
          javacc.zip.dir=D:\\opensource\\JavaCC2_1\\javacc2.1\\bin\\lib
          javacc.zip=D:\\opensource\\JavaCC2_1\\javacc2.1\\bin\\lib\\JavaCC.zip
            (2)Build工程
            在DOS命令提示符窗口中將當前路徑調整到weblucene目錄,輸入“ant build”命令,如出現圖4所示的提示,則表示已Build成功。如果build失敗,請檢查CLASSPATH中的環(huán)境變量以及build.properties文件中的相應配置是否正確。

          ????????????????????????????            (圖4)
          ?
            3、創(chuàng)建索引
            創(chuàng)建索引使用IndexRunner命令,位于/weblucene/WEB-INF/classes/IndexRunner.class,其參數格式為:
            -i xml_url?????? 輸入XML的URL
            -o output_dir??? 輸出索引的目錄
            在dump目錄中有一blog.xml文件,我們可以對其進行創(chuàng)建索引的測試。當然讀者也可以使用自己準備的素材來進行創(chuàng)建索引的測試,在后續(xù)文章中筆者將會對其作進一步的討論。
            在DOS命令提示符窗口中進行如圖5所示的操作,見到如下提示則表示創(chuàng)建索引成功:
            50 rows added Total time Use:0 second
            750 [main] INFO IndexRunner - Great! Indexing OK

          ?
          ????????????????????????????           (圖5)
          ?
          對于輸入上面這么多的命令,讀者可能會不太習慣,筆者制作了一個批處理文件index.bat,可以在http://www.cnblogs.com/Files/dev2dev/WebLucene之安裝習行錄index.rar 下載。讀者下載后可依據自己的實際目錄來做相應調整,然后雙擊此文件運行即可完成創(chuàng)建索引的操作了。
          ?
            4、搜索測試
            搜索使用SearchRunner 命令,位于 /weblucene/WEB-INF/classes/SearchRunner.class,其參數格式為:
            
          -i ?索引所在的目錄
            
          -f ?索引的字段名
            -k ?查詢的關鍵字
            在DOS命令提示符窗口中進行如圖6所示的操作,可以看到搜索結果被打印到屏幕上:

          ????????????????????????????????             (圖6)
          ?
          從上面的圖中可以看出WebLucene采用了二元分詞,在后續(xù)的文章中筆者將會對分詞作進一步的討論。
          ?
            5、部署Web應用
            (1)在resin.conf文件里加上如下的配置,讀者可依據自己的實際目錄來做相應調整:
            <host id="" root-directory=".">
             <web-appid='/weblucene' ?document-directory="E:\resin-3.0.17\webapps\weblucene\webapp"/>
            </host>
            (2)將weblucene/webapp/WEB-INF/conf/目錄下的log4j.conf.default重命名成 log4j.conf,并將文件中的log4j.appender.A1.File設置成為E:\\resin-3.0.17\\webapps\\weblucene\\webapp\\WEB-INF\\logs\\weblucene.log,請讀者依據自己的實際目錄來做調整。
            (3)啟動Resin應用服務器,打開瀏覽器在地址欄中輸入http://localhost:8080/weblucene /search.html會出現如圖7所示的頁面:

          ??????????????????????????????       (圖7)
          ?
          在搜索框中輸入關鍵字“路線圖”,點擊查詢后會出現如圖8所示的頁面:

          ?
          ??????????????????????????????           (圖8)
          ?
             好了,關于 WebLucene 的安裝就告一段落,在后續(xù)文章中筆者將來講述如何實現基于 WebLucene 的應用。?

          posted on 2006-08-30 14:07 xiaofeng 閱讀(251) 評論(0)  編輯  收藏 所屬分類: weblucene

          導航

          統(tǒng)計

          常用鏈接

          留言簿(2)

          隨筆分類

          隨筆檔案

          文章分類

          文章檔案

          收藏夾

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 八宿县| 普格县| 阳泉市| 禄劝| 浪卡子县| 陇川县| 突泉县| 临泉县| 水富县| 蒙城县| 寿光市| 镇坪县| 尼木县| 富平县| 西和县| 枣强县| 玉屏| 屏东市| 邛崃市| 呈贡县| 丰顺县| 贞丰县| 凌云县| 汕头市| 潍坊市| 丰宁| 尼玛县| 茶陵县| 鲁山县| 锦州市| 汶川县| 高淳县| 云安县| 镇宁| 友谊县| 电白县| 日喀则市| 北辰区| 桐庐县| 利川市| 文昌市|