想看的書---<<開發(fā)自己的搜索引擎---Lucene 2.0 + Heritrix>>
Posted on 2007-06-26 21:47 tanzek 閱讀(542) 評論(1) 編輯 收藏開發(fā)自己的搜索引擎---Lucene 2.0 + Heritrix
【內(nèi)容簡介】
本書詳細(xì)介紹了如何應(yīng)用Lucene進(jìn)行搜索引擎開發(fā),通過學(xué)習(xí)本書,讀者可以完成構(gòu)建一個(gè)企業(yè)級的搜索引擎網(wǎng)站。.
全書共分為14章,內(nèi)容包括搜索引擎與信息檢索基礎(chǔ),Lucene入門實(shí)例,Lucene索引的建立,使用Lucene構(gòu)建搜索,Lucene的排序,Lucene的分析器,對Word、Excel和PDF格式文檔的解析,Compass搜索引擎框架,Lucene分布式和Google Search API,爬蟲Heritrix,綜合實(shí)例之準(zhǔn)備篇,綜合實(shí)例之HTMLParser篇,綜合實(shí)例之DWR篇,綜合實(shí)例之Web編。..
本書是國內(nèi)第一本使用Lucene和Heritrix來講解搜索引擎構(gòu)建的書,通過詳細(xì)的對API和源代碼的分析,力求使讀者在應(yīng)用的基礎(chǔ)上,能夠深入其核心,自行擴(kuò)展和開發(fā)相應(yīng)組件,發(fā)揮想象力,開發(fā)出更具有創(chuàng)意的搜索引擎產(chǎn)品。本書適合Java程序員和從事計(jì)算機(jī)軟件開發(fā)的其他編程人員閱讀,同時(shí)也可以作為搜索引擎愛好者的入門書籍。
由于目前市面上從技術(shù)層面介紹搜索引擎的書并不多,即使有,也大多停留在理論階段,而非搜索引擎的開發(fā)過程。因此,可以說本書是國內(nèi)第一本詳細(xì)介紹搜索引擎開發(fā)過程的圖書。
(1)采用最新的Lucene 2.0。以前大家用的1.4.3版本,而最新的Lucene 2.0重寫了很多API,內(nèi)部的實(shí)現(xiàn)方法也有了很大優(yōu)化。本書的代碼都是在2.0版本下調(diào)試通過的,這樣可以幫助讀者了解Lucene的更多新功能。
(2)配有一個(gè)完整的搜索引擎案例。這個(gè)案例有很強(qiáng)的實(shí)用價(jià)值,只需稍加修改,就能應(yīng)用于實(shí)際項(xiàng)目,市場價(jià)值在30000元以上!
(3)著重解決開發(fā)人員頭痛的問題。本書的目的是指導(dǎo)項(xiàng)目實(shí)踐,因此沒有羅列各個(gè)API的用法,而是對常見的開發(fā)問題進(jìn)行深入探討,比如本書的第7章,是專門為解決“Word,Excel和PDF文件如何解析”這個(gè)問題而設(shè)置的。
(4)內(nèi)容新穎,前衛(wèi)實(shí)用。本書介紹了Compass、Heritrix、DWR和HTMLParser等內(nèi)容。在搜索引擎開發(fā)的過程中,這些均為相當(dāng)重要且實(shí)用的技術(shù),筆者經(jīng)過自身實(shí)踐將它們展現(xiàn)給讀者,希望能讓讀者在學(xué)習(xí)Lucene的同時(shí)開拓視野。
光盤特色:
配有一個(gè)完整的搜索引擎案例。這個(gè)案例有很強(qiáng)的實(shí)用價(jià)值,只需稍加修改,就能應(yīng)用于實(shí)際項(xiàng)目,市場價(jià)值在30000元以上!...
[后注]:
???一直以來都對搜索引擎很有興趣的,最近在學(xué)習(xí)JAVA,看到了Lucene,所以就找了一下,覺得這本書應(yīng)該還可以的。只是苦于一直沒有可靠的經(jīng)濟(jì)來源,所以再等一會(huì),看能不能等到電子版哦。唉,這樣子偷偷摸摸地好苦啊!