Lucene在Web站內(nèi)信息搜索系統(tǒng)中的應(yīng)用(全文開發(fā)文檔+視頻講解)
本文主要闡述了Web搜索引擎的基本原理、核心技術(shù)和處理流程。對于搜索引擎的內(nèi)部軟件組織和數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)存儲方法進(jìn)行了深入的研究和分析。同時,對如何提高搜索引擎的精度和性能等,進(jìn)行了深入細(xì)致的研究,對其中的核心算法進(jìn)行了討論和評估。本文還介紹了基于Java的全文索引引擎Lucene軟件包,并應(yīng)用該軟件包,搭建了華電Web網(wǎng)站站內(nèi)信息搜索系統(tǒng)。并利用搜索引擎頁面優(yōu)先度算
法改進(jìn)了其基礎(chǔ)排序算法,使得信息檢索系統(tǒng)的搜索性能得到進(jìn)一步的提高。
搜索引擎的軟件設(shè)計必須考慮到兩個重要因素的影響:海量的文檔存儲和及時的響應(yīng)速度。雖然CPU運(yùn)算速度和海量存儲設(shè)備的硬件存取速度在不斷的提高,但是硬盤搜索時間仍然至少需要 loms以上。因此,搜索引擎軟件設(shè)計的關(guān)鍵是盡量避免硬盤搜索,這也是搜索引擎數(shù)據(jù)結(jié)構(gòu)設(shè)計的關(guān)鍵所在,由于搜索引擎對海量文件的存儲要求,而操作系統(tǒng)對大型文件的支持局限性。
本文完整的文檔開發(fā)資料,視頻資料下載地址: 點(diǎn)擊下載