Lucene從基礎到實戰高級應用(附帶Lucene+Struts2+Spring+IBatis實現華電內部搜索項目案例)
本課程在線學習地址:http://v.youku.com/v_show/id_XMTE5Mjk5MzQ0.html課程特色:理論結合實踐!每講前部分先將理論,然后用代碼去完全理論的實踐,
Lucene課程大綱:
1. Lucene概述
1.1 課程概述
1.2 認識Lucene
1.3 Lucene的經典應用
1.4 Lucene基本開發環境配置
2. Lucene系統架構
2.1 Lucene的特點
2.2 核心包及其功能介紹
2.3 Lucene核心索引類介紹
2.4 Lucene核心搜索類介紹
2.5 Lucene與關系數據庫
2.6 Lucene內部實現原理
3. 索引
3.1 為什么要用索引
3.2 Lucene索引的優越性
3.3 Lucene索引建立
3.4 利用Lucene組件建立索引
3.5 刪除Document
3.6 恢復刪除
3.7 Document更新操作
3.8 使用RamDirectory
3.9 Document的Boost設置
3.10 索引優化
4. 搜索
4.1 簡單搜索的實現
4.1.1 指定字段的搜索
4.1.2 ScoreDoc的運用
4.2 Query類的使用
4.2.1 搜索中使用TermQuery
4.2.2 搜索中使用RangeQuery
4.2.3 搜索中使用PreFixQuery
4.2.4 搜索中使用FuzzyQuery
4.2.5 搜索中使用WilcardQuery
4.2.6 搜索中使用BooleanQuery
4.4分頁搜索的實現
4.3 QueryParser類的使用
4.3.1 默認的字段中檢索
4.3.2 搜索中運用邏輯運算
4.3.3 前綴搜索和模糊搜索
4.3搜索的總結
5 分詞
5.1 分詞的基本原理
5.2 Lucene分詞器的使用
5.3 中文分詞
5.3.1 中文分詞的基本原理
5.3.2 優秀中文分詞器介紹
5.3.3在搜索中使用中文分詞器
6. 解析文檔
6.1 XML文件的索引
6.1.1 了解XPath
6.1.2 XML解析
6.2 PDF文檔的索引
6.1 使用PDFBox處理PDF文檔
6.2 使用xpdf來處理中文PDF文檔
6.3 HTML文檔索引
6.3.1 獲取HTML源文檔
6.3.2 使用JTidy
6.3.2 使用NekoHTML
6.3.3 使用HttpClient
6.3.4 使用HTMLParser
6.4 Word文檔的索引
6.4.1 POI對Word的處理類
6.4.2 使用Jacob來處理Word文檔
7. 高亮
7.1 高亮的基本原理
7.2 在搜索中使用高亮
8. 網絡爬蟲Heritrix
8.1 Heritrix使用入門
8.2 Heritrix的架構
8.3 Heritrix的應用
9項目實戰-華電企業內部文檔搜索系統(項目截圖稍后公布)
9.1 需求說明
9.2 系統架構介紹
9.2.1 技術方案的選擇
9.2.2 使用Ibatis
9.3 系統模塊分析
9.4 系統開發
項目涉及技術點和內容:
知識范圍:
全文檢索,倒排索引,中文分詞,爬蟲,文檔解析,ibatis等
技術選型:
Lucene+Struts2+Spring+IBatis
項目價值:
本項目是企業級的搜索系統,既可以自成體系,拿出來作為一個單獨的系統里來使用;也可以集成到其他現有的系統中,成為其他系統的一個重要的模塊(現在很多網站內部都集成了一個全文檢索系統,很多OA系統都有一個全文檢索系統)。
項目配套截圖: