分詞器:對文本資源進行切分,將文本按規則切 分為一個個可以進行索引的最小單位(關鍵詞)。
某文檔中的一段文本,經過分詞后如下:
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
在 |
Internet |
上 |
采集 |
信息 |
的 |
軟件 |
被 |
叫做 |
爬蟲 |
或 |
蜘蛛 |
。 |
建立索引和進行搜索時都要用到分詞器。為了保證能正確的搜索到結果,在建立索引 與進行搜索時使用的分詞器應是同一個。
全文檢索不區分大小寫
對于中文分詞,通常有三種方式:單字分詞、二分法分詞、詞典分詞。
最好的分詞器:詞庫分詞
1.作用:
2.怎么用:
RangeFilter,可以對搜索出來的結果進行過 濾。
Lucene的搜索結果默認按相關度排序的。所謂相關度,就是文檔的得分。Lucene有一個評分機制,就是對檢索結果按某種標準進行評估,然后按分值的高低來對結果進行排序。
查詢對象
TermQuery
整個意思就是在title中查詢檢索
關鍵詞查詢RangeQuery
短語查詢
BooleanQuerypublic void
add(Query
Occur
Occur.MUST,Occur.MUST_NOT,Occur.SHOULD。
1,
2,
3,
Lucene
Hibernate操作實現原理:
主配置文件 :hibernate.cfg.xml
映射文件:.hbm.xml
同樣,Compass實現原理如圖: