xiaomage234

生命本就是一次凄美的漂流，記憶中放不下的，永遠(yuǎn)是孩提時(shí)代的那一份浪漫與純真！

My Links

Blog Stats

Posts - 955
Stories - 34
Comments - 162
Trackbacks - 0

留言簿(26)

隨筆分類

文章分類

文章檔案

博客連接

cuiyi's blog
xiaocui
中文愛百科
中文愛百科
阿海的blog

搜索

閱讀排行榜

評(píng)論排行榜

搜索引擎選擇： Elasticsearch與Solr

搜索引擎選型調(diào)研文檔

Elasticsearch簡(jiǎn)介^*

Elasticsearch是一個(gè)實(shí)時(shí)的分布式搜索和分析引擎。它可以幫助你用前所未有的速度去處理大規(guī)模數(shù)據(jù)。

它可以用于全文搜索，結(jié)構(gòu)化搜索以及分析，當(dāng)然你也可以將這三者進(jìn)行組合。

Elasticsearch是一個(gè)建立在全文搜索引擎 Apache Lucene™ 基礎(chǔ)上的搜索引擎，可以說Lucene是當(dāng)今最先進(jìn)，最高效的全功能開源搜索引擎框架。

但是Lucene只是一個(gè)框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene。需要很多的學(xué)習(xí)了解，才能明白它是如何運(yùn)行的，Lucene確實(shí)非常復(fù)雜。

Elasticsearch使用Lucene作為內(nèi)部引擎，但是在使用它做全文搜索時(shí)，只需要使用統(tǒng)一開發(fā)好的API即可，而不需要了解其背后復(fù)雜的Lucene的運(yùn)行原理。

當(dāng)然Elasticsearch并不僅僅是Lucene這么簡(jiǎn)單，它不但包括了全文搜索功能，還可以進(jìn)行以下工作:

分布式實(shí)時(shí)文件存儲(chǔ)，并將每一個(gè)字段都編入索引，使其可以被搜索。
實(shí)時(shí)分析的分布式搜索引擎。
可以擴(kuò)展到上百臺(tái)服務(wù)器，處理PB級(jí)別的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。

這么多的功能被集成到一臺(tái)服務(wù)器上，你可以輕松地通過客戶端或者任何你喜歡的程序語(yǔ)言與ES的RESTful API進(jìn)行交流。

Elasticsearch的上手是非常簡(jiǎn)單的。它附帶了很多非常合理的默認(rèn)值，這讓初學(xué)者很好地避免一上手就要面對(duì)復(fù)雜的理論，

它安裝好了就可以使用了，用很小的學(xué)習(xí)成本就可以變得很有生產(chǎn)力。

隨著越學(xué)越深入，還可以利用Elasticsearch更多高級(jí)的功能，整個(gè)引擎可以很靈活地進(jìn)行配置?？梢愿鶕?jù)自身需求來(lái)定制屬于自己的Elasticsearch。

使用案例：

維基百科使用Elasticsearch來(lái)進(jìn)行全文搜做并高亮顯示關(guān)鍵詞，以及提供search-as-you-type、did-you-mean等搜索建議功能。
英國(guó)衛(wèi)報(bào)使用Elasticsearch來(lái)處理訪客日志，以便能將公眾對(duì)不同文章的反應(yīng)實(shí)時(shí)地反饋給各位編輯。
StackOverflow將全文搜索與地理位置和相關(guān)信息進(jìn)行結(jié)合，以提供more-like-this相關(guān)問題的展現(xiàn)。
GitHub使用Elasticsearch來(lái)檢索超過1300億行代碼。
每天，Goldman Sachs使用它來(lái)處理5TB數(shù)據(jù)的索引，還有很多投行使用它來(lái)分析股票市場(chǎng)的變動(dòng)。

但是Elasticsearch并不只是面向大型企業(yè)的，它還幫助了很多類似DataDog以及Klout的創(chuàng)業(yè)公司進(jìn)行了功能的擴(kuò)展。

Elasticsearch的優(yōu)缺點(diǎn)^^:

優(yōu)點(diǎn)

Elasticsearch是分布式的。不需要其他組件，分發(fā)是實(shí)時(shí)的，被叫做”Push replication”。
Elasticsearch 完全支持 Apache Lucene 的接近實(shí)時(shí)的搜索。
處理多租戶（multitenancy）不需要特殊配置，而Solr則需要更多的高級(jí)設(shè)置。
Elasticsearch 采用 Gateway 的概念，使得完備份更加簡(jiǎn)單。
各節(jié)點(diǎn)組成對(duì)等的網(wǎng)絡(luò)結(jié)構(gòu)，某些節(jié)點(diǎn)出現(xiàn)故障時(shí)會(huì)自動(dòng)分配其他節(jié)點(diǎn)代替其進(jìn)行工作。

缺點(diǎn)

只有一名開發(fā)者（當(dāng)前Elasticsearch GitHub組織已經(jīng)不只如此，已經(jīng)有了相當(dāng)活躍的維護(hù)者）
還不夠自動(dòng)（不適合當(dāng)前新的Index Warmup API）

Solr簡(jiǎn)介^*

Solr（讀作“solar”）是Apache Lucene項(xiàng)目的開源企業(yè)搜索平臺(tái)。其主要功能包括全文檢索、命中標(biāo)示、分面搜索、動(dòng)態(tài)聚類、數(shù)據(jù)庫(kù)集成，以及富文本（如Word、PDF）的處理。Solr是高度可擴(kuò)展的，并提供了分布式搜索和索引復(fù)制。Solr是最流行的企業(yè)級(jí)搜索引擎，Solr4 還增加了NoSQL支持。

Solr是用Java編寫、運(yùn)行在Servlet容器（如 Apache Tomcat 或Jetty）的一個(gè)獨(dú)立的全文搜索服務(wù)器。 Solr采用了 Lucene Java 搜索庫(kù)為核心的全文索引和搜索，并具有類似REST的HTTP/XML和JSON的API。Solr強(qiáng)大的外部配置功能使得無(wú)需進(jìn)行Java編碼，便可對(duì) 其進(jìn)行調(diào)整以適應(yīng)多種類型的應(yīng)用程序。Solr有一個(gè)插件架構(gòu)，以支持更多的高級(jí)定制。

因?yàn)?010年 Apache Lucene 和 Apache Solr 項(xiàng)目合并，兩個(gè)項(xiàng)目是由同一個(gè)Apache軟件基金會(huì)開發(fā)團(tuán)隊(duì)制作實(shí)現(xiàn)的。提到技術(shù)或產(chǎn)品時(shí)，Lucene/Solr或Solr/Lucene是一樣的。

Solr的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

Solr有一個(gè)更大、更成熟的用戶、開發(fā)和貢獻(xiàn)者社區(qū)。
支持添加多種格式的索引，如：HTML、PDF、微軟 Office 系列軟件格式以及 JSON、XML、CSV 等純文本格式。
Solr比較成熟、穩(wěn)定。
不考慮建索引的同時(shí)進(jìn)行搜索，速度更快。

缺點(diǎn)

建立索引時(shí)，搜索效率下降，實(shí)時(shí)索引搜索效率不高。

Elasticsearch與Solr的比較^*

當(dāng)單純的對(duì)已有數(shù)據(jù)進(jìn)行搜索時(shí)，Solr更快。

Search Fesh Index While Idle

當(dāng)實(shí)時(shí)建立索引時(shí), Solr會(huì)產(chǎn)生io阻塞，查詢性能較差, Elasticsearch具有明顯的優(yōu)勢(shì)。

search_fresh_index_while_indexing

隨著數(shù)據(jù)量的增加，Solr的搜索效率會(huì)變得更低，而Elasticsearch卻沒有明顯的變化。

search_fresh_index_while_indexing

綜上所述，Solr的架構(gòu)不適合實(shí)時(shí)搜索的應(yīng)用。

實(shí)際生產(chǎn)環(huán)境測(cè)試^*

下圖為將搜索引擎從Solr轉(zhuǎn)到Elasticsearch以后的平均查詢速度有了50倍的提升。

average_execution_time

Elasticsearch 與 Solr 的比較總結(jié)

二者安裝都很簡(jiǎn)單；
Solr 利用 Zookeeper 進(jìn)行分布式管理，而 Elasticsearch 自身帶有分布式協(xié)調(diào)管理功能;
Solr 支持更多格式的數(shù)據(jù)，而 Elasticsearch 僅支持json文件格式；
Solr 官方提供的功能更多，而 Elasticsearch 本身更注重于核心功能，高級(jí)功能多有第三方插件提供；
Solr 在傳統(tǒng)的搜索應(yīng)用中表現(xiàn)好于 Elasticsearch，但在處理實(shí)時(shí)搜索應(yīng)用時(shí)效率明顯低于 Elasticsearch。

Solr 是傳統(tǒng)搜索應(yīng)用的有力解決方案，但 Elasticsearch 更適用于新興的實(shí)時(shí)搜索應(yīng)用。

其他基于Lucene的開源搜索引擎解決方案^*

直接使用 Lucene

說明：Lucene 是一個(gè) JAVA 搜索類庫(kù)，它本身并不是一個(gè)完整的解決方案，需要額外的開發(fā)工作。

優(yōu)點(diǎn)：成熟的解決方案，有很多的成功案例。apache 頂級(jí)項(xiàng)目，正在持續(xù)快速的進(jìn)步。龐大而活躍的開發(fā)社區(qū)，大量的開發(fā)人員。它只是一個(gè)類庫(kù)，有足夠的定制和優(yōu)化空間：經(jīng)過簡(jiǎn)單定制，就可以滿足絕大部分常見的需求；經(jīng)過優(yōu)化，可以支持 10億+ 量級(jí)的搜索。

缺點(diǎn)：需要額外的開發(fā)工作。所有的擴(kuò)展，分布式，可靠性等都需要自己實(shí)現(xiàn)；非實(shí)時(shí)，從建索引到可以搜索中間有一個(gè)時(shí)間延遲，而當(dāng)前的“近實(shí)時(shí)”(Lucene Near Real Time search)搜索方案的可擴(kuò)展性有待進(jìn)一步完善

Katta

說明：基于 Lucene 的，支持分布式，可擴(kuò)展，具有容錯(cuò)功能，準(zhǔn)實(shí)時(shí)的搜索方案。

優(yōu)點(diǎn)：開箱即用，可以與 Hadoop 配合實(shí)現(xiàn)分布式。具備擴(kuò)展和容錯(cuò)機(jī)制。

缺點(diǎn)：只是搜索方案，建索引部分還是需要自己實(shí)現(xiàn)。在搜索功能上，只實(shí)現(xiàn)了最基本的需求。成功案例較少，項(xiàng)目的成熟度稍微差一些。因?yàn)樾枰С址植际剑瑢?duì)于一些復(fù)雜的查詢需求，定制的難度會(huì)比較大。

Hadoop contrib/index

說明：Map/Reduce 模式的，分布式建索引方案，可以跟 Katta 配合使用。

優(yōu)點(diǎn)：分布式建索引，具備可擴(kuò)展性。

缺點(diǎn)：只是建索引方案，不包括搜索實(shí)現(xiàn)。工作在批處理模式，對(duì)實(shí)時(shí)搜索的支持不佳。

LinkedIn 的開源方案

說明：基于 Lucene 的一系列解決方案，包括準(zhǔn)實(shí)時(shí)搜索 zoie ，facet 搜索實(shí)現(xiàn) bobo ，機(jī)器學(xué)習(xí)算法 decomposer ，摘要存儲(chǔ)庫(kù) krati ，數(shù)據(jù)庫(kù)模式包裝 sensei 等等

優(yōu)點(diǎn)：經(jīng)過驗(yàn)證的解決方案，支持分布式，可擴(kuò)展，豐富的功能實(shí)現(xiàn)

缺點(diǎn)：與 linkedin 公司的聯(lián)系太緊密，可定制性比較差

Lucandra

說明：基于 Lucene，索引存在 cassandra 數(shù)據(jù)庫(kù)中

優(yōu)點(diǎn)：參考 cassandra 的優(yōu)點(diǎn)

缺點(diǎn)：參考 cassandra 的缺點(diǎn)。另外，這只是一個(gè) demo，沒有經(jīng)過大量驗(yàn)證

HBasene

說明：基于 Lucene，索引存在 HBase 數(shù)據(jù)庫(kù)中

優(yōu)點(diǎn)：參考 HBase 的優(yōu)點(diǎn)

缺點(diǎn)：參考 HBase 的缺點(diǎn)。另外，在實(shí)現(xiàn)中，lucene terms 是存成行，但每個(gè) term 對(duì)應(yīng)的 posting lists 是以列的方式存儲(chǔ)的。隨著單個(gè) term 的 posting lists 的增大，查詢時(shí)的速度受到的影響會(huì)非常大

轉(zhuǎn)載：http://blog.csdn.net/jameshadoop/article/details/44905643

posted on 2016-03-17 15:16 小馬歌閱讀(432) 評(píng)論(0) 編輯收藏所屬分類: java groovy 、bigdata

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: Java堆外內(nèi)存排查小結(jié)【轉(zhuǎn)】 java問題排查工具庫(kù)（轉(zhuǎn)）【OSGI】1.初識(shí)OSGI-到底什么是OSGI 【轉(zhuǎn)】《Spring Boot極簡(jiǎn)教程》第5章 Spring Boot自動(dòng)配置原理【轉(zhuǎn)】 Java注解（Annotation）原理詳解【轉(zhuǎn)】深入理解Java：注解（Annotation）--注解處理器 jvm 打印所有XX參數(shù)及值[轉(zhuǎn)] 雜談GC【轉(zhuǎn)】深入淺出 JIT 編譯器淺談對(duì)JIT編譯器的理解

My Links

Blog Stats

留言簿(26)

隨筆分類

文章分類

文章檔案

博客連接

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

搜索引擎選擇： Elasticsearch與Solr

搜索引擎選型調(diào)研文檔

Elasticsearch簡(jiǎn)介*

Elasticsearch的優(yōu)缺點(diǎn)**:

優(yōu)點(diǎn)

缺點(diǎn)

Solr簡(jiǎn)介*

Solr的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

缺點(diǎn)

Elasticsearch與Solr的比較*

實(shí)際生產(chǎn)環(huán)境測(cè)試*

Elasticsearch 與 Solr 的比較總結(jié)

其他基于Lucene的開源搜索引擎解決方案*

Elasticsearch簡(jiǎn)介^*

Elasticsearch的優(yōu)缺點(diǎn)^^:

Solr簡(jiǎn)介^*

Elasticsearch與Solr的比較^*

實(shí)際生產(chǎn)環(huán)境測(cè)試^*

其他基于Lucene的開源搜索引擎解決方案^*