搜索引擎選型調(diào)研文檔

Elasticsearch簡(jiǎn)介*

Elasticsearch是一個(gè)實(shí)時(shí)的分布式搜索和分析引擎。它可以幫助你用前所未有的速度去處理大規(guī)模數(shù)據(jù)。

它可以用于全文搜索,結(jié)構(gòu)化搜索以及分析,當(dāng)然你也可以將這三者進(jìn)行組合。

Elasticsearch是一個(gè)建立在全文搜索引擎 Apache Lucene™ 基礎(chǔ)上的搜索引擎,可以說Lucene是當(dāng)今最先進(jìn),最高效的全功能開源搜索引擎框架。

但是Lucene只是一個(gè)框架,要充分利用它的功能,需要使用JAVA,并且在程序中集成Lucene。需要很多的學(xué)習(xí)了解,才能明白它是如何運(yùn)行的,Lucene確實(shí)非常復(fù)雜。

Elasticsearch使用Lucene作為內(nèi)部引擎,但是在使用它做全文搜索時(shí),只需要使用統(tǒng)一開發(fā)好的API即可,而不需要了解其背后復(fù)雜的Lucene的運(yùn)行原理。

當(dāng)然Elasticsearch并不僅僅是Lucene這么簡(jiǎn)單,它不但包括了全文搜索功能,還可以進(jìn)行以下工作:

  • 分布式實(shí)時(shí)文件存儲(chǔ),并將每一個(gè)字段都編入索引,使其可以被搜索。

  • 實(shí)時(shí)分析的分布式搜索引擎。

  • 可以擴(kuò)展到上百臺(tái)服務(wù)器,處理PB級(jí)別的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。

這么多的功能被集成到一臺(tái)服務(wù)器上,你可以輕松地通過客戶端或者任何你喜歡的程序語(yǔ)言與ES的RESTful API進(jìn)行交流。

Elasticsearch的上手是非常簡(jiǎn)單的。它附帶了很多非常合理的默認(rèn)值,這讓初學(xué)者很好地避免一上手就要面對(duì)復(fù)雜的理論,

它安裝好了就可以使用了,用很小的學(xué)習(xí)成本就可以變得很有生產(chǎn)力。

隨著越學(xué)越深入,還可以利用Elasticsearch更多高級(jí)的功能,整個(gè)引擎可以很靈活地進(jìn)行配置??梢愿鶕?jù)自身需求來(lái)定制屬于自己的Elasticsearch。

使用案例:

  • 維基百科使用Elasticsearch來(lái)進(jìn)行全文搜做并高亮顯示關(guān)鍵詞,以及提供search-as-you-type、did-you-mean等搜索建議功能。

  • 英國(guó)衛(wèi)報(bào)使用Elasticsearch來(lái)處理訪客日志,以便能將公眾對(duì)不同文章的反應(yīng)實(shí)時(shí)地反饋給各位編輯。

  • StackOverflow將全文搜索與地理位置和相關(guān)信息進(jìn)行結(jié)合,以提供more-like-this相關(guān)問題的展現(xiàn)。

  • GitHub使用Elasticsearch來(lái)檢索超過1300億行代碼。

  • 每天,Goldman Sachs使用它來(lái)處理5TB數(shù)據(jù)的索引,還有很多投行使用它來(lái)分析股票市場(chǎng)的變動(dòng)。

但是Elasticsearch并不只是面向大型企業(yè)的,它還幫助了很多類似DataDog以及Klout的創(chuàng)業(yè)公司進(jìn)行了功能的擴(kuò)展。

Elasticsearch的優(yōu)缺點(diǎn)**:

優(yōu)點(diǎn)

  1. Elasticsearch是分布式的。不需要其他組件,分發(fā)是實(shí)時(shí)的,被叫做”Push replication”。
  2. Elasticsearch 完全支持 Apache Lucene 的接近實(shí)時(shí)的搜索。
  3. 處理多租戶(multitenancy)不需要特殊配置,而Solr則需要更多的高級(jí)設(shè)置。
  4. Elasticsearch 采用 Gateway 的概念,使得完備份更加簡(jiǎn)單。
  5. 各節(jié)點(diǎn)組成對(duì)等的網(wǎng)絡(luò)結(jié)構(gòu),某些節(jié)點(diǎn)出現(xiàn)故障時(shí)會(huì)自動(dòng)分配其他節(jié)點(diǎn)代替其進(jìn)行工作。

缺點(diǎn)

  1. 只有一名開發(fā)者(當(dāng)前Elasticsearch GitHub組織已經(jīng)不只如此,已經(jīng)有了相當(dāng)活躍的維護(hù)者)
  2. 還不夠自動(dòng)(不適合當(dāng)前新的Index Warmup API)

Solr簡(jiǎn)介*

Solr(讀作“solar”)是Apache Lucene項(xiàng)目的開源企業(yè)搜索平臺(tái)。其主要功能包括全文檢索、命中標(biāo)示、分面搜索、動(dòng)態(tài)聚類、數(shù)據(jù)庫(kù)集成,以及富文本(如Word、PDF)的處理。Solr是高度可擴(kuò)展的,并提供了分布式搜索和索引復(fù)制。Solr是最流行的企業(yè)級(jí)搜索引擎,Solr4 還增加了NoSQL支持。

Solr是用Java編寫、運(yùn)行在Servlet容器(如 Apache Tomcat 或Jetty)的一個(gè)獨(dú)立的全文搜索服務(wù)器。 Solr采用了 Lucene Java 搜索庫(kù)為核心的全文索引和搜索,并具有類似REST的HTTP/XML和JSON的API。Solr強(qiáng)大的外部配置功能使得無(wú)需進(jìn)行Java編碼,便可對(duì) 其進(jìn)行調(diào)整以適應(yīng)多種類型的應(yīng)用程序。Solr有一個(gè)插件架構(gòu),以支持更多的高級(jí)定制。

因?yàn)?010年 Apache Lucene 和 Apache Solr 項(xiàng)目合并,兩個(gè)項(xiàng)目是由同一個(gè)Apache軟件基金會(huì)開發(fā)團(tuán)隊(duì)制作實(shí)現(xiàn)的。提到技術(shù)或產(chǎn)品時(shí),Lucene/Solr或Solr/Lucene是一樣的。

Solr的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

  1. Solr有一個(gè)更大、更成熟的用戶、開發(fā)和貢獻(xiàn)者社區(qū)。
  2. 支持添加多種格式的索引,如:HTML、PDF、微軟 Office 系列軟件格式以及 JSON、XML、CSV 等純文本格式。
  3. Solr比較成熟、穩(wěn)定。
  4. 不考慮建索引的同時(shí)進(jìn)行搜索,速度更快。

缺點(diǎn)

  1. 建立索引時(shí),搜索效率下降,實(shí)時(shí)索引搜索效率不高。

Elasticsearch與Solr的比較*

當(dāng)單純的對(duì)已有數(shù)據(jù)進(jìn)行搜索時(shí),Solr更快。

Search Fesh Index While Idle

當(dāng)實(shí)時(shí)建立索引時(shí), Solr會(huì)產(chǎn)生io阻塞,查詢性能較差, Elasticsearch具有明顯的優(yōu)勢(shì)。

search_fresh_index_while_indexing

隨著數(shù)據(jù)量的增加,Solr的搜索效率會(huì)變得更低,而Elasticsearch卻沒有明顯的變化。

search_fresh_index_while_indexing

綜上所述,Solr的架構(gòu)不適合實(shí)時(shí)搜索的應(yīng)用。

實(shí)際生產(chǎn)環(huán)境測(cè)試*

下圖為將搜索引擎從Solr轉(zhuǎn)到Elasticsearch以后的平均查詢速度有了50倍的提升。

average_execution_time

Elasticsearch 與 Solr 的比較總結(jié)

  • 二者安裝都很簡(jiǎn)單;
  • Solr 利用 Zookeeper 進(jìn)行分布式管理,而 Elasticsearch 自身帶有分布式協(xié)調(diào)管理功能;
  • Solr 支持更多格式的數(shù)據(jù),而 Elasticsearch 僅支持json文件格式;
  • Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高級(jí)功能多有第三方插件提供;
  • Solr 在傳統(tǒng)的搜索應(yīng)用中表現(xiàn)好于 Elasticsearch,但在處理實(shí)時(shí)搜索應(yīng)用時(shí)效率明顯低于 Elasticsearch。

Solr 是傳統(tǒng)搜索應(yīng)用的有力解決方案,但 Elasticsearch 更適用于新興的實(shí)時(shí)搜索應(yīng)用。

其他基于Lucene的開源搜索引擎解決方案*

  1. 直接使用 Lucene

說明:Lucene 是一個(gè) JAVA 搜索類庫(kù),它本身并不是一個(gè)完整的解決方案,需要額外的開發(fā)工作。

優(yōu)點(diǎn):成熟的解決方案,有很多的成功案例。apache 頂級(jí)項(xiàng)目,正在持續(xù)快速的進(jìn)步。龐大而活躍的開發(fā)社區(qū),大量的開發(fā)人員。它只是一個(gè)類庫(kù),有足夠的定制和優(yōu)化空間:經(jīng)過簡(jiǎn)單定制,就可以滿足絕大部分常見的需求;經(jīng)過優(yōu)化,可以支持 10億+ 量級(jí)的搜索。

缺點(diǎn):需要額外的開發(fā)工作。所有的擴(kuò)展,分布式,可靠性等都需要自己實(shí)現(xiàn);非實(shí)時(shí),從建索引到可以搜索中間有一個(gè)時(shí)間延遲,而當(dāng)前的“近實(shí)時(shí)”(Lucene Near Real Time search)搜索方案的可擴(kuò)展性有待進(jìn)一步完善

說明:基于 Lucene 的,支持分布式,可擴(kuò)展,具有容錯(cuò)功能,準(zhǔn)實(shí)時(shí)的搜索方案。

優(yōu)點(diǎn):開箱即用,可以與 Hadoop 配合實(shí)現(xiàn)分布式。具備擴(kuò)展和容錯(cuò)機(jī)制。

缺點(diǎn):只是搜索方案,建索引部分還是需要自己實(shí)現(xiàn)。在搜索功能上,只實(shí)現(xiàn)了最基本的需求。成功案例較少,項(xiàng)目的成熟度稍微差一些。因?yàn)樾枰С址植际剑瑢?duì)于一些復(fù)雜的查詢需求,定制的難度會(huì)比較大。

說明:Map/Reduce 模式的,分布式建索引方案,可以跟 Katta 配合使用。

優(yōu)點(diǎn):分布式建索引,具備可擴(kuò)展性。

缺點(diǎn):只是建索引方案,不包括搜索實(shí)現(xiàn)。工作在批處理模式,對(duì)實(shí)時(shí)搜索的支持不佳。

說明:基于 Lucene 的一系列解決方案,包括 準(zhǔn)實(shí)時(shí)搜索 zoie ,facet 搜索實(shí)現(xiàn) bobo ,機(jī)器學(xué)習(xí)算法 decomposer ,摘要存儲(chǔ)庫(kù) krati ,數(shù)據(jù)庫(kù)模式包裝 sensei 等等

優(yōu)點(diǎn):經(jīng)過驗(yàn)證的解決方案,支持分布式,可擴(kuò)展,豐富的功能實(shí)現(xiàn)

缺點(diǎn):與 linkedin 公司的聯(lián)系太緊密,可定制性比較差

說明:基于 Lucene,索引存在 cassandra 數(shù)據(jù)庫(kù)中

優(yōu)點(diǎn):參考 cassandra 的優(yōu)點(diǎn)

缺點(diǎn):參考 cassandra 的缺點(diǎn)。另外,這只是一個(gè) demo,沒有經(jīng)過大量驗(yàn)證

說明:基于 Lucene,索引存在 HBase 數(shù)據(jù)庫(kù)中

優(yōu)點(diǎn):參考 HBase 的優(yōu)點(diǎn)

缺點(diǎn):參考 HBase 的缺點(diǎn)。另外,在實(shí)現(xiàn)中,lucene terms 是存成行,但每個(gè) term 對(duì)應(yīng)的 posting lists 是以列的方式存儲(chǔ)的。隨著單個(gè) term 的 posting lists 的增大,查詢時(shí)的速度受到的影響會(huì)非常大

 

轉(zhuǎn)載:http://blog.csdn.net/jameshadoop/article/details/44905643