国产亚洲视频在线,色吊丝在线永久观看最新版本,日韩欧美中文在线观看

Introducing Apache Spark 2.0 Now generally available on Databricks

Thu, 08 Sep 2016 06:51:00 GMT

Today, we’re excited to announce the general availability of Apache Spark 2.0 on Databricks. This release builds on what the community has learned in the past two years, doubling down on what users love and fixing the pain points. This post summarizes the three major themes—easier, faster, and smarter—that comprise Spark 2.0. We also explore many of them in more detail in our anthology of Spark 2.0 content.

Two months ago, we launched a preview release of Apache Spark 2.0 on Databricks. As you can see in the chart below, 10% of our clusters are already using this release, as customers experiment with the new features and give us feedback. Thanks to this experience, we are excited to be the first commercial vendor to support Spark 2.0.

Apache Spark Usage over Time by Version

Now, let’s dive into what’s new in Apache Spark 2.0.

Easier: ANSI SQL and Streamlined APIs

One thing we are proud of in Spark is APIs that are simple, intuitive, and expressive. Spark 2.0 continues this tradition, focusing on two areas: (1) standard SQL support and (2) unifying DataFrame/Dataset API.

On the SQL side, we have significantly expanded Spark’s SQL support, with the introduction of a new ANSI SQL parser and subqueries. Spark 2.0 can run all the 99 TPC-DS queries, which require many of the SQL:2003 features. Because SQL has been one of the primary interfaces to Spark, these extended capabilities drastically reduce the effort of porting legacy applications.

On the programmatic API side, we have streamlined Spark’s APIs:

Unifying DataFrames and Datasets in Scala/Java: Starting in Spark 2.0, DataFrame is just a type alias for Dataset of Row. Both the typed methods (e.g. map, filter, groupByKey) and the untyped methods (e.g. select, groupBy) are available on the Dataset class. Also, this new combined Dataset interface is the abstraction used for Structured Streaming. Since compile-time type-safety is not a feature in Python and R, the concept of Dataset does not apply to these language APIs. Instead, DataFrame remains the primary interface there, and is analogous to the single-node data frame notion in these languages. Get a peek fromthis notebook and this blog for the stories behind these APIs.
SparkSession: a new entry point that supersedes SQLContext and HiveContext. For users of the DataFrame API, a common source of confusion for Spark is which “context” to use. Now you can use SparkSession, which subsumes both, as a single entry point, asdemonstrated in this notebook. Note that the old SQLContext and HiveContext classes are still kept for backward compatibility.
Simpler, more performant Accumulator API: We have designed a new Accumulator APIthat has a simpler type hierarchy and support specialization for primitive types. The old Accumulator API has been deprecated but retained for backward compatibility
DataFrame-based Machine Learning API emerges as the primary ML API: With Spark 2.0, the spark.ml package, with its “pipeline” APIs, will emerge as the primary machine learning API. While the original spark.mllib package is preserved, future development will focus on the DataFrame-based API.
Machine learning pipeline persistence: Users can now save and load machine learning pipelines and models across all programming languages supported by Spark. See this blog post for more details and this notebook for examples.
Distributed algorithms in R: Added support for Generalized Linear Models (GLM), Naive Bayes, Survival Regression, and K-Means in R.
User-defined functions (UDFs) in R: Added support for running partition level UDFs (dapply and gapply) and hyper-parameter tuning (lapply).

Faster: Apache Spark as a Compiler

According to our 2015 Spark Survey, 91% of users consider performance as the most important aspect of Apache Spark. As a result, performance optimizations have always been a focus in our Spark development. Before we started planning our contributions to Spark 2.0, we asked ourselves a question: Spark is already pretty fast, but can we push the boundary and make Spark 10X faster?

This question led us to fundamentally rethink the way we build Spark’s physical execution layer. When you look into a modern data engine (e.g. Spark or other MPP databases), majority of the CPU cycles are spent in useless work, such as making virtual function calls or reading/writing intermediate data to CPU cache or memory. Optimizing performance by reducing the amount of CPU cycles wasted in these useless work has been a long time focus of modern compilers.

Spark 2.0 ships with the second generation Tungsten engine. This engine builds upon ideas from modern compilers and MPP databases and applies them to Spark workloads. The main idea is to emit optimized code at runtime that collapses the entire query into a single function, eliminating virtual function calls and leveraging CPU registers for intermediate data. We call this technique “whole-stage code generation.”

To give you a teaser, we have measured the time (in nanoseconds) it takes to process a row on one core for some of the operators in Spark 1.6 vs. Spark 2.0. The table below shows the improvements in Spark 2.0. Spark 1.6 also included an expression code generation technique that is used in some state-of-the-art commercial databases, but as you can see, many operators became an order of magnitude faster with whole-stage code generation.

You can see the power of whole-stage code generation in action in this notebook, in which we perform aggregations and joins on 1 billion records on a single machine.

Cost per Row (single thread)

primitive	Spark 1.6	Spark 2.0
filter	15ns	1.1ns
sum w/o group	14ns	0.9ns
sum w/ group	79ns	10.7ns
hash join	115ns	4.0ns
sort (8-bit entropy)	620ns	5.3ns
sort (64-bit entropy)	620ns	40ns
sort-merge join	750ns	700ns

How does this new engine work on end-to-end queries? We did some preliminary analysis using TPC-DS queries to compare Spark 1.6 and Spark 2.0:

Beyond whole-stage code generation to improve performance, a lot of work has also gone into improving the Catalyst optimizer for general query optimizations such as nullability propagation, as well as a new vectorized Parquet decoder that improved Parquet scan throughput by 3X. Read this blog post for more detail on the optimizations in Spark 2.0.

Smarter: Structured Streaming

Spark Streaming has long led the big data space as one of the first systems unifying batch and streaming computation. When its streaming API, called DStreams, was introduced in Spark 0.7, it offered developers with several powerful properties: exactly-once semantics, fault-tolerance at scale, strong consistency guarantees and high throughput.

However, after working with hundreds of real-world deployments of Spark Streaming, we found that applications that need to make decisions in real-time often require more than just a streaming engine. They require deep integration of the batch stack and the streaming stack, interaction with external storage systems, as well as the ability to cope with changes in business logic. As a result, enterprises want more than just a streaming engine; instead they need a full stack that enables them to develop end-to-end “continuous applications.”

Spark 2.0 tackles these use cases through a new API called Structured Streaming. Compared to existing streaming systems, Structured Streaming makes three key improvements:

Integrated API with batch jobs. To run a streaming computation, developers simply write a batch computation against the DataFrame / Dataset API, and Spark automaticallyincrementalizes the computation to run it in a streaming fashion (i.e. update the result as data comes in). This powerful design means that developers don’t have to manually manage state, failures, or keeping the application in sync with batch jobs. Instead, the streaming job always gives the same answer as a batch job on the same data.
Transactional interaction with storage systems. Structured Streaming handles fault tolerance and consistency holistically across the engine and storage systems, making it easy to write applications that update a live database used for serving, join in static data, or move data reliably between storage systems.
Rich integration with the rest of Spark. Structured Streaming supports interactive queries on streaming data through Spark SQL, joins against static data, and many libraries that already use DataFrames, letting developers build complete applications instead of just streaming pipelines. In the future, expect more integrations with MLlib and other libraries.

Spark 2.0 ships with an initial, alpha version of Structured Streaming, as a (surprisingly small!) extension to the DataFrame/Dataset API. This makes it easy to adopt for existing Spark users that want to answer new questions in real-time. Other key features include support for event-time based processing, out-of-order/delayed data, interactive queries, and interaction with non-streaming data sources and sinks.

We also updated the Databricks workspace to support Structured Streaming. For example, when launching a streaming query, the notebook UI will automatically display its status.

Streaming is clearly a broad topic, so stay tuned for a series of blog posts with more details on Structured Streaming in Apache Spark 2.0.

Conclusion

Spark users initially came to Apache Spark for its ease-of-use and performance. Spark 2.0 doubles down on these while extending it to support an even wider range of workloads. Enjoy the new release on Databricks.

You can also import the following notebooks and try them on Databricks Community Editionwith Spark 2.0.

��马�?/a> 2016-09-08 14:51 发表评论

从小数据分析到大数据�q�_��Q�这十几�q�来大数据开源技术是如何演进的？

Thu, 08 Sep 2016 06:45:00 GMT

摘要: from:http://chuansong.me/n/465862351096本文整理自QCon北京F(xi��n)angjin Yang的英文主题演讌Ӏ�关�?#8220;大数据杂�?#8221;公众��P��点击“加群学习(f��n)”�Q�更多大牛一手技术分享等着你。演讲整理：(x��)刘��伟在QCon 2016 北京站上�Q�Druid开源项目的负责人，同时也是一家位于旧金山的技术公司共同创始�h的Fangjin Ya... 阅读全文

��马�?/a> 2016-09-08 14:45 发表评论

Druid�Q�一个用于大数据实时处理的开源分布式�pȝ��

Thu, 08 Sep 2016 06:45:00 GMT

Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式�pȝ��Q�旨在快速处理大规模的数据，�q�能够实现快速查询和分析。尤其是当发生代码部�|�Ӏ�机器故障以�?qi��ng)其他��品系�l�遇到宕机等情况�Ӟ��Druid仍能够保�?00%正常�q�行。创建Druid的最初意图主要是��Z��解决查询延迟问题�Q�当时试图��用Hadoop来实��C��互式查询分析�Q�但是很难满��_��时分析的需要。而Druid提供了以交互方式讉K��数据的能力，�q�权衡了查询的灵�z�L��和性能而采取了�Ҏ(gu��)��的存储格式�?/p>

Druid功能介于PowerDrill�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Dremel之间�Q�它几乎实现了Dremel的所有功能，�q�且从PowerDrill吸收一些有��的数据格式。Druid允许以类似Dremel和PowerDrill的方式进行单表查询，同时�q�增加了一些新�Ҏ(gu��)��，如�ؓ(f��)局部嵌套数据结构提供列式存储格式、�ؓ(f��)快速过滤做索引、实时摄取和查询、高定w��的分布式体系架构�{�。从官方得知�Q�Druid的具有以下主要特征：(x��)

为分析而设�?/span>——Druid是�ؓ(f��)OLAP工作��的探烦(ch��)性分析而构建，它支持各�U�过滤、聚合和查询�{�类�Q?/li>
快速的交互式查�?/span>——Druid的低延迟数据摄取架构允许事�g在它们创建后毫秒内可被查询到�Q?/li>
高可用�?/span>——Druid的数据在�pȝ��更新时依然可用，规模的扩大和�~�小都不�?x��)造成数据丢失�Q?/li>
可扩�?/span>——Druid已实现每天能够处理数十亿事�g和TB�U�数据�?/li>

Druid应用最多的是类��g��q�告分析创业公司Metamarkets中的应用场景�Q�如�q�告分析、互联网�q�告�pȝ��监控以及(qi��ng)�|�络监控�{�。当业务中出��C��下情冉|��Q�Druid是一个很好的技术方案选择�Q?/p>

需要交互式聚合和快速探�I�大量数据时�Q?/li>
需要实时查询分析时�Q?/li>
��h��大量数据�Ӟ��如每天数亿事件的新增、每天数10T数据的增加；
�Ҏ(gu��)��据尤其是大数据进行实时分析时�Q?/li>
需要一个高可用、高定w��、高性能数据库时�?/li>

一个Druid集群有各�U�类型的节点�Q�Node�Q�组成，每个节点都可以很好的处理一些的事情�Q�这些节点包括对非实时数据进行处理存储和查询�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Historical节点、实时摄取数据、监听输入数据流�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Realtime�?/a>、监控Historical节点�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Coordinator节点、接收来自外部客��L(f��ng)��的查询和��查询�{发到Realtime和Historical节点�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Broker节点、负责烦(ch��)引服务的Indexer节点�?/p>

查询操作中数据流和各个节点的关系如下图所�C�：(x��)

如下图是Druid集群的管理层架构�Q�该囑ֱ��C�Z��相关节点和集��管理所依赖的其他组�Ӟ��如负责服务发现的ZooKeeper集群�Q�的关系�Q?/p>

Druid已基�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Apache License 2.0协议开源，代码托管�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">GitHub�Q�其当前最新稳定版本是0.7.1.1。当前，Druid已有63个代码�A(ch��)献者和��近2000个关注。Druid的主要�A(ch��)献者包括广告分析创业公司Metamarkets、电(sh��)影流媒体�|�站Netflix、Yahoo�{�公司。Druid官方�q�对Druid�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Shark�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Vertica�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Cassandra�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Hadoop�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Spark�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">Elasticsearch�{�在定w��能力、灵�z�L��、查询性能�{�方便进行了�Ҏ(gu��)��说明。更多关于Druid的信息，大家�q�可以参考官�Ҏ(gu��)��供的入门教程�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">白皮�?/a>�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">设计文��{��?/p>

��马�?/a> 2016-09-08 14:45 发表评论

用大数据思维做运�l�监控是怎样一�U�体�?

Tue, 06 Sep 2016 08:50:00 GMT

from:http://www.36dsj.com/archives/55359

作者：(x��)��威�?/p>

工程数据�Q�譬如工单数量，SLA可用性，基础资源�Q�故障率�Q�报警统�?/strong>
业务数据�Q�譬如业务DashBoard,Trace调用链，业务拓扑切换�Q�业务指标，业务基准数据�Q�业务日志挖�?/strong>
数据可视�?/strong>

当然�Q�这��文章谈的是�q�维都有哪些数据�Q�哪些指标，以及(qi��ng)数据呈现。�ƈ没有谈及(qi��ng)如何和大数据相关的架构做整合�Q�从而能让这些数据真的变得活��h��?/p>

比较凑��y的是�Q�原先百度的桑文峰的分��n也讲到日志的多维度分析，吃完饭的时候，一位优��L(f��ng)��朋友也和我探讨了关于业务监控的的问题。而我之前发表在肉饼铺子里的一��文章�?大数据给公司带来了什�?》也特地提到了大数据对于整个�q�维的帮助，当时因�ؓ(f��)�q�篇内容的主旨是�|�列大数据的用处�Q�自然没法细讲运�l�和大数据的整合�q�一块�?/p>

上面的文字算引子�Q�在步入正式的探讨前�Q�有一�Ҏ(gu��)��觉得值得��Q?/p>

虽然�q�里讲的是如何将大数据思维/架构应用于运�l�_(d��)��q�_��化运�l�工作，但是和大数据本质上没有关�p�，我们只是��大数据处理的方式和思想应用在运�l�工作上。所以，即��你现在所在的公司没有数据团队支撑�Q�也是完全可以通过现有团队完成�q��g事情的�?/p>

1 �q�维监控现状

很多公司的运�l�的监控��h��如下特质�Q?/p>

只能监控基础�q�维层次�Q�通过zabbix�{�工��h��供服务器,CPU,内存�{�相关的监控。这部分重要�Q�但��实不是�q�维的核心�?/p>

对业务的监控是最复杂的，而现在很多公司的要么�q�处于Shell脚本的刀耕火�U�阶�D�，要么开发能力较强，但是�q�是东一榔头西一��子�Q�不同的业务需要不同的监控�pȝ��Q��h人都可以�Ҏ(gu��)��的自��q��x��开发一个监控的工具也好�Q�系�l�也好，�q�_��也好。��M��是比较凌��q��?/p>

使用�W�三方的监控�q�_��。这个似乎在Rails/NodeJS/Pythone相关语系开发的产品中比较常见。我不做�q�多评�h(hu��n)�Q��用后��h��自知�?/p>

当然也有抽象得很好的�Q�比如点评网的运�l�监控据说就做得相当好，�q�维很闲�Q�天天没事就�Ҏ(gu��)��自己的监控找开发的茬，让开发持�l�改�q�。不�q�他们的指导思想主要有两个：(x��)

�q�维自动化。怎么能够实现�q�个目标��怎么搞，�q�严重依赖于搞的人的规划能力和经验�?/p>

抽象化，�Ҏ(gu��)��实际面��(f��)的问题做出抽象，得到对应的系�l�，比如需要发布，于是又发布系�l�，需要管理配�|�文�Ӟ��所以有配管�pȝ��Q�需要日志分析所以有了有日志分析�pȝ��。然而这��h��比较零散的�?/p>

有点扯远�Q�我们还是focus在监控上�?/p>

如果以大数据的思维��L��考，我们应该如何做好监控�q��g事情?

2 �|�列��Z��的数据源

《大数据对于�q�维的意义》这��文章也讲了�Q�主要有工程数据�Q�业务数据。所有的数据源都有一个共性，��是日志。无论文本的也好�Q�二�q�制的也好。所以日志是整个信息的源头。日志包含的信息��以让我们追查到下面几�g事情�Q?/p>

�pȝ��健康状况监控
查找故障�Ҏ(gu��)��
�pȝ��瓉��诊断和调�?/strong>
�q�踪安全相关问题
从日志我们可以挖掘出什�?

我觉得抽象�v来就一个：(x��) 指标 �?/p>

指标可以再进行分�c�：(x��)

业务层面�Q�如团购业务每秒讉K��敎ͼ�团购券每�U�验券数�Q�每分钟支付、创��单等

应用层面�Q�每个应用的错误敎ͼ�调用�q�程�Q�访问的�q�_��耗时�Q�最大耗时�Q?5�U�等

�pȝ��资源层面�Q�如cpu、内存、swap、磁盘、load、主�q�程存活�{?/p>

�|�络层面�Q?如丢包、ping存活、流量、tcp�q�接数等

每个分类里的每个��点其实都是一个指标�?/p>

3 如何�l�一实现

千万不要针对具体问题�q�行解决�Q�大数据架构上的一个思维��是�Q�我能够提供一个��^台让大家方便解决�q�些问题�? 而不是，�q�个问题我能解决�?

先来看看架构图：(x��)

因�ؓ(f��)目前我负责应用层的研发，业务�q�比较少�Q�主要就需要监控三个系�l�：(x��)
推荐
搜烦(ch��)
�l�一查询引擎
所以监控的架构设计略简单些。如果你希望�q�行日志存储以及(qi��ng)事后扚w��分析�Q�则可以采用淘宝的这套架构方式：(x��)
�E�微说明下，日志攉��Agent可以使用Flume,鹰眼Storm集群�Q�其实就是Storm集群�Q�当然有可能是淘宝内部Java版的�Q�Storm(或第一�q�图的SparkStreaming)做两件事情�?/span>
��日志过滤，格式化，或存储�v�?/p>
�q�行实时计算�Q�将指标数据存储到HBase里去
到目前�ؓ(f��)止，我们没有做�Q何的开发，全部使用大数据里通用的一些组件。至于这些组仉��要多��服务器�Q�就看对应的日志量规模了�Q�三五台到几癑֏�都是可以的�?/p>
需要开发的地方只有两个点，有一个是一�ơ性的�Q�有一个则是长期�?/p>
先说说一�ơ性的�Q�其实就是大盘展�C�系�l�。这个就是从HBase里取出数据做展示。这个貌��g��有开源的一套，ELK。不�q�底层不是用的HBase存储�Q�而是ES。这里就不详�l�讨论�?/p>
长期的则是SparkStreaming(淘宝是��用Storm�Q�我��用SparkStreaming,因�ؓ(f��)SparkStreaming可以按时间窗口，也可以按量统一做计��?�Q�这里你需要定义日志的处理逻辑�Q�生成我上面提到的各��Ҏ(gu��)��标�?/p>
�q�里有一个什么好处呢�Q�就是��^台化了，�Ҏ(gu��)��的监控需求响应更快了�Q�开发到上线可能只要几个��时的功夫。如果某个系�l�某天需要一个新的监控指标，我们只要开发个SparkStreaming�E�序�Q�丢到��^台里去，�q�事��q��完了�?/p>
�W�一�q�图的��^台我是已�l�实��C��的。我目前在SparkStreaming上只做了三个斚w��比较基础的监控，不过应该够用了�?/p>
状态码大盘�?HTTP响应码的URL(��L��query参数)排行榜。比如你打开��面��可以看到发�?00错误的top100的URL�Q�以�?qi��ng)该URL所归属的系�l��?/p>
响应耗时大盘�?URL��h��耗时排行榜。比如你打开��面��可以看�?分钟内��^均响应耗时top100的URL(��L��query参数)�?/p>
�q�有��是Trace�pȝ��?�c�M��Google的Dapper,淘宝的EagleEye。给��Z��个唯一的UUID,可以�q�踪到特定一个Request的请求链路。每个依赖服务的响应情况�Q�比如响应时间。对于一个由几个甚至几百个服务组成的大系�l�，意义非常大，可以方便的定位出到底是那个系�l�的哪个API的问题。这个最大的隄��是需要统一底层的RPC/HTTP调用框架�Q�进行埋炏V��因为我使用的是自研的ServiceFramework框架�Q�通讯埋点��比较简单。如果是在一个业务线复杂�Q�各个系�l��用不同技术开发，惌��做这块就要做好心理准备了�?/p>
现在�Q�如果你惌��监控一个系�l�是不是存活�Q�你不在需要取写脚本去找他的pid看进�E�是不是存在�Q�系�l�发现在一定的周期内没有日志，��可以认为它��M��。而系�l�如果有异常�Q�比如有大量的慢查询�Q�大盘一定能展示出来�?/p>
描述到这�Q�我们可以看刎ͼ��q�套架构的优势在哪：(x��)
基本上没有需要自己开发的�pȝ��。从日志攉��Q�到日志存储�Q�到�l�果存储�{�，�l�统都是现成的组件�?/p>
可扩展性好。每个组仉��是集��模式的�Q�没有单�Ҏ(gu��)��障。每个组仉��是可水��^扩展的，日志量大了，加机器就好�?/p>
开发更集中了。你只要��x��日志实际的分析处理，提炼指标卛_��?/p>
4 大数据思维
对于�q�维的监控，利用大数据思维�Q�需要分三步赎ͼ�(x��)
扑ֈ�数据
分析定义从数据里中我能得��C��?/strong>
从大数据�q�_��中挑选你要的�l��g完成搭积木式开�?/strong>
所有系�l�最可靠的就是日志输出，�pȝ��是不是正常，发生了什么情况，我们以前是出了问题去查日志，或者自己写个脚本定时去分析。现在这些事情都可以整合��C��个已有的�q�_��上，我们唯一要做的就�?定义处理日志的的逻辑 �?/p>
�q�里有几�Ҏ(gu��)��意的�Q?/p>
如果你拥有复杂的产品�U�，那么日志格式�?x��)是一个很痛苦的事情。以��中间Storm(或者SparkStreaming)的处理环节你需要做大量的兼定w��配。我个�h的意见是�Q�第一�Q�没有其他更好的办理�Q�去兼容适配吧，�W�二�Q�推动大家统一日志格式。两件事情一起做。我一个月做不完，那我用两�q�时间行�?��L��一天大安��?x��)有�l�一的日志格式的�?/p>
如果你的研发能力有富�?或者有大数据团队支撑，那么可以��进入到SparkStreaming中的数据存储��h��Q�然后通过SparkSQL�{�做卛_��查询。这��P��有的时候原先没有考虑的指标，你可以直接基于日志做多维度分析。分析完了，你觉得好了，需要固化下来，那再��L��C��的SparkStreaming�E�序�?/p>
后话
我做上面�W�一�q�图架构实现�Ӟ��从搭建到完成SparkStreaming�E�序开发，到数据最后进入HBase存储�Q�大概只�׃��一天多的时间。当然�ؓ(f��)了完成那个Trace的指标分析，我修改ServiceFramework框架大约改了两三天。因为Trace分析��实比较复杂。当然还有一个比较消耗工作量的，是页面可视化�Q�我�q�块自己�q�没有能力做�Q�等招个Web开发工�E�师再说了�?/p>
End.

��马�?/a> 2016-09-06 16:50 发表评论

深度访谈�Q�华为开源数据格式CarbonData��目�Q�实现大数据卛_��查询�U��响应

Tue, 06 Sep 2016 07:49:00 GMT

华�ؓ(f��)宣布开源了CarbonData��目�Q�该��目�?�?�?span style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">通过Apache�C�֌�投票�Q�成功进入Apache孵化器�?span style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">CarbonData是一�U�低时�g查询、存储和计算分离的轻量化文�g存储格式。那么相比SQL on Hadoop�Ҏ(gu��)��、传�l�NoSQL或相对ElasticSearch�{�搜索系�l�，CarbonData��h��什么样的优势呢�Q?span style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">CarbonData的技术架构是什么样子的�Q�未来有什么样的规划？我们采访�?span style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">CarbonData��目的技术负责�h为大家解惑�?/span>
InfoQ�Q?/strong>请问CarbonData是什么时候开始进行的��目�Q��ؓ(f��)什么现在向Apache孵化器开源呢�Q�开源发展历�E�和��目目前状态是怎么��L(f��ng)��Q?/p>
CarbonData�Q?/span>CarbonData��目是华为公�总��?wbr style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">�q�数据处理经验和行业理解中逐步�U�篏��h��的，2015�q�我们对�p?wbr style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">�l�进行了一�ơ架构重构，使其演化为HDFS上的一套通用的列式存储，支持和Spark引擎�Ҏ(gu��)��后�Ş成一套分布式OLAP分析的解��x��案�?/p>
华�ؓ(f��)一直是面向�?sh��)信、金融、IT企业�{�用��h��供大数据�q�_��解决�Ҏ(gu��)��的供应商�Q�从众多客户场景中我们不断提炼数据特征，�ȝ��Z��一些典型的对大数据分析的诉求，逐步形成了CarbonData�q�个架构�?/p>
因�ؓ(f��)在IT领域�Q�只有开源开放，才能最�l�让更多的客户和合作伙伴的数据连接在一��P��产生更大商业价倹{�?strong style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">开源是��Z��构徏E2E生态，CarbonData是数据存储层技术，要发挥�h(hu��n)��|��需要与计算层、查询层有效集成在一��P��形成完成真正的生态发挥�h(hu��n)倹{�?/strong>
又因为Apache是目前大数据领域最权威的开源组�l�，其中的Hadoop�Q�Spark已成为大数据开源的事实标准�Q�我们也非常认可Apache以Community驱动技术进步的理念�Q�所以我们选择�q�入Apache�Q�与�C�֌�一同构��力，使CarbonData融入大数据生态�?/p>
目前CarbonData开源项目已�l�在6�?日通过Apache�C�֌�投票�Q�成功进入Apache孵化器。github地址�Q�https://github.com/apache/incubator-carbondata。欢�q�大家参与到Apache CarbonData�C�֌��Q?https://github.com/apache/incubator-carbondata/blob/master/docs/How-to-contribute-to-Apache-CarbonData.md�?/p>
InfoQ�Q?/span>请问是什么原因或机遇促��(zh��n)�们产生做CarbonData�q�个��目的想法的�Q�之前的��目中遇��C��么样的困难？
CarbonData�Q?/span>我们一直面临着很多高性能数据分析诉求�Q�在传统的做法里�Q�一般是使用数据库加BI工具实现报表、DashBoard和交互式查询�{�业务，但随着企业数据日益增大�Q�业务驱动的分析灉|��性要求逐渐增大�Q�也有部分客户希望有除SQL外更强大的分析功能，所以传�l�的方式渐渐满��不了客户需求，让我们��生了做CarbonData�q�个��目的想法�?/p>
需求一般来源于几方面�?/p>
�W�一�Q�在部��v�?/strong>�Q�区别于以往的单机系�l�，企业客户希望有一套分布式�Ҏ(gu��)��来应�Ҏ(gu��)��益增多的数据�Q�随时可以通过增加通用服务器的方式scale out横向扩展�?/p>
�W�二�Q�在业务功能�?/strong>�Q�很多企业的业务都处在从传统数据库逐渐转移到大数据�q�_��的迁�U�过�E�中�Q�这��p��求大数据�q�_��要有较高兼容老业务的能力�Q�这里面主要包含的是对完整的标准SQL支持�Q�以�?qi��ng)多�U�分析场景的支持。同时�ؓ(f��)了节�U�成本，企业希望“一份数据支持多�U��用场�?#8221;�Q�例如大规模扫描和计��的批处理场景，OLAP多维交互式分析场景，明细数据卛_��查询�Q�主键低时�g�Ҏ(gu��)��Q�以�?qi��ng)对实时数据的实时查询等场景�Q�都希望�q�_��能给予支持，且达到秒�U�查询响应�?/p>
�W�三�Q�在易用性上�Q�企业客户以往使用BI工具�Q�业务分析的OLAP模型是需要在BI工具中徏立的�Q�这��׃��(x��)��D��有的场景下数据模型的灉|��性和分析手段受到限制�Q�而在大数据时代，大数据开源领域已�l��Ş成了一个生态系�l�，�C�֌�随时都在�q�步�Q�经�怼�(x��)冒出一些新型的分析工具�Q�所以企业客户都希望能跟随社��Z��断改�q�自��q��pȝ��Q�在自己的数据里快速用上新型的分析工具�Q�得到更大的商业价倹{�?/p>
要同时达��C��诉要求，无疑对大数据�q�_��是一个很大的挑战。�ؓ(f��)了满��些要求，我们开始不断在实际��目中积累经验，也尝试了很多不同的解��x��案，但都没有发现能用一套方案解��x��有问题�?/p>
大家首先�?x��)想到的是，在涉及(qi��ng)到低时延查询的分布式存储中�Q?strong style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">一般常用的是KV型NoSQL数据库（如HBase�Q�Cassandra�Q?/strong>�Q�可以解决主键低时�g查询的问题，但如果业务的查询模式�E�作改变�Q�例如对多维度灵�zȝ��合的查询�Q�就�?x��)��?gu��)��变�ؓ(f��)全表扫描�Q��性能急剧下降。有的场景下�Q�这时可以通过加入二��索引来缓解该问题�Q�但�q�又带来了二�U�烦(ch��)引的�l�护和同步等��理问题�Q�所以KV型存储�ƈ不是解决企业问题的通用�Ҏ(gu��)��?/p>
那么�Q�如果要解决通用的多�l�查询问题，�?strong style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">时我们会(x��)惛_��用多�l�时序数据库的方案（如Linkedin Pinot�Q?/strong>�Q�他们的特点是数据都以时间序列的方式�q�入�pȝ��q�经�q�数据预聚合和徏立烦(ch��)引，因�ؓ(f��)是预计算�Q�所以应对多�l�查询时非常快，数据也非常及(qi��ng)�Ӟ��同时具备多维分析和实时处理的优点�Q�在性能监控、实时指标分析的场景里应用较多。但它在支持的查询类型上也有一定限�Ӟ��因�ؓ(f��)做了数据预计��，所以这�U�架构一般无法应�Ҏ(gu��)��l�数据查询，以及(qi��ng)不支持Join多表兌��分析�Q�这无疑�l�企业��用场景带来了一定的限制�?/p>
另外一�c�L��搜烦(ch��)�pȝ��Q�如Apache Solr�Q�ElasticSearch�Q?/strong>�Q�搜索系�l�可以做多维汇��M��可以查询明细数据�Q�它也具备基于倒排索引的快速布?y��u)��(d��ng)查询，�q�发也较高，��g��正是我们希望��L��的方案。但在实际应用中我们发现两个问题�Q?strong style="margin: 0px; padding: 0px; max-width: 100%; line-height: 1.75em; box-sizing: border-box !important; word-wrap: break-word !important;">一�?/strong>�׃��搜烦(ch��)�pȝ��一般是针对非结构化数据而设计的�Q�系�l�的数据膨胀率一般都比较高，在企业关�p�d��数据模型下数据存储不够紧凑，造成数据量较大，二是搜烦(ch��)�pȝ��的数据组�l�方式和计算引擎密切相关�Q�这��导致了数据入库后只能用相应的搜索引擎处理，�q�又一定程度打破了企业客户希望应用多种�C�֌�分析工具的初��P��所以搜索系�l�也有他自己的适用场景�?/span>
最后一�cȝ��l�，��是目前�C�֌�里大量涌现的SQL on Hadoop�Ҏ(gu��)��Q�以Hive, SparkSQL, Flink��Z��?/strong>�Q�这�cȝ��l�的特点是计��和存储相分��，针对存储在HDFS上的文�g提供标准SQL功能�Q�他们在部��v性和易用性上可以满��企业客户需求，业务场景上也能覆盖扫描，汇聚�Q�详单等各类场景�Q�可见可以将他们视�ؓ(f��)一�c�通用的解��x��案。�ؓ(f��)了提高性能�Q�Spark�Q�Flink�{�开源项目通过不断优化自��n架构提升计算性能�Q�但提升重点都放在计��引擎和SQL优化器的增强上，在存储和数据�l�织上改�q��ƈ不是重点�?/p>
所以，可以看出当前的很多大数据�pȝ��虽然都能支持各类查询场景�Q�但他们都是偏向某一�c�d��景设计的�Q�在不是其目标场景的情况下要么不支持要么退化�ؓ(f��)全表扫描�Q�所以导致企业�ؓ(f��)了应�Ҏ(gu��)��处理�Q�多�l�分析，明细数据查询�{�场景，客户常常需要通过复制多䆾数据�Q�每�U�场景要�l�护一套数据�?/p>
CarbonData的设计初��h��是�ؓ(f��)了打破这�U�限�Ӟ��做到只保存一份数据，最优化地支撑多�U��用场�?/strong>�?/strong>

InfoQ:能否具体谈谈CarbonData的技术架构？有何特征和优势呢�Q?/p>
CarbonData�Q?/strong>整个大数据时代的开启，可以说是源自于Google的MapReduce论文�Q�他引发了Hadoop开源项目以�?qi��ng)后�l�一�p�d��的生态发展。他�?#8220;伟大”之处在于计算和存储解耦的架构�Q��企业的部分业务（主要是批处理�Q�从传统的垂直方案中解放出来�Q�计��和存储可以按需扩展极大提升了业务发展的敏捷性，让众多企业普�?qi��ng)了�q�一计算模式�Q�从中受益�?/p>
虽然MapReduce开启了大数据时代，但它是通过�U��a(b��)的暴力扫�?分布式计��来提升批处理性能�Q�所以�ƈ不能解决客户�Ҏ(gu��)��有查询场景的低时延查�?/strong>要求�?/p>
在目前的生态中�Q�最接近于客戯��求的其实是搜索引擎类�Ҏ(gu��)��。通过良好的数据组�l�和索引�Q�搜索引擎能提供多种快速的查询功能�Q�但偏偏搜烦(ch��)引擎的存储层又和计算引擎�?strong style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">紧耦合的，�q�不�W�合企业�?#8221;一份数据，多种场景”的期望�?/span>
�q�给了我们启发，我们何不为通用计算引擎打造更一个高效的数据�l�织来满��_��户需求呢�Q�做到既利用计算和存储解耦架构又能提供高性能查询。抱着�q�个��x��Q�我们启动了CarbonData��目。针�Ҏ(gu��)��多的业务�Q��计算和存储相分离�Q�这也成了CarbonData�?strong style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">架构设计理念�?/span>
��立了这个理念后�Q�我们很自然地选择�?strong style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">��Z��HDFS+通用计算引擎的架�?/strong>�Q�因��个架构可以很好地提供Scale out能力。下一步我们问自己�q�个架构里还�~�Z��么？�q�个架构中，HDFS提供文�g的复制和��d��能力�Q�计��引擎负责读取文件和分布式计��，分工很明��，可以说他们分别定位于解决存储��理和计��的问题�?span style="margin: 0px; padding: 0px; max-width: 100%; line-height: 1.75em; box-sizing: border-box !important; word-wrap: break-word !important;">但不隄��出，��Z��适应更多场景�Q�HDFS做了很大�?#8220;牺牲”�Q�它牺牲了对文�g内容的理解，正是�׃��攑ּ�了对文�g内容的理解，��D��计算只能通过全扫描的方式来进行，可以说最�l�导致的是存储和计算都无法很好的利用数据特征来做优化�?/span>
所以针对这个问题，我们把CarbonData�?strong style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">发力重点攑֜��Ҏ(gu��)��据组�l�的优化上，通过数据�l�织最�l�是要提升IO性能和计��性能。�ؓ(f��)此，CarbonData做了如下工作�?/p>
CarbonData基础�Ҏ(gu��)�?/strong>
1. 多维数据聚集�Q?/strong>在入库时�Ҏ(gu��)��据按多个�l�度�q�行重新�l�织�Q��数据�?#8220;多维�I�间上更内聚”�Q�在存储上获得更好的压羃率，在计��上获得更好的数据过滤效率�?/p>
2. 带烦(ch��)引的列存文�g�l�构�Q?/strong>首先�Q�CarbonData为多�c�d��景设计了多个�U�别的烦(ch��)引，�q�融入了一些搜索的�Ҏ(gu��)��，有跨文�g的多�l�烦(ch��)引，文�g内的多维索引�Q�每列的minmax索引�Q�以�?qi��ng)列内的倒排索引�{�。其�ơ，��Z��适应HDFS的存储特点，CarbonData的烦(ch��)引和数据文�g存放在一��P��一部分索引本��n��是数据�Q�另一部分索引存放在文件的元数据结构中�Q�他们都能随HDFS提供本地化的讉K��能力�?/p>
3. 列组�Q?/strong>整体上，CarbonData是一�U�列存结构，但相对于行存来说�Q�列存结构在应对明细数据查询时会(x��)有数据还原代价高的问题，所以�ؓ(f��)了提升明显数据查询性能�Q�CarbonData支持列组的存储方式，用户可以把某些不�怽��滤条件但又需要作为结果集�q�回的字�D�作为列�l�来存储�Q�经�q�CarbonData�~�码后会(x��)��这些字�D��用行存的方式来存储以提升查询性能�?/p>
4. 数据�c�d��Q?/strong>目前CarbonData支持所有数据库的常用基本类型，以及(qi��ng)Array�Q�Struct复杂嵌套�c�d��。同时社��Z��有�h提出支持Map数据�c�d��Q�我们计划未来添加Map数据�c�d��?/p>
5. 压羃�Q?/strong>目前CarbonData支持Snappy压羃�Q�压�~�是针对每列分别�q�行的，因�ؓ(f��)列存的特点��得压�~�非帔R��效。数据压�~�率��Z��应用场景不同一般在2�?之间�?/p>
6. Hadoop集成�Q?/strong>通过支持InputFormat/OutputFormat接口�Q�CarbonData可以利用Hadoop的分布式优点�Q�也能在所有以Hadoop为基��的生态系�l�中使用�?/p>
CarbonData高��Ҏ(gu��)�?/strong>
1. 可计��的�~�码方式�Q?/strong>除了常见的Delta�Q�RLE�Q�Dictionary�Q�BitPacking�{�编码方式外�Q�CarbonData�q�支持将多列�q�行联合�~�码�Q�以�?qi��ng)应用了全局字典�~�码来实现免解码的计��，计算框架可以直接使用�l�过�~�码的数据来做聚合，排序�{�计��，�q�对需要大量shuffle的查询来说性能提升非常明显�?/p>
2. 与计��引擎联合优化：(x��)��Z��高效利用CarbonData�l�过优化后的数据�l�织�Q�CarbonData提供了有针对性的优化�{�略�Q�目前CarbonData�C�֌�首先做了和Spark的深度集成，其中��Z��SparkSQL框架增强了过滤下压，延迟物化�Q�增量入库等�Ҏ(gu��)��，同时支持所有DataFrame API。相信未来通过�C�֌�的努力，�?x��)有更多的计��框架与CarbonData集成�Q�发挥数据组�l�的价倹{�?/p>
目前�q�些�Ҏ(gu��)��都已经合入Apache CarbonData��d��Q�欢�q�大家��用�?/p>
InfoQ�Q?/strong>在哪些场景推荐��用呢�Q�性能��试�l�果如何�Q�有没有应用案例�Q�目前在国内的��用情况和用户规模�Q?/p>
CarbonData�Q?/span>推荐场景�Q?wbr style="margin: 0px; padding: 0px; max-width: 100%; color: #3e3e3e; font-family: 微��Y雅黑, sans-serif; font-size: 12px; line-height: 28px; white-space: normal; box-sizing: border-box !important; word-wrap: break-word !important;">希望一份存储同时满��_��速扫描，多维分析�Q�明�l�数据查询的场景�?wbr style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">在华为的客户使用案例中，�Ҏ(gu��)��业界已有的列存方案，CarbonData可以带来5~30倍性能提升�?/p>
性能��试数据�?qi��ng)应用案例等更多信息�Q�请��x��微信公众号ApacheCarbonData�Q�及(qi��ng)�C�֌�https://github.com/apache/incubator-carbondata�?/p>
InfoQ�Q?/strong>CarbonData能和当前正火的Spark完美�l�合吗？�q�能兼容哪些��L��框架呢？
CarbonData�Q?/strong>目前CarbonData已与Spark做了深度集成�Q�具体见上述高��Ҏ(gu��)��?/p>
InfoQ�Q?/strong>�(zh��n)�们的项目在未来有什么样的发展规划？�q�会(x��)增加什么功能吗�Q�如何保证开源之后的��目的持�l�维护工作呢�Q?/p>
CarbonData�Q?/span>接下来社区重点工作是�Q�提升系�l�易用性、完善生态集成（如：(x��)与Flink,Kafka�{�集成，实现数据实时导入CarbonData�Q��?/p>
CarbonData开源的�W�一个月�Q�就有几百个commits提交�Q�和20多个贡献者参与，所以后�l�这个项目会(x��)持箋的活跃�?0多个核心贡献者也��会(x��)持箋参与�C�֌��?/p>
InfoQ�Q?/span>在CarbonData设计研发�q�进入Apache孵化器的�q�程中，�l�历了哪些阶�D�，�l�历�q�的最大困难是什么？有什么样的感受或�l�验可以和大家分享的吗？
CarbonData�Q?/span>CarbonData团队大多��C�h都有参与Apache Hadoop、Spark�{�社区开发的�l�验�Q�我们对�C�֌��程和工作方式都很熟�(zh��n)�。最大的困难是进入孵化器阶段�Q�去说服Apache�C�֌�接纳大数据生态新的高性能数据格式CarbonData。我们通过5月䆾在美国奥斯丁的开源盛�?x��)OSCON上，做CarbonData技术主题演讲和现场DEMO演示�Q�展�C�Z��CarbonData优秀的架构和良好的性能效果�?/p>
InfoQ�Q?/span>�(zh��n)�们是一个团队吗�Q�如何保证�?zh��n)�们团队的优秀成长�Q?/p>
CarbonData�Q?/span>CarbonData团队是一个全球化的（工程师来自中国、美国、印度）(j��)团队�Q�这�U�全球化工作模式的经验积累，让我们能快速的适应Apache开源社区工作模式�?/p>
采访嘉宾�Q?/strong>Apache CarbonData的PMC、Committers李昆、陈亮�?/p>

��马�?/a> 2016-09-06 15:49 发表评论

ElasticSearch安装和配�|�head、bigdesk、IkAnalyzer

Fri, 15 Apr 2016 06:03:00 GMT
摘要: from:http://my.oschina.net/pangyangyang/blog/361753ElasticSearch的安装http://www.elasticsearch.org/下蝲最新的ElastiSearch版本。解压下载文件。cd�?{esroot}/bin/�Q�执行elasticsearch启动。��用curl -XPOST localhost:9200/_shutdown关闭E... 阅读全文

��马�?/a> 2016-04-15 14:03 发表评论

Tue, 29 Mar 2016 08:59:00 GMT
摘要: from:http://www.infoq.com/cn/articles/hadoop-ten-years-interpretation-and-development-forecast�~�者按�Q�Hadoop�?006�q?�?8日诞生，至今已有10�q�_(d��)��它改变了企业�Ҏ(gu��)��据的存储、处理和分析的过�E�，加速了大数据的发展�Q��Ş成了自己的极其火爆的技术生态圈�Q��ƈ受到非常�q�泛的应用。在2016�q�Hadoop十岁... 阅读全文

��马�?/a> 2016-03-29 16:59 发表评论

搜烦(ch��)引擎选择�Q?Elasticsearch与Solr

Thu, 17 Mar 2016 07:16:00 GMT

搜烦(ch��)引擎选型调研文��
Elasticsearch��?a target="_blank" style="margin: 0px; padding: 0px; color: #258fb8; text-decoration: none; outline-width: 0px;">^*
Elasticsearch是一�?span style="margin: 0px; padding: 0px;">实时�?span style="margin: 0px; padding: 0px;">分布式搜索和分析引擎。它可以帮助你用前所未有的速度��d��理大规模数据�?/span>
它可以用�?span style="margin: 0px; padding: 0px;">全文搜烦(ch��)�Q?span style="margin: 0px; padding: 0px;">�l�构化搜索以�?span style="margin: 0px; padding: 0px;">分析�Q�当然你也可以将�q�三者进行组合�?/span>
Elasticsearch是一�?span style="margin: 0px; padding: 0px;">建立在全文搜索引�?Apache Lucene™ 基础上的搜烦(ch��)引擎�Q�可以说Lucene是当今最先进�Q�最高效的全功能开源搜索引擎框架�?/span>
但是Lucene只是一个框�Ӟ��要充分利用它的功能，需要��用JAVA�Q��ƈ且在�E�序中集成Lucene。需要很多的学习(f��n)了解�Q�才能明白它是如何运行的�Q�Lucene��实非常复杂�?/p>
Elasticsearch使用Lucene作�ؓ(f��)内部引擎�Q�但是在使用它做全文搜烦(ch��)�Ӟ��只需要��用统一开发好的API卛_��Q�而不需要了解其背后复杂的Lucene的运行原理�?/p>
当然Elasticsearch�q�不仅仅是Lucene�q�么��单，它不但包括了全文搜烦(ch��)功能�Q�还可以�q�行以下工作:
分布式实时文件存储，�q�将每一个字�D�都�~�入索引�Q��其可以被搜烦(ch��)�?/p>
实时分析的分布式搜烦(ch��)引擎�?/p>
可以扩展��C��癑֏�服务器，处理PB�U�别的结构化或非�l�构化数据�?/p>
�q�么多的功能被集成到一台服务器上，你可以轻村֜�通过客户端或者�Q何你喜欢的程序语�a�与ES的RESTful API�q�行交流�?/p>
Elasticsearch�?span style="margin: 0px; padding: 0px;">上手是非常简单的。它附带了很�?span style="margin: 0px; padding: 0px;">非常合理的默认��|��q�让初学者很好地避免一上手��p��面对复杂的理论，
它安装好了就可以使用了，�?span style="margin: 0px; padding: 0px;">很小的学�?f��n)成本就可以变得很有生��力�?/span>
随着��学��深入，�q�可以利用Elasticsearch更多高��的功能，整个引擎可以很灵�z�d��q�行配置。可以根据自�w�需求来定制属于自己的Elasticsearch�?/p>
使用案例�Q?/p>
�l�基癄��使用Elasticsearch来进行全文搜做�ƈ高亮昄��关键词，以及(qi��ng)提供search-as-you-type、did-you-mean�{�搜索徏议功能�?/p>
英国卫报使用Elasticsearch来处理访客日志，以便能将公众对不同文章的反应实时地反馈给各位�~�辑�?/p>
StackOverflow��全文搜索与地理位置和相关信息进行结合，以提供more-like-this相关问题的展现�?/p>
GitHub使用Elasticsearch来检索超�q?300亿行代码�?/p>
每天�Q�Goldman Sachs使用它来处理5TB数据的烦(ch��)引，�q�有很多投行使用它来分析股票市场的变动�?/p>
但是Elasticsearch�q�不只是面向大型企业的，它还帮助了很多类似DataDog以及(qi��ng)Klout的创业公司进行了功能的扩展�?/p>
Elasticsearch的优�~�点^*^*:
优点
Elasticsearch是分布式的。不需要其他组�Ӟ��分发是实时的�Q�被叫做”Push replication”�?/li>
Elasticsearch 完全支持 Apache Lucene 的接�q�实时的搜烦(ch��)�?/li>
处理多租��P��multitenancy�Q�不需要特�D�配�|�，而Solr则需要更多的高��讄��?/span>
Elasticsearch 采用 Gateway 的概念，使得完备份更加简单�?/li>
各节点组成对�{�的�|�络�l�构�Q�某些节点出现故障时�?x��)自动分配其他节点代替其�q�行工作�?/li>
�~�点
只有一名开发者（当前Elasticsearch GitHub�l�织已经不只如此�Q�已�l�有了相当活跃的�l�护者）(j��)
�q�不够自动（不适合当前新的Index Warmup API�Q?/li>
Solr��?a target="_blank" style="margin: 0px; padding: 0px; color: #258fb8; text-decoration: none; outline-width: 0px;">^*
Solr�Q�读�?#8220;solar”�Q�是Apache Lucene��目的开源企业搜索��^台。其主要功能包括全文��(g��)索�?span style="margin: 0px; padding: 0px;">命中标示�?span style="margin: 0px; padding: 0px;">分面搜烦(ch��)�?span style="margin: 0px; padding: 0px;">动态聚�c�R�?span style="margin: 0px; padding: 0px;">数据库集成，以及(qi��ng)富文本（如Word、PDF�Q�的处理。Solr�?span style="margin: 0px; padding: 0px;">高度可扩展的�Q��ƈ提供�?span style="margin: 0px; padding: 0px;">分布式搜索和索引复制。Solr�?span style="margin: 0px; padding: 0px;">最��行的企业��搜烦(ch��)引擎�Q�Solr4 �q�增加了NoSQL支持�?/span>
Solr是用Java�~�写、运行在Servlet容器�Q�如 Apache Tomcat 或Jetty�Q�的一个独立的全文搜烦(ch��)服务器�?Solr采用�?Lucene Java 搜烦(ch��)库�ؓ(f��)核心的全文烦(ch��)引和搜烦(ch��)�Q��ƈ��h��c�M��REST的HTTP/XML和JSON的API。Solr强大的外部配�|�功能��得无需�q�行Java�~�码�Q�便可对其进行调整以适应多种�c�d��的应用程序。Solr有一个插件架构，以支持更多的高��定制�?/p>
因�ؓ(f��)2010�q?Apache Lucene �?Apache Solr ��目合�ƈ�Q�两个项目是由同一个Apache软�g基金�?x��)开发团队制作实现的。提到技术或产品�Ӟ��Lucene/Solr或Solr/Lucene是一��L(f��ng)��?/p>
Solr的优�~�点
优点
Solr有一个更大、更成熟的用戗��开发和贡献者社区�?/li>
支持��d��多种格式的烦(ch��)引，如：(x��)HTML、PDF、微�?Office �p�d��软�g格式以及(qi��ng) JSON、XML、CSV �{�纯文本格式�?/li>
Solr比较成熟、稳定�?/li>
不考虑建烦(ch��)引的同时�q�行搜烦(ch��)�Q�速度更快�?/li>
�~�点
建立索引�Ӟ��搜烦(ch��)效率下降�Q�实时烦(ch��)引搜索效率不高�?/li>
Elasticsearch与Solr的比�?a target="_blank" style="margin: 0px; padding: 0px; color: #258fb8; text-decoration: none; outline-width: 0px;">^*
当单�U�的对已有数据进行搜索时�Q�Solr更快�?/p>
当实时徏立烦(ch��)引时, Solr�?x��)��生io��d��Q�查询性能较差, Elasticsearch��h��明显的优�ѝ�?/p>
随着数据量的增加�Q�Solr的搜索效率会(x��)变得更低�Q�而Elasticsearch却没有明昄��变化�?/p>
�l�g��所�q�ͼ�Solr的架构不适合实时搜烦(ch��)的应用�?/p>
实际生��环境��试^*
下图为将搜烦(ch��)引擎从Solr转到Elasticsearch以后的��^均查询速度有了50倍的提升�?/p>
Elasticsearch �?Solr 的比较�ȝ��
二者安装都很简单；
Solr 利用 Zookeeper �q�行分布式管理，�?Elasticsearch 自��n带有分布式协调管理功�?
Solr 支持更多格式的数据，�?Elasticsearch 仅支持json文�g格式�Q?/li>
Solr 官方提供的功能更多，�?Elasticsearch 本��n更注重于核心功能�Q�高�U�功能多有第三方插�g提供�Q?/li>
Solr 在传�l�的搜烦(ch��)应用中表现好�?Elasticsearch�Q�但在处理实时搜索应用时效率明显低于 Elasticsearch�?/li>
Solr 是传�l�搜索应用的有力解决�Ҏ(gu��)��Q�但 Elasticsearch 更适用于新兴的实时搜烦(ch��)应用�?/p>
其他��Z��Lucene的开源搜索引擎解��x��?a target="_blank" style="margin: 0px; padding: 0px; color: #258fb8; text-decoration: none; outline-width: 0px;">^*
直接使用 Lucene
说明�Q�Lucene 是一�?JAVA 搜烦(ch��)�c�d��Q�它本��n�q�不是一个完整的解决�Ҏ(gu��)��Q�需要额外的开发工作�?/p>
优点�Q�成熟的解决�Ҏ(gu��)��Q�有很多的成功案例。apache ��目�Q�正在持�l�快速的�q�步。庞大而活跃的开发社区，大量的开发�h员。它只是一个类库，有��够的定制和优化空��_(d��)��(x��)�l�过��单定�Ӟ��可以满��绝大部分常见的需求；�l�过优化�Q�可以支�?10�? 量��的搜索�?/p>
�~�点�Q�需要额外的开发工作。所有的扩展�Q�分布式�Q�可靠性等都需要自己实玎ͼ�非实�Ӟ��从徏索引到可以搜索中间有一个时间�g�q�，而当前的“�q�实�?#8221;(Lucene Near Real Time search)搜烦(ch��)�Ҏ(gu��)��的可扩展性有待进一步完�?/p>
Katta
说明�Q�基�?Lucene 的，支持分布式，可扩展，��h��定w��功能�Q�准实时的搜索方案�?/p>
优点�Q�开��即用，可以�?Hadoop 配合实现分布式。具备扩展和定w��机制�?/p>
�~�点�Q�只是搜索方案，建烦(ch��)引部分还是需要自己实现。在搜烦(ch��)功能上，只实��C��最基本的需求。成功案例较?y��u)��，��目的成熟度�E�微差一些。因为需要支持分布式�Q�对于一些复杂的查询需求，定制的难度会(x��)比较大�?/p>
Hadoop contrib/index
说明�Q�Map/Reduce 模式的，分布式徏索引�Ҏ(gu��)��Q�可以跟 Katta 配合使用�?/p>
优点�Q�分布式建烦(ch��)引，具备可扩展性�?/p>
�~�点�Q�只是徏索引�Ҏ(gu��)��Q�不包括搜烦(ch��)实现。工作在批处理模式，对实时搜索的支持不佳�?/p>
LinkedIn 的开源方�?/a>
说明�Q�基�?Lucene 的一�p�d��解决�Ҏ(gu��)��Q�包�?准实时搜�?zoie �Q�facet 搜烦(ch��)实现 bobo �Q�机器学�?f��n)算�?decomposer �Q�摘要存储库 krati �Q�数据库模式包装 sensei �{�等
优点�Q�经�q�验证的解决�Ҏ(gu��)��Q�支持分布式�Q�可扩展�Q�丰富的功能实现
�~�点�Q�与 linkedin 公司的联�p�d��紧密�Q�可定制性比较差
Lucandra
说明�Q�基�?Lucene�Q�烦(ch��)引存�?cassandra 数据库中
优点�Q�参�?cassandra 的优�?/p>
�~�点�Q�参�?cassandra 的缺炏V��另外，�q�只是一�?demo�Q�没有经�q�大量验�?/p>
HBasene
说明�Q�基�?Lucene�Q�烦(ch��)引存�?HBase 数据库中
优点�Q�参�?HBase 的优�?/p>
�~�点�Q�参�?HBase 的缺炏V��另外，在实��C��Q�lucene terms 是存成行�Q�但每个 term 对应�?posting lists 是以列的方式存储的。随着单个 term �?posting lists 的增大，查询时的速度受到的媄(ji��ng)响会(x��)非常�?/p>

转蝲�Q�http://blog.csdn.net/jameshadoop/article/details/44905643

��马�?/a> 2016-03-17 15:16 发表评论

解读2015之大数据��：(x��)大数据的黄金时代

Fri, 15 Jan 2016 07:01:00 GMT

�~�者按
2015�q�_(d��)��整个IT技术领域发生了许多深刻而又复杂的变化，InfoQ�{�划�?#8220;解读2015”�q�终技术盘点系列文章，希望能够�l�读者清晰地梳理出技术领域在�q�一�q�的发展变化�Q�回��过去，�l�箋前行�?/p>
本文是大数据解读��，在这��文章里我们��回��?015展望2016�Q�看看过�ȝ��一�q�里�q�受��x��的技术有哪些�q�展�Q�了解下数据�U�学家这个职业的火热�?nbsp;在关键技术进展部分我们在大数据生态圈众多技术中选取了Hadoop、Spark、Elasticsearch和Apache Kylin四个点，分别请了四位专家�Q�Hulu的董西成、明略数据的梁堰波�?span style="margin: 0px; border: 0px; padding: 0px; line-height: 20.8px;">�_��U�技的卢争K��、eBay的韩卿，来�ؓ(f��)大家解读2015里的�q�展�?/p>
相关厂商内容
Twitter Messaging的架构演化之�?/a>
业务核心架构�Q�根据业务需求设计合理架�?/a>
QCon北京2016大会(x��)�Q?�?1-23日，与�?zh��n)�相约北京国际会(x��)议中心�Q?�?1前报名��n8折优惠！
相关赞助�?/p>
QCon北京2016大会(x��)�Q?�?1-23日，北京·国际�?x��)议中心�Q?a target="_blank" style="margin: 0px; border: 0px; padding: 0px 0px 2px; width: auto; display: inline; clear: both; text-decoration: none !important; color: #286ab2 !important; outline: none !important;">�_�ֽ�内容邀(g��)�(zh��n)�参与！
回顾2015�q�的关键技术进展：(x��)
Hadoop�Q?/span>
Hadoop作�ؓ(f��)大数据��^��C��最基础与重要的�pȝ��Q�在2015�q�提高稳定性的同时�Q�发布了多个重要功能与特性，�q��得Hadoop朝着多类型存储介质和异构集群的方向迈�q�了一大步�?/p>
HDFS
HDFS 之前是一个以��盘单存储介质�ؓ(f��)�ȝ��分布式文件系�l�。但随着�q�几�q�新存储介质的兴��P��支持多存储介质早��提上了日程。如今，HDFS 已经对多存储介质有了良好的支持，包括 Disk、Memory �?nbsp;SSD �{�，对异构存储介质的支持�Q��?nbsp;HDFS 朝着异构混合存储方向发展。目前HDFS支持的存储介质如下：(x��)
ARCHIVE�Q�高存储密度但耗电(sh��)较少的存储介质，通常用来存储��h��据�?/p>
DISK�Q�磁盘介质，�q�是HDFS最早支持的存储介质�?/p>
SSD�Q�固态硬盘，是一�U�新型存储介质，目前被不��互联网公司使用�?/p>
RAM_DISK �Q�数据被写入内存中，同时�?x��)往该存储介质中再（异步�Q�写一份�?/p>
YARN
YARN作�ؓ(f��)一个分布式数据操作�pȝ��Q�主要作用是资源��理和资源调度。在�q�去一�q�_(d��)��YARN新增了包括基于标�{��调度、对长服务的支持、对 Docker 的支持等多项重大功能�?/p>
��Z��标签的调度，使得 YARN 能够更好地支持异构集��调度。它的基本思想是，通过打标�{��方式��Z��同的节点赋予不同的属性，�q�样�Q�一个大的Hadoop集群按照节点�c�d��被分成了若干个逻辑上相互独立（可能交叉�Q�的集群。这�U�集��跟物理上独立的集群很不一��P��用户可以很容易地通过动态调�?nbsp;label�Q�实��C��同类型节�Ҏ(gu��)��目的增减�Q�这��h��很好的灵�z�L��?/p>
寚w��服务的支持，使得YARN逐渐变�ؓ(f��)一个通用资源��理和调度系�l�。目前，YARN既支持像�c�M�� MapReduce�Q�Spark 的短作业�Q�也支持�c�M�� Web Service�Q�MySQL �q�样的长服务�?nbsp;支持长服务是非常隄��一件事情，YARN 需要解决以下问题：(x��)服务注册、日志滚动、ResourceManager HA、NodeManager HA�Q�NM 重启�q�程中，不媄(ji��ng)�?nbsp;Container�Q�和 ApplicationMaster �怸�停止�Q�重启后接管之前�?nbsp;Container。截�?.7.0版本�Q�以上问题都已经得到了比较完整的解决�?/p>
对Docker的支持，使得YARN能够��Z��层应用提供更好的打包、隔��d��q�行方式。YARN通过引入一�U�新的ContainerExecutor�Q�即DockerContainerExecutor�Q�实��C��对Docker的支持，但目前仍然是alpha版本�Q�不��在生产环境中使用�?/p>
HBase
�?nbsp;2015 �q�_(d��)��HBase �q�来了一个里�E�碑——HBase 1.0 release�Q�这也代表着 HBase 走向了稳定�?nbsp;HBase新增�Ҏ(gu��)��包括：(x��)更加清晰的接口定义，�?nbsp;Region 副本以支持高可用读，Family �_�度�?nbsp;Flush以及(qi��ng)RPC ��d��队列分离�{��?/p>
Spark�Q?/span>
2015�q�的Spark发展很快�Q�JIRA数目和PR数目都突破了10000�Q�contributors数目��过�?000�Q�可以说是目前最火的开源大数据��目。这一�q�Spark发布了多个版本，每个版本都有一些亮点：(x��)
2014�q?2月，Spark 1.2发布引入ML pipeline作�ؓ(f��)机器学习(f��n)的接口�?/li>
2015�q?月，Spark 1.3发布引入了DataFrame作�ؓ(f��)Spark的一个核心组件�?/li>
2015�q?月，Spark 1.4发布引入R语言作�ؓ(f��)Spark的接口。R语言接口在问世一个多月之后的调查中就�?8%的用户��用�?/li>
2015�q?月，Spark 1.5发布。Tungsten��目�W�一阶段的��出合�q�入DataFrame的执行后端，DataFrame的执行效率得到大�q�提升�?/li>
2016�q?月，Spark 1.6发布引入Dataset接口�?/li>
Spark目前支持四种语言的接口，除了上面提到的R语言的��用率以外�Q�Python的��用率也有很大提升�Q�从2014�q�的38%提升�?015�q�的58%�Q�而Scala接口的��用率有所下降�Q�从84%下降�?1%。同时Spark的部�|�环境也有所变化�Q?1%的部�|�在公有云上�Q?8% 使用standalone方式部��v�Q�而在YARN上的只有40%了。可见Spark已经��越Hadoop�Q��Ş成了自己的生态系�l�。而在形成Spark生态系�l�中起到关键作用的一个feature��是外部数据源支持，Spark可以接入各种数据源的数据�Q�然后把数据导入Spark中进行计��、分析、挖掘和机器学习(f��n)�Q�然后可以把�l�果在写出到各种各样的数据源。到目前为止Spark已经支持非常多的外部数据源，像Parquet/JSON/CSV/JDBC/ORC/HBase/Cassandra/Mongodb�{�等�?/p>
上面�q�些调查数据来自��国�Q�中国的情况有所区别�Q�但是还是有一定的借鉴意义的。国内的Spark应用也越来越多：(x��)腾讯的Spark规模��C��8000+节点�Q�日处理数据1PB+。阿里巴巴运行着目前最长时间的Spark Job�Q?PB+数据规模的Spark Job长达1周的旉��。百度的��谷研究院也在探索Spark+Tachyon的应用场景�?/p>
Spark MLlib的ALS��法已经在很多互联网公司用于其推荐系�l�中。基本上��L��的互联网公司都已�l�部�|�了Spark�q�_��q�运行了自己的业务。上面说的更多的互联�|�的应用�Q�实际上Spark的应用场景有很多。在Databricks公司的调查中昄��主要应用依次是：(x��)商务��、数据仓库、推荐系�l�、日志处理、欺诈检��等�?/p>
除了互联�|�公�总�外，传统IT企业也把Spark作�ؓ(f��)其��品的一个重要组成。IBM在今�q?月的Spark summit期间宣布重点支持Spark�q�个开源项目，同时�q�开源了自己的机器学�?f��n)系�l�SystemML�q�推�q�其与Spark的更好合作。美国大数据巨头Cloudera�Q�Hortonworks和MapR都表�C�Spark是其大数据整体解��x��案的核心产品。可以预见Spark是未来若�q�年最火的大数据项目�?/p>
在深度学�?f��n)方�?015�q�可谓非常热闹，如Google开源其�W�二代机器学�?f��n)系�l�TensorFlow�Q�Facebook开源Torch和�h工智能硬件服务器Big Sur�{�等。Spark�C�֌�也不甘落后，�?.5版本中发布了一个神�l�网�l�分�c�d��MultiplayerPerceptronClassifier作�ؓ(f��)其深度学�?f��n)的雏�Ş。虽然这个模型还有很多地斚w��要优化，大家不妨��试下，毕竟它是唯一一个基于通用计算引擎的分布式深度学习(f��n)�pȝ��?/p>
除了现在非常火的深度学习(f��n)�Q�在传统�l�计和机器学�?f��n)领域，Spark�q�一�q�也有非常大的变化，包括GLM的全面支持，SparkR GLM的支持，A/B test�Q�以�?qi��ng)像WeightesLeastSquares�q�样的底层优化算法等�?/p>
具体内容可以看梁堰�L在InfoQ上的�q�终回顾�Q��?a target="_blank" style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">解读2015之Spark��：(x��)新生态系�l�的形成》�?/p>
Elasticsearch�Q?/span>
Elasticsearch 是一个可伸羃的开源全文搜索和分析引擎。它可以快速地存储、搜索和分析��量数据。Elasticsearch ��Z��成熟�?nbsp;Apache Lucene 构徏�Q�在设计时就是�ؓ(f��)大数据而生�Q�能够轻杄��q�行大规模的横向扩展�Q�以支撑PB�U�的�l�构化和非结构化��量数据的处理。Elasticsearch生态圈发展状态良好，整合了众多外围辅助系�l�，如监控Marvel�Q�分析Logstash�Q�安全Shield�{�。近�q�来不断发展受到�q�泛应用�Q�如Github、StackOverflow、维基百�U�等�Q�是数据库技术中倍受��x��的一匚w��马�?/p>
Elasticsearch在今�q�下半年发布�?.0版本�Q�性能提升不少�Q�主要改变�ؓ(f��)�Q?/p>
Pipeline Aggregation
��式聚合�Q�像��道一��P��对聚合的�l�果�q�行再次聚合。原来client端需要做的计��工作，下推到ES�Q�简�?nbsp;client代码�Q�更�Ҏ(gu��)��构徏强大的查询�?/p>
Query/Filter 合�ƈ
取消filters�Q�所有的filter语句自动转换为query语句。在上下文语义是query�Ӟ��q�行相关性计��；上下文语义是filter�Ӟ��单排除b不匹配的doc�Q�像现在的filter所做的一栗��这个重构以为着所有的query执行�?x��)以最有效的顺序自动优化。例如，子查询和地理查询�?x��)首先执行一个快速的模糊步骤�Q�然后用一个稍慢的�_�� 步骤截断�l�果。在filter上下文中�Q�cache有意义时�Q�经�怋�用的语句�?x��)被自动�~�存�?/p>
可配�|�的store compression
存储的field�Q�例如_source字段�Q�可以��用默认的LZ4��法快速压�~�，或者��用DEFLATE��法减少index size。对于日志类的应用尤其有用，旧的索引库在优化前可以切换到best_compression�?/p>
Hardening
Elasticsearch�q�行�?nbsp;Java Security Manager之下�Q�在安全性上标志着一个巨大的飞跃。Elasticsearch难于探测�Q�黑客在�pȝ��?nbsp;的媄(ji��ng)响也被严格限制。在索引斚w��也有加强�Q?nbsp;indexing��h��ack前，doc�?x��)被fsync�Q�默认写持久�?nbsp;所有的文�g都计��checksum�Q�提前检��文件损�?nbsp;所有的文�grename操作都是原子的（atomic�Q�，避免部分写文�?nbsp;对于�pȝ��理员来�Ԍ��一个需求较多的变化是，可以避免一个未配置的node意外加入Elasticsearch集群�|�络�Q�默认绑定localhost only�Q?nbsp;multicast也被�U�除�Q�鼓�׃��用unicast�?/p>
Performance and Resilience
除上所�q�ͼ�Elasticsearch和Lucene�q�有很多��的变化�Q��其更加稳定可靠，易于配置�Q�例如：(x��)
默认doc value�Q�带来更��的heap usage�Q�filter caching 更多使用 bitsets type mappings 大清理，更安全可靠，无二义�?nbsp;cluster stat 使用diff�q�行快速变化传播，带来更稳定的大规模集��?/p>
Core plugins
官方支持的core plugins同时发布�Q�和Elasticsearch核心使用相同的版本号�?/p>
Marvel 2.0.0 free to use in production
Marvel免费�?/p>
Apache Kylin�Q?/span>
Apache Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口�?qi��ng)多�l�分析（OLAP�Q�能力以支持��大规模数据�Q�最初由eBay Inc. 开发�ƈ贡献臛_��源社区。最初于2014�q?0�?日开源，�q�于同年11月加入Aapche孵化器项目，�q�在一�q�后�?015�q?1月顺利毕业成为Apache��目�Q�是eBay全球贡献至Apache软�g基金�?x��)（ASF�Q�的�W�一个项目，也是全部由在中国的华人团队整体�A(ch��)献至Apache的第一个项目�?/p>
在eBay�Q�已�l�上�U�两个生产环境��^収ͼ�有着诸多的应用，包括用户行�ؓ(f��)分析、点��d��析、商户分析、交易分析等应用�Q�最新的Streaming分析��目也已�l�上�Uѝ��目前在eBay�q�_��上最大的单个cube包含了超�q?000亿的数据�Q?0%查询响应旉��于1.5�U�，95%的查询响应时间小�?�U�。同时Apache Kylin在eBay外部也有很多的用��P��包括京东、美团、百度地图、网易、唯品会(x��)、Expedia、Expotional�{�很多国内外公司也已�l�在实际环境中��用�v来，把Apache Kylin作�ؓ(f��)他们大数据分析的基础之一�?/p>
�q�去的一�q�多是Apache Kylin发展的重要的一�q�_(d��)��(x��)
2014�q?0�?日，Kylin 代码在github.com上正式开�?/li>
2014�q?1�?5日，正式加入Apache孵化器�ƈ正式启用Apache Kylin作�ؓ(f��)��目名称
2015�q?�?0日，Apache Kylin v0.7.1-incubating发布�Q�这是加入Apache后的�W�一个版本，依据Apache的规范作了很多修改，特别是依赖包�Q�license�{�方面，同时��化了安装�Q�设�|�等�Q��ƈ同时提供二进制安装包
2015�q?�?日，Apache Kylin v1.0-incubating正式发布�Q�增��Z��SQL处理�Q�提升了HBase coprocessor 的性能�Q�同时提供了Zeppelin Interpreter�{?/li>
2015�q?�?6日，Apache Kylin与Spark�Q�Kafka�Q�Storm�Q�H2O�Q�Flink�Q�Elasticsearch�Q�Mesos�{�一赯��获InfoWorld Bossie Awards 2015�Q�最�?j��ng)_��源大数据工具奖，�q�是业界对Kylin的认�?/li>
2015�q?1�?8日，Apache Kylin正式毕业成�ؓ(f��)Apache��目
2015�q?2�?5日，Apache Kylin v1.2正式发布�Q�这是升�U��ؓ(f��)��目后的�W�一个版本，提供了对Excel�Q�PowerBI�Q�Tableau 9�{�的支持�Q�对高基�l�度增强了支持，修复了多个关键Bug�{?/li>
2016�q�_(d��)��Apache Kylin��迎来重要的2.x版本�Q�该版本对底层架构和设计作了重大重构�Q�提供可插拔的设计及(qi��ng)Lambda架构�Q�同时提供对历史数据查询�Q�Streaming�?qi��ng)Realtime查询�{�，同时在性能�Q��Q务管理，UI�{�各个方面提供增强�?/li>
同时�Q�过��M��q�也是社区发展的重要一�q�_(d��)��在过��M��q�内发展了来自eBay�Q�美团，京东�Q�明略数据，�|�易�{�众多committer�Q�社区每天的讨论也是非常热闹。社区提交了很多新特性和Bug修复�Q�包括来自美团的不同HBase写入�Q�来自京东的明细数据查询�Q�来自网易的多Hive源等多个重大�Ҏ(gu��)��ؓ(f��)Apache Kylin带来了巨大的增强�?/p>
�C�֌�合作
在开源后的一�q�时间内�Q�Apache Kylin也和其他�C�֌�建立了良好的合作关系�Q�Apache Calcite作�ؓ(f��)Kylin 的SQL引擎被深入的整合�q�来�Q�我们也向Calcite提交了很多改�q�和修复�Q�Calcite的作者，Julian Hyde也是Kylin的mentor。HBase是Kylin的存储层�Q�在实际�q�维中，我们��到�q�无数问题，从可靠性到性能到其他各个方面，Kylin�C�֌�和HBase�C�֌��U�极合作解决了绝大部分关键问题。另外，现在��来��多的用戯��(g��)�虑使用Apache Zeppelin作�ؓ(f��)前端查询和展现的工具�Q��ؓ(f��)此我们开发了Kylin Interperter�q��A(ch��)献给了Zeppelin�Q�目前可以直接从最新版的Zeppelin代码库中看到�q�块。同��P��我们也和其他各个�C�֌��U�极合作�Q�包括Spark�Q�Kafka�{�，为构建和谐的�C�֌�氛围和�Ş成良好合作打下了坚实的基��?/p>
技术发�?/span>
技术上�Q�这一�q�来Apache Kylin主要在以下几个方�?/p>
Fast Cubing
在现在的版本中，Cube的计��依赖MapReduce�Q��ƈ且需要多个步骤的MR Job来完成计��，且MR Job的多��和�l�度相关�Q�越多的�l�度�?x��)带来更多的MR job。而每一�ơMR job的启停都需要等待集��调度，�q�且MR job之间的数据需要多�ơ在HDFS落地和传输，从而导致消耗了大量的集��资源。�ؓ(f��)此我们引入了一�U�新的算法：(x��)Fast Cubing。一个MapReduce卛_��完成Cub的计��，��试�l�果表明整个Cubing的时间可以降�?0�?0%左右�Q�网�l�传输可以下�?倍，�q�在��大规模数据集的计算上带来了客观的性能改进�?/p>
Streaming OLAP
Kylin作�ؓ(f��)一个预计算�pȝ��Q�不可避免的有着数据��h��延迟的限�Ӟ��q�在大部分用��h��例中�q�不是问题，但随着业务和技术的发展�Q�Streaming甚至Realtime的需求越来越高�?015�q�Kylin的主要发展都在Streaming OLAP上，��Z��支持低�g�q�的数据��h��Q�从整体的架构和设计上都做了相当大的重新设计�Q�目前已�l�可以支持从Kafka��d��数据�q�进行聚合计��的能力�Q�同时提供SQL接口为前端客��L(f��ng)��提供标准的访问接口，数据延迟已经可以做到分钟�U�别�?/p>
Spark Cubing
Spark作�ؓ(f��)MapReduce的一�U�替代方案一直在�C�֌�中被问及(qi��ng)Kylin是否可以支持直接使用Spark来作��。�ؓ(f��)此我们在2015�q�下半年实现了同��L(f��ng)��法的Spark Cubing引擎�Q�目前还在测试中�?/p>
可插拔架�?/span>
��Z��更广泛的可扩展性，�q�支持如上各�U�新�Ҏ(gu��)��，Kylin�?.x的代码中引入了可插拔架构和设计，从而解决了对特定技术的依赖问题。在新的设计中，数据源可以从Hive�Q�SparkSQL�{�各�U�SQL on Hadoop技术读取，�q�支持Kafka�Q�在计算引擎斚w��Q�除了MapReduce斚w��的Fast Cubing外，实现了Spark Cubing�Q�Streaming Cubing�{�多�U�计��框�Ӟ��q��ؓ(f��)��来其他计算框架留下了扩展接口；在存储上�Q�HBase目前依然是唯一的存储层�Q�但在上层设计中已经很好的进行了抽象�Q�很�Ҏ(gu��)��可以扩展到其他Key�Q�Value�pȝ��?/p>
大数据与机器学习(f��n)
机器学习(f��n)是数据分析不可缺��的一部分。机器学�?f��n)被赞誉为大数据分析和商务智能发展的未来�Q�成功的机器学习(f��n)��目依赖于很多因素，包括选择正确的主题，�q�行环境�Q�合理的机器学习(f��n)模型�Q�最重要的是现有的数据，大数据�ؓ(f��)机器学习(f��n)提供了很好的用武之地�?/p>
机器学习(f��n)正很快从一个被很少人关注的技术主题�{变�ؓ(f��)被很多�h使用的管理工兗��优�U�的算法，大数据和高性能的计��资源的条�g的满��得机器学�?f��n)快速发展，机器学习(f��n)在今�q�第一�ơ进入Gartner技术成熟曲�U�的报告中，�q�且�q�入大数据一��L(f��ng)��应用期；而机器学�?f��n)也是报告中�W�一个出现的技术�?015�q�是机器学习(f��n)丰收�q�_(d��)��发生了很多��o(h��)人瞩目的大事�?/p>
各大巨头开源：(x��)
2015�q?月，Facebook开�?/a>前沿深度学习(f��n)工具“Torch”�?/li>
2015�q?月，亚马逊启动其机器学习(f��n)�q�_��Amazon Machine Learning�Q�这是一��全面的托管服务�Q�让开发者能够轻松��用历史数据开发�ƈ部��v预测模型�?/li>
2015�q?1月，��h��开�?/a>其机器学�?f��n)��^台TensorFlow�?/li>
同一月，IBM开源SystemML�q�成为Apache官方孵化��目�?/li>
同时�Q�微软亚�z�研�I��分布式机器学习(f��n)工具DMTK通过Github开源。DMTK�׃��个服务于分布式机器学�?f��n)的框架和一�l�分布式机器学习(f��n)��法�l�成�Q�可��机器学�?f��n)算法应用到大数据中�?/li>
2015�q?2月，Facebook开源针对神�l�网�l�研�I�的服务�?#8220;Big Sur”�Q�配有高性能囑�Ş处理单元�Q�GPUs�Q�，转�ؓ(f��)深度学习(f��n)方向设计的芯片�?/li>
大公�怸�仅是用开源社区来增强自己的机器学�?f��n)工��P��而且也会(x��)以收购来提升自��n的机器学�?f��n)实力。如IBM于今�q?月收购了AIchemyAPI�Q�AIchemyAPI能够利用深度学习(f��n)人工��Q�搜集企业、网站发行的囄��和文字等来进行文本识别和数据分析�?/p>
此外�Q?015�q�不仅仅是关于大公司的，利用机器学习(f��n)的各�U�创业公�怹�占了同等��C��。比如EverString完成B轮融资，该公司利用企业内部销售数据，和不断主动挖掘分析全球新��L��据，�C�交媒体�{�外部数据，通过机器学习(f��n)自动建立量化客户模型�Q��ؓ(f��)企业预测潜在客户�?/p>
数据�U�学家的崛�v
大数据需要数据分析，数据分析需要�h才。数据科学是早就存在的词汇，而数据科学家却是�q�年来突然出现的新词。在Google、Amazon、Quora、Facebook�{�大公司的背后，都有一�Ҏ(gu��)��据科学专业�h才，��大量数据变为可开发有价值的金矿。在大数据时代，数据�U�学家等分析人才的需求在�Ȁ增�?/p>
据相��x��告，国内大数据�h才缺口目前已辄��万，一名高�U�数据挖掘工�E�师月薪高达30K-50K。招聘网站上的每天都�?x��)��生大量的大数据相兌��位需求。据拉勾�|�提供的�l�计来看�Q�从2014�q�到2015�q�_(d��)��IT行业关于大数据的岗位需求增长了2.4倍。�h才培养迫在眉睫。复旦大学于今年成立了全国首个大数据学院。阿里云于年底宣布新�?0所合作高校�Q�开设云计算大数据专�?计划�?�q�时间培�?万名数据�U�学家。各知名大学也将数据�U�学设�ؓ(f��)��士评��?/p>
无论是国内还是国外，数据�U�学都是目前炙手可热的研�I��域，数据�U�学家、数据分析师都是非常火爆的职位，几乎所有的产业都需要数据科学家来从大量的数据中挖掘有�h(hu��n)值的信息。大数据分析领域的专属首席��别头衔也愈发多见。美国政府今�q��Q命了DJ Patil作�ؓ(f��)政府的首席数据科学家�Q�Chief Data Scientist�Q�，�q�也是美国政府内部首�ơ设�?#8220;数据�U�学�?#8221;�q�个职位�?/p>
展望2016�Q?/h2>
Hadoop。对�?nbsp;HDFS�Q�会(x��)朝着异构存储介质方向发展�Q�尤其是�Ҏ(gu��)��兴存储介质的支持�Q�对�?nbsp;YARN�Q�会(x��)朝着通用资源��理和调度方向发展，而不仅仅限于大数据处理领域，在加强对 MapReduce、Spark�{�短�c�d��应用支持的同�Ӟ��加强对类似Web Service �{�长服务的支持；
对于HBase�Q�将�?x��)花��?gu��)��多精力在�E�_��性和性能斚w��Q�正��试的技术方向包括：(x��)对于 HDFS 多存储介质的使用�Q�减��对 ZooKeeper 的��用以�?qi��ng)通过使用堆外内存�~�解Java GC的媄(ji��ng)响�?/li>
Spark 2.0预计明年三四月䆾发布�Q�将�?x��)确立以DataFrame和Dataset为核心的体系架构。同时在各方面的性能上会(x��)有很大的提升�?/li>
Apache Kylin 2.0卛_��发布�Q�随着各项改进的不断完善，该版本将�?016�q�在OLAP on Hadoop上更�q�一步！
Elasticsearch开源搜索��^収ͼ�机器学习(f��n)�Q�Data graphics�Q�数据可视化�?016�q�会(x��)更加火热�?/li>
大数据会(x��)��来��大�Q�IOT、社交媒体依然是一个主要的推动因素�?/li>
大数据的安全和隐�U�会(x��)持箋受到��x��?/li>

专家介绍�Q?/span>
董西�?/span> ��p��于Hulu�Q�专注于分布式计��和资源��理�pȝ��{�相��x��术。《Hadoop 技术内�q�：(x��)深入解析 MapReduce 架构设计与实现原理》和《Hadoop 技术内�q�：(x��)深入�?nbsp;�?nbsp;YARN 架构设计与实现原理》作者，dongxicheng.org 博主�?/p>
梁堰�?/span> 明略数据技术合伙�h�Q�开源爱好者，Apache Spark��目核心贡献者。北京航�I��天大学计��机��士�Q�曾��p��于Yahoo!、美团网、法国电(sh��)信从事机器学�?f��n)和推荐�pȝ��相关的工作，在大数据、机器学�?f��n)和分布式系�l�领域具备丰富的��目�l�验�?/p>
卢亿�?/span> �_��U�技(AdMaster)技术副总裁兼��L��构师�Q�大数据资深专家�Q�CCF�Q�中国计��学�?x��)�?j��)大数据专委委员，北航特聘教授。主要负责数据的采集、清�z�、存储、挖掘等整个数据��过�E�，��保提供高可靠、高可用、高扩展、高性能�pȝ��服务�Q�提供Hadoop/HBase/Storm/Spark/ElasticSearch�{�离�Uѝ��流式及(qi��ng)实时分布式计��服务。对分布式存储和分布式计��、超大集��、大数据分析�{�有深刻理解�?qi��ng)实�늻�验。有��过10�q�云计算、云存储、大数据�l�验。曾在联惟뀁百度、Carbonite工作�Q��ƈ拥有多篇大数据相关的专利和论文�?/p>
韩卿(Luke Han) eBay全球分析基础架构�?ADI) 大数据��^��C�品负责�h�Q�Apache Kylin 副总裁�Q�联合创始�h�Q�管理和驱动着Apache Kylin的愿景，路线图，�Ҏ(gu��)��及(qi��ng)计划�{�，在全球各��C��同部门中发展客户�Q�开拓内外部合作伙伴�?qi��ng)管理开源社区等�Q�徏立与大数据厂商，集成商及(qi��ng)最�l�用��L(f��ng)��联系已构建健壮的Apache Kylin生态系�l�。在大数据，数据仓库�Q�商务智能等斚w��拥有��过十年的工作经验�?/p>

�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">QCon北京2016】大�?x��)火热筹备中�Q�腾讯社交网�l�质量部副�ȝ��理吴凯华、美团网技术�ȝ��王栋、奇�?60�pȝ��部�ȝ��肖康�{�专家将担�Q专题出品人，�{�划实践驱动的技术分享。另�Q?00+位讲师积极邀(g��)�U�中�Q�欢�q?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">自荐或推�?/a>。现�?a style="text-decoration: none; color: #286ab2; outline: none !important; margin: 0px; border: 0px; padding: 0px;">购票�Q�可�?折优惠，5��Z��上团购优惠多多�?/span>

��马�?/a> 2016-01-15 15:01 发表评论

国产亚洲视频在线,色吊丝在线永久观看最新版本,日韩欧美中文在线观看

Introducing Apache Spark 2.0 Now generally available on Databricks

Easier: ANSI SQL and Streamlined APIs

Faster: Apache Spark as a Compiler

Smarter: Structured Streaming

Conclusion

Read More

从小数据分析到大数据�q�_���Q�这十几�q�来大数据开源技术是如何演进的？

Druid�Q�一个用于大数据实时处理的开源分布式�pȝ��

用大数据思维做运�l�监控是怎样一�U�体�?

1 �q�维监控现状

2 �|�列��Z��的数据源

3 如何�l�一实现

4 大数据思维

后话

深度访谈�Q�华为开源数据格式CarbonData��目�Q�实现大数据卛_��查询�U���响应

ElasticSearch安装和配�|�head、bigdesk、IkAnalyzer

搜烦(ch��)引擎选择�Q?Elasticsearch与Solr

搜烦(ch��)引擎选型调研文���

Elasticsearch����?a target="_blank" style="margin: 0px; padding: 0px; color: #258fb8; text-decoration: none; outline-width: 0px;">*

Elasticsearch的优�~�点**:

优点

�~�点

Solr����?a target="_blank" style="margin: 0px; padding: 0px; color: #258fb8; text-decoration: none; outline-width: 0px;">*

Solr的优�~�点

优点

�~�点

Elasticsearch与Solr的比�?a target="_blank" style="margin: 0px; padding: 0px; color: #258fb8; text-decoration: none; outline-width: 0px;">*

实际生��环境���试*

Elasticsearch �?Solr 的比较�ȝ��

其他��Z��Lucene的开源搜索引擎解��x���?a target="_blank" style="margin: 0px; padding: 0px; color: #258fb8; text-decoration: none; outline-width: 0px;">*

解读2015之大数据���：(x��)大数据的黄金时代

Twitter Messaging的架构演化之�?/a>

业务核心架构�Q�根据业务需求设计合理架�?/a>

QCon北京2016大会(x��)�Q?�?1-23日，与�?zh��n)�相约北京国际会(x��)议中心�Q?�?1前报名��n8折优惠！

回顾2015�q�的关键技术进展：(x��)

Hadoop�Q?/span>

Spark�Q?/span>

Elasticsearch�Q?/span>

Apache Kylin�Q?/span>

大数据与机器学习(f��n)

数据�U�学家的崛�v

从小数据分析到大数据�q�_��Q�这十几�q�来大数据开源技术是如何演进的？

深度访谈�Q�华为开源数据格式CarbonData��目�Q�实现大数据卛_��查询�U��响应

搜烦(ch��)引擎选型调研文��

Elasticsearch��?a target="_blank" style="margin: 0px; padding: 0px; color: #258fb8; text-decoration: none; outline-width: 0px;">^*

Elasticsearch的优�~�点^^:

Solr��?a target="_blank" style="margin: 0px; padding: 0px; color: #258fb8; text-decoration: none; outline-width: 0px;">^*

Elasticsearch与Solr的比�?a target="_blank" style="margin: 0px; padding: 0px; color: #258fb8; text-decoration: none; outline-width: 0px;">^*

实际生��环境��试^*

其他��Z��Lucene的开源搜索引擎解��x��?a target="_blank" style="margin: 0px; padding: 0px; color: #258fb8; text-decoration: none; outline-width: 0px;">^*

解读2015之大数据��：(x��)大数据的黄金时代