Hadoop周刊

第 165 期 2016年4月10日

啟明星辰——平臺(tái)和大數(shù)據(jù)整體組編譯

本周，包括LinkedIn 和Airbnb新開(kāi)源項(xiàng)目在內(nèi)的數(shù)個(gè)產(chǎn)品進(jìn)行了重大版本發(fā)布。本期技術(shù)部分與流式處理有關(guān)——Spark、Flink、Kafka等等；新聞部分是關(guān)于Spark Summit 和HbaseCon的會(huì)議議程。

技術(shù)

Zalando發(fā)表了他們是如何選擇Apache Flink作為流式處理框架的文章。該文章闡述了對(duì)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行驗(yàn)證后得出的結(jié)論，闡明了選擇Apache Flink的主因—在高吞吐量的情況下依然能保持低延遲，真正的流式處理，開(kāi)發(fā)人員支持。

https://tech.zalando.com/blog/apache-showdown-flink-vs.-spark/

Cloudera博客刊登了來(lái)自Wargaming.net的文章，通過(guò)本文可了解到他們?nèi)绾瓮ㄟ^(guò)Kafka、HBase、Drools、Spark構(gòu)建實(shí)時(shí)處理基礎(chǔ)設(shè)施的。另外，在數(shù)據(jù)流程方面，他們介紹了如何對(duì)HBase的檢索和序列化、HBase和Spark之間的數(shù)據(jù)本地化以及Spark計(jì)算方面的優(yōu)化措施。

http://blog.cloudera.com/blog/2016/04/inside-wargamings-data-driven-real-time-rules-engine/

InfoQ發(fā)布了大規(guī)模流式處理—SMACK（Spark、Mesos、Akka、Cassandra以及 Kafka）棧的介紹視頻。討論了為什么SMACK棧在處理同樣問(wèn)題的時(shí)候比Lambda架構(gòu)更簡(jiǎn)單。

http://www.infoq.com/presentations/stream-analytics-scalability

Confluent“日志壓縮”系列博文又有更新，介紹了Kafka項(xiàng)目三月份發(fā)生的事情。有不少令人關(guān)注的開(kāi)發(fā)內(nèi)容，包括機(jī)架感知、Kerberos支持、基于時(shí)間索引方面的進(jìn)展。以及不少你（我也是）沒(méi)有時(shí)間持續(xù)關(guān)注的最新研發(fā)成果。

http://www.confluent.io/blog/log-compaction-highlights-in-the-kafka-and-stream-processing-community-april-2016

Apache Flink 1.0引入了新的復(fù)雜事件處理（CEP）庫(kù)。啰嗦幾句，CEP提供了一種檢測(cè)事件模式的方法。本文借助傳感器從數(shù)據(jù)中心服務(wù)器上收集數(shù)據(jù)，運(yùn)用一種可能的異常檢測(cè)用例，詮釋了Flink的CEP模式API 。

http://flink.apache.org/news/2016/04/06/cep-monitoring.html

Genome Analysis Toolkit （GATK）最近宣布，下一個(gè)版本（當(dāng)前是alpha）將支持Apache Spark。本文簡(jiǎn)要介紹了工具箱并展示了怎樣通過(guò)Spark來(lái)檢測(cè)重復(fù)DNA片段的。

http://blog.cloudera.com/blog/2016/04/genome-analysis-toolkit-now-using-apache-spark-for-data-processing/

InfoWorld綜述了Spark2.0關(guān)于結(jié)構(gòu)化流式處理方面的計(jì)劃。微批處理將依然延續(xù)，還有些新特性，例如無(wú)限數(shù)據(jù)幀（Infinite DataFrames）、一流的重復(fù)查詢支持。

http://www.infoworld.com/article/3052924/analytics/what-sparks-structured-streaming-really-means.html

AWS大數(shù)據(jù)博客發(fā)布了一篇通過(guò)存儲(chǔ)在AWS Key Management Service （KMS）中的加密密鑰加載數(shù)據(jù)到S3和Redshift的文章。除了描述所需步驟，本文還介紹了如何在AWS S3中通過(guò)KMS密鑰加密數(shù)據(jù)。

http://blogs.aws.amazon.com/bigdata/post/Tx2Q3ZBOZO9DHVQ/Encrypt-Your-Amazon-Redshift-Loads-with-Amazon-S3-and-AWS-KMS

Confluent博客介紹了如何使用Kafka Connect 和 Kafka Streams 編寫(xiě)非凡的“hello world”程序。更確切地說(shuō)，范例程序從IRC拉維基百科數(shù)據(jù)，并解析消息、進(jìn)行多方面的統(tǒng)計(jì)計(jì)算。本文還用了若干程序展示了整個(gè)實(shí)現(xiàn)過(guò)程。

http://www.confluent.io/blog/hello-world-kafka-connect-kafka-streams

本文從Postgres 向 Cassandra轉(zhuǎn)換簡(jiǎn)單的模式（schemas），并描述了主要的差異—復(fù)制、數(shù)據(jù)類型（Cassandra不支持JSON）、主鍵、最終以一致性。

http://neovintage.org/2016/04/07/data-modeling-in-cassandra-from-a-postgres-perspective/

新聞

ESG博客報(bào)導(dǎo)了最近Strata+Hadoop World大會(huì)的情況。并有些重點(diǎn)關(guān)注，例如Spark的良好勢(shì)頭、機(jī)器學(xué)習(xí)、云服務(wù)。

http://blog.esg-global.com/riding-high-at-stratahadoop-world

InformationWeek也報(bào)導(dǎo)了Strata大會(huì)，關(guān)注了MapR和Pivotal的關(guān)燈片、人工智能等。

http://www.informationweek.com/big-data/ai-public-data-sets-real-time-strata-+-hadoop-keynote-sampling/d/d-id/1324943?

Spark Summit 2016議程敲定，將于6月6-8日在舊金山舉行。會(huì)議將有兩天展開(kāi)五個(gè)方向的討論。

https://databricks.com/blog/2016/04/04/agenda-announced-for-sparksummit-2016-in-san-francisco.html

福布斯采訪了Cloudera CEO Tom Reilly，他討論了公司的機(jī)遇、競(jìng)爭(zhēng)性市場(chǎng)、上市計(jì)劃等。

http://www.forbes.com/sites/roberthof/2016/04/06/ceo-tom-reilly-makes-the-case-for-cloudera-and-its-ipo/

Datanami撰文將正在崛起的Apache Kafka作為流式處理的支柱。文章還采訪了Confluent聯(lián)合創(chuàng)始人兼CTO Neha Narkhede，坊間她表示最近將推出Kafka Connect 和 Kafka Streams。

http://www.datanami.com/2016/04/06/real-time-rise-apache-kafka/

HBaseCon將于5月24日在舊金山召開(kāi)，最近議程才正式宣布。在三個(gè)方向上，將有20個(gè)以上的議題要討論。

http://blog.cloudera.com/blog/2016/04/hbasecon-2016-speaker-lineup-announced/

發(fā)布

Apache HBase 0.98.18 和1.1.4最近都發(fā)布了。1.1.4上有包括九個(gè)或正確性在內(nèi)的若干修復(fù)。HBase 0.98.18羞答答的僅解決了50個(gè)問(wèn)題（bug、改善兩個(gè)新特性）。

http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCANZa%3DGu-mAxKEtfoRjctHcE0KD7z52oE010Fgsf6AMmW2tDZLA%40mail.gmail.com%3E
http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCA%2BRK%3D_CtZ1L07nS6Og2ekfVwet0qTE7jw-bmyD2pp5UPweUehQ%40mail.gmail.com%3E

Apache Lens發(fā)布了2.5.0-beta，作為統(tǒng)一分析接口，它已經(jīng)支持Hadoop生態(tài)系統(tǒng)的執(zhí)行引擎數(shù)據(jù)存儲(chǔ)了。本次發(fā)布解決了87票，主要是bug修復(fù)和實(shí)現(xiàn)新功能。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAL3kmZj60kpopRPpOVEs9o7oTg7YuaC_=c8zncBeMyUESrZsmQ@mail.gmail.com%3E

Airbnb 開(kāi)源了 Caravel，數(shù)據(jù)探索系統(tǒng)（數(shù)據(jù)可視化平臺(tái)）。Caravel支持多種在商業(yè)產(chǎn)品上才能看到的特性，能夠連接到任意只要支持SQL方言的系統(tǒng)。尤其它支持面向Druid的實(shí)時(shí)分析。

https://medium.com/airbnb-engineering/caravel-airbnb-s-data-exploration-platform-15a72aa610e5

MapR 宣布支持Apache Drill 1.6作為他們的分布式系統(tǒng)。比較有亮點(diǎn)的發(fā)布有MapR-DB新存儲(chǔ)插件、新SQL窗口函數(shù)支持以及端對(duì)端安全。在網(wǎng)頁(yè)介紹部分，有些使用MapR-DB API加載數(shù)據(jù)并通過(guò)Drill查詢的例子。

https://www.mapr.com/blog/apache-drill-16-mapr-converged-platform-gearing-new-generation-stack-json-enabled-big-data

Apache Flink發(fā)布了修復(fù)bug后的1.0.x。這次發(fā)布解決了23個(gè)問(wèn)題，推薦所有1.0.0的用戶升級(jí)。

http://flink.apache.org/news/2016/04/06/release-1.0.1.html

Cloudera Enterprise 5.7發(fā)布附帶了Spark、HBase、Impala、Kafka等組件版本的升級(jí)。本次發(fā)布的亮點(diǎn)包括從Cloudera Labs 新鮮推薦的Hive-on-Spark、HBase-Spark、Impala性能重要提升，支持SSD 上HBase WAL。

http://blog.cloudera.com/blog/2016/04/cloudera-enterprise-5-7-is-released/

Apache Tajo，構(gòu)建在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)，發(fā)布了0.11.2版。新版本支持了Kerberos，修復(fù)了ORC表對(duì)Hive的支持等。

http://tajo.apache.org/releases/0.11.2/announcement.html

LinkedIn 開(kāi)源了 Dr. Elephant，里面的工具能診斷Hadoop和Spark任務(wù)的性能問(wèn)題。基于metrics從YARN資源管理器收集已完成任務(wù)數(shù)據(jù)，Dr. Elephant評(píng)估后生成診斷報(bào)表，內(nèi)容包括數(shù)據(jù)錯(cuò)位、GC開(kāi)銷等。LinkedIn宣稱借助它能解決80%的問(wèn)題。

https://engineering.linkedin.com/blog/2016/04/dr-elephant-open-source-self-serve-performance-tuning-hadoop-spark

活動(dòng)

中國(guó)

無(wú)

posted on 2016-04-14 18:02 Rosen 閱讀(730) 評(píng)論(0) 編輯收藏所屬分類: 大數(shù)據(jù)

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問(wèn) 管理
相關(guān)文章: Hadoop周刊—第 167 期 Hadoop周刊—第 166 期 Hadoop周刊—第 165 期

成都心情

公告

隨筆分類(91)

隨筆檔案(99)

文章分類(2)

友情鏈接

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

技術(shù)

新聞

發(fā)布

活動(dòng)