Hadoop周刊 第 174 期
啟明星辰平臺和大數(shù)據(jù)總體組編譯
2016年6月12日
Spark峰會本周在舊金山召開,正如所料,本期周刊有大量關(guān)于Apache Spark的新聞、公告和版本發(fā)布。除Spark外,本期還有Kafka、Cask、Ambari方面的文章。在產(chǎn)品發(fā)布部分,有一年來Apache Pig首次版本更新,還一個為分布式系統(tǒng)設(shè)計的簡潔新工具Runway,最后是新版Apache Kudu(孵化中)。
技術(shù)新聞
Debezium是一個相對較新的項目,用于數(shù)據(jù)庫和Apache Kafka topic行級改變數(shù)據(jù)捕獲。當(dāng)面支持MySQL、Zookeeper、Kafka,這是一篇在Docker、Kubernetes容器上配置Zookeeper, Kafka, MySQL的教程。
http://debezium.io/blog/2016/05/31/Debezium-on-Kubernetes/
有些人對Apache Kafka項目宣布采用另一種流式處理引擎感到驚訝,這就是Kafka Streams。Kafka Streams與其它系統(tǒng)存在顯著的關(guān)鍵差異。本文很好的示范了這些不同點——abstraction、部署模型、支持基于狀態(tài)的計算。
https://softwaremill.com/kafka-streams-how-does-it-fit-stream-landscape/
每個使用MapReduce、Spark或類似系統(tǒng)的人都會陷入難以調(diào)試、數(shù)據(jù)特征bug這些問題中。BigDebug是UCLA(加州大學(xué)洛杉磯分校)的研究項目/論文,旨在讓開發(fā)人員通過工具發(fā)現(xiàn)單機問題:傳入?yún)?shù)導(dǎo)致的崩潰,跟蹤、斷點、觀察點、延遲報警等。該工具支持Apache Spark 1.2.1上。
https://blog.acolyer.org/2016/06/07/bigdebug-debugging-primitives-for-interactive-big-data-processing-in-spark/
Cask撰文介紹了在開源Cask Data Application Platform (CDAP)中運行Spark的文章。運行在CDAP的Spark程序通過訪問Apache Tephra(孵化中)實現(xiàn)細粒度事務(wù)支持。這樣,就能很容易利用快照隔離實現(xiàn)從一個表復(fù)制到另一個表的一致性。CDAP中的Spark也能訪問Cask Tracker,Cask Tracker提供數(shù)據(jù)血緣信息(什么時候創(chuàng)建、使用等)。根據(jù)應(yīng)用的不同,CDAP工具還能發(fā)揮更大價值。
http://blog.cask.co/2016/06/cdap-spark-prototype-to-production/
IBM Hadoop Dev博客撰寫了從cURL調(diào)用Ambari REST API的教程。還示范了在vanilla和啟用了kerberos的集群上建立會話,并為接下來的請求復(fù)用會話。
https://developer.ibm.com/hadoop/2016/06/07/ambari-rest-calls-for-kerberos-enabled-clusters/
Google云平臺博客撰文介紹了如何調(diào)試運行在Google Dataflow上的Apache Beam(孵化中)任務(wù)。為了調(diào)試性能瓶頸,Dataflow有一些有用的統(tǒng)計數(shù)據(jù)和UI來幫助使用者深入每一個步驟。
https://cloud.google.com/blog/big-data/2016/06/understanding-timing-in-cloud-dataflow-pipelines
其他新聞
Transaction Processing Performance Council(TPC)發(fā)布了TPCx-BB基準(zhǔn)測試,該基準(zhǔn)測試為大數(shù)據(jù)系統(tǒng)設(shè)計。除了衡量SQL外,還可以對機器學(xué)習(xí)集群和分類問題進行測試。
http://www.datanami.com/2016/06/01/big-data-benchmark-gauges-hadoop-platforms/
倫敦Strata + Hadoop世界大會兩周前已召開。演講者的專題報告和幻燈片已發(fā)布到會議網(wǎng)站上。
http://conferences.oreilly.com/strata/hadoop-big-data-eu/public/schedule/proceedings
Splice Machine,Hadoop上的RDBMS構(gòu)建者,宣布開源他們的軟件。當(dāng)前,他們正在尋找貢獻者/導(dǎo)師/豪杰來提升開源后的效果。Splice Machine有不少有趣的特性,例如ACID事務(wù),二級索引,引用完整性。
http://www.splicemachine.com/were_going_open_source/
Altiscale博客編輯了許多關(guān)于客戶服務(wù)、情感分析、氣候變化、智慧城市、bias等方面的大數(shù)據(jù)應(yīng)用案例文章。還收集了一些大數(shù)據(jù)懷疑論者的文章。
https://www.altiscale.com/blog/big-data-news-health-and-public-safety-sentiment-analysis-fixing-education-2/
Spark峰會本周在舊金山召開。會議組織者Databricks概述了兩天內(nèi)的熱點內(nèi)容,鏈接了許多的演講和專題報告。
https://databricks.com/blog/2016/06/08/another-record-setting-spark-summit.html
大數(shù)據(jù)即服務(wù)(BDaaS)公司Qubole,撰文介紹了他們的客戶如何接受使用Spark。接受速度之快——一半多的客戶現(xiàn)在開始用Spark。Qubole也支持Presto,他們也看到了類似的增長。
https://www.qubole.com/blog/big-data/spark-usage/
Twitter向Apache孵化器提交了他們的復(fù)制日志服務(wù)DistributedLog。
https://wiki.apache.org/incubator/DistributedLogProposal
Big Data Day LA于6月9日在西洛杉磯學(xué)院召開。這次活動是免費的(如果預(yù)先注冊的話),演講者來自于Confluent、Databricks、Yahoo、Netflix等。
http://www.bigdatadayla.com/
產(chǎn)品發(fā)布
Apache Spark發(fā)布了Spark 2.0預(yù)覽版。發(fā)布聲明中說道API和功能都尚未最終敲定。
https://spark.apache.org/news/spark-2.0.0-preview.html
JustOne構(gòu)建并開源了Kafka-to-PostgreSQL連接器。本文介紹了該連接器的性能,詳細描述了如何把消息轉(zhuǎn)換為行,還描述了如何設(shè)定配置等。
http://www.confluent.io/blog/kafka-connect-sink-for-postgresql-from-justone-database
Salesforce開源了Runway,這是一個建模、仿真以及可視化分布式系統(tǒng)。在runway.system上有一個在線演示環(huán)境,演示了“too many bananas”模型,電梯系統(tǒng)和Raft一致性系統(tǒng)。
https://medium.com/salesforce-open-source/runway-intro-dc0d9578e248
Bloomberg最近開源了Presto Accumulo,面向Apache Accumulo的Presto連接器。在聲明中,鏈接了11頁的論文,比較了基于的Presto查詢和基于Accumulo Java API查詢的基準(zhǔn)測試結(jié)果。
http://www.bloomberg.com/company/announcements/open-source-at-bloomberg-reducing-application-development-time-via-presto-accumulo/
微軟Azure發(fā)布了基于Apache Spark 1.6.1 穩(wěn)定版的Azure HDInsight。本次發(fā)布支持了面向Spark的Project Livy REST任務(wù)服務(wù)支持,集成了Azure數(shù)據(jù)湖存儲(基于角色的訪問控制),集成了IntelliJ,支持了Jupyter筆記本等。
https://azure.microsoft.com/en-us/blog/apache-spark-for-azure-hdinsight-now-generally-available/
LinkedIn開源了Photon ML,他們的大規(guī)?;貧w分析庫。Photon構(gòu)建在Spark之上并在LinkedIn的YARN上運行(過去基于MapReduce,似乎因為要提升性能才遷移)。
https://engineering.linkedin.com/blog/2016/06/open-sourcing-photon-ml
Hortonworks發(fā)布了Spark-HBase連接器的技術(shù)預(yù)覽版。預(yù)覽版原生支持Avro,支持運行安全集群,原生支持Spark Datasource API,并優(yōu)化了分區(qū)修剪,列修剪,謂詞下推。
http://hortonworks.com/blog/spark-hbase-dataframe-based-hbase-connector/
Databricks發(fā)布了Apache Spark平臺的第一階段安全特性。本階段對集群ACL、SAML 2.0進行了支持,端對端的審計日志。
https://databricks.com/blog/2016/06/08/achieving-end-to-end-security-for-apache-spark-with-databricks.html
Apache ORC 1.1.0版發(fā)布了。本次發(fā)布完成了從基于Apache Hive的代碼到基于Java的代碼遷移,修正了C++時間戳處理程序,增加了Hadoop MapReduce連接器。
http://orc.apache.org/news/2016/06/10/ORC-1.1.0/
Apache Kudu發(fā)布了0.9.0版。增加了UPSERT命令,新的Spark數(shù)據(jù)源不會依賴MapReduce API,提升了Tablet Server寫性能。
http://getkudu.io/2016/06/10/apache-kudu-0-9-0-released.html
Google云服務(wù)平臺團隊發(fā)布了支持Spark 2.0預(yù)覽版的Google Cloud Dataproc。
https://cloud.google.com/blog/big-data/2016/06/google-cloud-dataproc-the-fast-easy-and-safe-way-to-try-spark-20-preview
Dory(Bruce的繼承者)Kafka producer的守護進程,現(xiàn)在支持從UNIX domain sockets或本地TCP接收數(shù)據(jù)了。
http://mail-archives.apache.org/mod_mbox/kafka-users/201606.mbox/%3C1465683894.608424023@apps.rackspace.com%3E
Apache Pig 0.16.0版,一年來首次發(fā)布。堅定了對Tez的支持。
http://pig.apache.org/releases.html#8+June%2C+2016%3A+release+0.16.0+available
活動
中國
Spark Meetup (上海) – 周六, 6月18日