Hadoop周刊 第 166 期
2016年4月17日
啟明星辰——平臺和大數(shù)據(jù)整體組編譯
Hortonworks在本周Hadoop歐洲峰會上有若干爆料,貫穿了本期整個內(nèi)容。伴隨著驕人的新特性,Apache Storm發(fā)布了1.0.0版。在技術新聞方面,有不少基于Kafka構(gòu)建大規(guī)模服務和分布式系統(tǒng)測試的文章。如果你錯過了Hadoop峰會,那么不用擔心,演講視頻已經(jīng)放到了網(wǎng)上。
技術新聞
Smyte撰文介紹了他們基于事件數(shù)據(jù)流實時檢測垃圾郵件和詐騙信息的基礎設施。最初的事件處理系統(tǒng)構(gòu)建在Kafka、Redis、Secor以及S3上,為了滿足規(guī)模不斷擴張和廉價的要求,他們把系統(tǒng)遷移到基于磁盤的方案上,使用Redis協(xié)議與RocksDB交互,使用Kafka進行復制。
https://medium.com/the-smyte-blog/counting-with-domain-specific-databases-73c660472da
本文把rsyslog、Kafka、AWS 與ELK棧(ElasticSearch、Logstash、Kibana)結(jié)合,處理諸如反壓、規(guī)模以及維護方面的問題。本文覆蓋了rsyslog集成Kafka以及schema方面的技巧,也介紹了如何運行Kafka、Zookeeper以及AWS中大規(guī)模自動分組。
https://www.bashton.com/blog/2016/elk-on-ark/
Hortonworks撰文介紹了Apache Atlas以及Apache Range將要引入的數(shù)據(jù)管理特性。這些特性是:分類訪問控制、數(shù)據(jù)有效期策略、位置特性策略、禁止數(shù)據(jù)集組合、跨組件家族(例如從Kafka到Storm再到Hive的數(shù)據(jù)跟蹤)。
http://hortonworks.com/blog/the-next-generation-of-hadoop-based-security-data-governance/
Apache HAWQ (孵化中)是一個基于Greenplum在HDFS上提供數(shù)據(jù)查詢的SQL引擎。本文討論了其典型設計以及新版本的諸多改進。包括它與Spark和MapReduce的區(qū)別,還有些Hadoop挑戰(zhàn)經(jīng)典MPP設計的內(nèi)容,以及HAWQ的新設計怎樣結(jié)合MPP和批處理技術進而使其兩者兼顧。
Cloudera博客撰文介紹了對Hadoop分布式系統(tǒng)進行故障注入、組網(wǎng)的測試工具AgenTEST。它能注入網(wǎng)絡故障(例如丟包),資源滿載(例如CPU、IO、磁盤空間)等等。當測試網(wǎng)絡分區(qū)時,可以評估環(huán)形組網(wǎng)、橋接組網(wǎng)等等。
Hortonworks博客展望了將包含新版本Spark和Zeppelin的HDP 2.4.2。Spark2.0預覽版和Zeppelin新特性都將包含在內(nèi)。
http://hortonworks.com/blog/apache-spark-apache-zeppelin-whats-coming-in-hdp-2-4-2/
Cask撰文介紹了在Hbase region compaction這樣罕見事件發(fā)生的前后,他們是怎樣通過長時間測試以評估分布式系統(tǒng)正確性的。
http://blog.cask.co/2016/04/long-running-tests-in-cdap/
本文介紹了如何結(jié)合SparkR與亞馬遜EMR進行地理空間分析的。通過SparkR的Hive集成組件,可以立刻基于S3上的數(shù)據(jù)映射Hive外部表。從這開始,數(shù)據(jù)就能直接加載到內(nèi)存中使用R語言分析,很容易實現(xiàn)高質(zhì)量的數(shù)據(jù)可視化。
MapR編寫了使用Pig和Hive分析職業(yè)棒球大聯(lián)盟球隊水平的教程。Pig用于數(shù)據(jù)初加工,Hive提供基于SQL的數(shù)據(jù)查詢環(huán)境。借助Hive ODBC驅(qū)動和Hive服務器,使得微軟Excel也能用于獲取和分析數(shù)據(jù)。
https://www.mapr.com/blog/using-hive-and-pig-baseball-statistics
SignalFX通過27節(jié)點的Kafka集群每天處理700多億條消息。只有基于他們積累的大規(guī)模Kafka使用經(jīng)驗才能有如此高的量,因此他們共享了不少調(diào)試Kafka的技巧,定位告警(例如日志刷新延遲增加),以及Kafka橫向擴展。
http://www.confluent.io/blog/how-we-monitor-and-run-kafka-at-scale-signalfx
dataArtisan's博客為了度量Flink在數(shù)據(jù)流效率、低延遲、正確性上的能力,專門寫了這篇文章。為了證明效率,在高吞吐量的環(huán)境下運行了最新的Yahoo!流式基準測試程序。在正確性方面,文章突出了Flink事件判別和處理事件(星球大戰(zhàn)電影年表做類比)方面的優(yōu)勢。最后,文章描述了Flink未來版本基于內(nèi)存的查詢?nèi)蝿铡?/span>
http://data-artisans.com/counting-in-streams-a-hierarchy-of-needs/
本教程介紹了怎樣把TCP Socket中的文本數(shù)據(jù)流轉(zhuǎn)換為Spark流式數(shù)據(jù)源。
https://medium.com/@anicolaspp/spark-custom-streaming-sources-e7d52da72e80
本文介紹了在構(gòu)建Hadoop的時候怎樣防止AWS證書意外提交到補丁或git資源庫。除Hadoop本身外,本文還建議使用“git-secrets”工具防止意外提交訪問/安全密鑰。如果你用的是Hadoop S3,還推薦了新補丁供評估。
http://steveloughran.blogspot.co.uk/2016/04/testing-against-s3-and-object-stores.html
Big Data & Brews采訪了MapR的Ted Dunning和Jacques Nadeau。Apache Arrow也在本次采訪范圍內(nèi)。
https://www.youtube.com/watch?v=l3mDDKjDjMk
https://www.youtube.com/watch?v=Xo9CO0a0VJI
其他新聞
DataEngConf最近在舊金山召開。本文總結(jié)了Uber、Stripe、Microsoft、Instacart、Jawbone的發(fā)言內(nèi)容。也介紹了會議主題“數(shù)據(jù)科學在現(xiàn)實世界中是一個產(chǎn)品和工程學科”。
Hortonworks在上周都柏林舉行的Hadoop歐洲峰會上大放異彩。ZDNet報導了這些亮點,其中包括與Pivotal(已轉(zhuǎn)售給HDP)的擴展合作,與Syncosrt的轉(zhuǎn)售協(xié)議,以及Atlas、Ranger、Zeppelin、Metron的技術預覽。報導還介紹了Hortonworks、Cloudera、MapR產(chǎn)品的不同之處。
Flink 2016峰會將在九月于德國柏林舉行。討論議題征集將于六月末結(jié)束。
http://flink.apache.org/news/2016/04/14/flink-forward-announce.html
YouTube上發(fā)布了Hadoop都柏林峰會演講視頻。正如預期的那樣,這些演講內(nèi)容涵蓋Hadoop生態(tài)系統(tǒng)的各個部分。
產(chǎn)品發(fā)布
Metascope是一個配合Schedoscope在Hadoop集群中進行元數(shù)據(jù)管理的新工具。通過web界面,利用數(shù)據(jù)沿襲它能洞察大量的數(shù)據(jù)。也提供檢索、內(nèi)嵌文檔、REST API等等功能。
https://github.com/ottogroup/metascope
Apache HBase 1.2.1于本周發(fā)布,在1.2.0的基礎上解決了27個問題。發(fā)布聲明中重點介紹了四個高優(yōu)先級的問題。
Apache Mahout機器學習庫發(fā)布了0.12.0版。該版本的“Samsara”數(shù)學環(huán)境開始支持Apache Flink了,并且是平臺無關的。發(fā)布聲明中分享了與Flink集成、已知問題、項目演進計劃相關的內(nèi)容。
Apache Storm 1.0.0本周發(fā)布了。亮點包括性能提升(普遍提升3倍以上)、新的分布式緩存API、nimbus的高可用性、自動反壓、動態(tài)worker性能分析等等。
http://storm.apache.org/2016/04/12/storm100-released.html
Apache Kudu(孵化中)本周發(fā)布了0.8.0版。本次發(fā)布添加了Apache Flume sink、部分功能提升、修復了一批bug。
http://getkudu.io/releases/0.8.0/docs/release_notes.html
Cloudbreak本周發(fā)布了1.2版,它為云環(huán)境提供Hadoop集群Docker。新特性包括支持OpenStack以及為自定義服務器提供配置腳本。
http://hortonworks.com/blog/announcing-cloudbreak-1-2/
Cloudera發(fā)布了Cloudera Enterprise 5.4.10,內(nèi)置了Flume、Hadoop、HBase、Hive、Impala等組件。
Presto Accumulo是個新項目,為Accumulo讀寫數(shù)據(jù)提供了Presto連接器。
https://github.com/bloomberg/presto-accumulo
活動
中國
無