Hadoop周刊 第 167 期
啟明星辰平臺和大數據整體組編譯
2016年4月25日
歡迎來到Hadoop周刊周一特別版。本周有大量來自Spark、Kafka、Beam、Kudu的技術新聞。如果你正在尋找一些更前沿的技術,Apache Metron(孵化中)發布了它們第一個版本。Metron,是一個構建在Hadoop上正在不斷發展的通用安全系統。
技術新聞
本文介紹了如何在AWS上構建流式處理系統。包括了諸如Amazon Kinesis 、AWS Lambda、Kineses S3 connector之類簡單的搭配方案,也介紹了AWS實現實時分析場景這樣相對復雜點的方案。
本文介紹了怎樣使用Spark Testing Base。Spark Testing Base是一個用Scala編寫,通過Java調用的Spark測試框架。本文的樣例代碼展示了如何隔離測試邏輯重構Spark代碼,同時還通過Java處理了一些臃腫的Scala API。
http://www.jesse-anderson.com/2016/04/unit-testing-spark-with-java/
Altiscale博客概述了在Spark環境下,構建thin和uber jar包的優劣。示范了在Maven和SBT分別構建兩種包的情況。
https://www.altiscale.com/blog/spark-on-hadoop-thin-jars/
LinkedIn介紹了他們的Kafka生態系統,生態系統包含一個特殊的Kafka producer,一個為非Java客戶端提供的REST API,一個avro模式注冊表,以及Gobblin(裝載數據到Hadoop的工具)等等。
https://engineering.linkedin.com/blog/2016/04/kafka-ecosystem-at-linkedin
該Spark Streaming教程介紹了怎樣通過twitter4j API拉推文,基于標簽過濾,對推文進行情感分析。
https://www.mapr.com/blog/spark-streaming-and-twitter-sentiment-analysis
Apache Kudu(孵化中)是Apache Impala(孵化中)的絕佳伴侶,因為它能高效地解決廣泛的分析和有針對性的查詢。本文描述了兩者集成的技術細節,例如Kudu的設計如何保證高效地查詢能力,如何通過Impala和Kudu執行寫/更新/刪除操作等等。
http://blog.cloudera.com/blog/2016/04/how-to-use-impala-and-kudu-together-for-analytic-workloads/
MapR撰文介紹了使用spark-sklearn擴展一個已存在的scikit-learn模型。文章介紹了如何透過Airbnb數據集內部建模,還介紹了如何傍著spark-sklearn進行交叉驗證。
https://www.mapr.com/blog/predicting-airbnb-listing-prices-scikit-learn-and-apache-spark
AWS大數據博客寫了個如何在Amazon EMR中使用HBase和Hive的教程。本教程介紹了HBase,描述了如何在S3中恢復HBase表,示范了Hive和HBase如何集成等等。
本文描述了為學生在大數據課程上提供實戰經驗的挑戰。作者經歷若干次的迭代和選擇似乎有了一個好方案— Altiscale的Hadoop-as-a-Service。
https://www.altiscale.com/blog/hadoop-as-a-service-in-the-classroom/
Cloudera博客的一篇客做文章,作者比較了Parquet和Avro在跨兩個數據集的不同處理方式(一個數據集窄(3列)、一個數據集寬(103列))。在用Spark和Spark SQL測試查詢/操作后,作者發現Parquet和Avro在查詢序列化數據方面有時表現很類似,盡管在大多數情況下查詢Parquet數據的時候更快點(序列化數據更小)。
http://blog.cloudera.com/blog/2016/04/benchmarking-apache-parquet-the-allstate-experience/
本文介紹了如何在CDH這樣的分布式環境中使用SparkR,盡管SparkR官方還沒有支持這種方式。借助YARN在worker本地安裝R語言包,job稍加改造就能執行了。
http://www.nodalpoint.com/sparkr-in-cloudera-hadoop/
很多開源框架都能執行MapReduce以及借助更高級的編程模型完成類似的工作。縱觀過去,它們依賴獨立運行的框架(例如MapReduce, Storm),但是最近的某些變化使得這一切充滿了變數。Apache Beam(孵化中)更進一步地跨越了批處理、流式處理兩種執行模式,內置更加復雜的計算模型。
http://www.datanami.com/2016/04/22/apache-beam-emerges-ambitious-goal-unify-big-data-development/
Apache博客發布了HBase在HDD、SSD以及RAMDISK上的寫入性能測試比對的7篇系列文章。通過這一分析,作者發現并提議在HBase和HDFS上實現一些未覆蓋的功能。
https://blogs.apache.org/hbase/entry/hdfs_hsm_and_hbase_part
其他新聞
Tom White,“Hadoop權威指南”的作者撰文介紹他是如何步入Apache Hadoop殿堂的。他的早期貢獻是繞著Hadoop與Amazon Web Services集成展開,而今AWS已成為Hadoop項目成功的重要部分。
http://vision.cloudera.com/how-i-got-into-hadoop/
Fluo,為Apache Accumulo準備的分布式處理引擎,向Apache孵化器提交了孵化申請。
https://wiki.apache.org/incubator/FluoProposal
Apache Phoenix宣布將在HBaseCon后舉行會議,Apache Phoenix是一個SQL-on-HBase系統。該會議只有半天,主題是介紹Phoenix內部情況和用例。
http://hortonworks.com/blog/announcing-first-annual-phoenixcon-apache-phoenix-user-conference/
產品發布
Apache Metron,構建于Hadoop上的安全框架,發布了0.1版。Hortonworks支撐其作為技術預覽版,并撰寫本文介紹了如何上手,如何貢獻,如何使用Metron UI等等。
http://hortonworks.com/blog/apache-metron-tech-preview-1-come-get/
http://hortonworks.com/blog/apache-metron-use-case-finding-needle-haystack/
Apache NiFi本周發布了0.6.1版。這是修復了10多個bug后的修復版。
Apache Flink本周發布了1.0.2版。本次發布包括了bug修復,RocksDB環境下的性能提升以及一些文檔方面的進步。
http://flink.apache.org/news/2016/04/22/release-1.0.2.html
Amazon發布了新版Amazon EMR,開始支持HBase 1.2。
https://aws.amazon.com/blogs/aws/amazon-emr-update-apache-hbase-1-2-is-now-available/
活動
中國
無