亚洲国产综合在线,欧美日韩二区三区,一区二区三区三区在线

Hadoop周刊第 169 期

啟明星辰平臺和大數據整體組編譯

2016年5月8日

本周內容短小精練。主題覆蓋Apache Beam、MapR季度業績、最近的Kafka峰會，以及來自Cloudera新開源的分布式單元測試框架。

技術新聞

Elastic分析了宕機事件的根源。錯誤配置ZooKeeper內存設置會引起過度的GC，這將從根本上導致ZooKeeper集群丟失。文章介紹了一些緩解策略，用來防止未來類似問題的發生。

https://www.elastic.co/blog/elastic-cloud-outage-april-2016

Cask博客簡明扼要的歸納了最近Big Data Applications Meetup的花絮。首先出場的是Pachyderm，它基于Docker容器提供“數據Git”語義。第二個出場的是TubeMogul大數據平臺，TubeMogul構建于Hadoop、Hive、Spark、Presto之上。

http://blog.cask.co/2016/05/pachyderm-and-tubemogul-share-their-big-data-application-platforms-and-experience/

Google、dataArtisans同時撰文介紹了Apache Beam（前生是Google Dataflow SDK）。Google的文章解釋了為何開源和開發Beam的動機，dataArtisans的文章介紹他們對Beam模型的支持以及怎樣考慮Flink和Beam API之間的關系。

https://cloud.google.com/blog/big-data/2016/05/why-apache-beam-a-google-perspective

http://data-artisans.com/why-apache-beam/

IBM Hadoop dev博客有個關于安裝Python、Scala和為Jupyter notebook嵌入R內核的操作說明。同時，也說明了怎樣連接Spark和通過SSL暴露notebook。

https://developer.ibm.com/hadoop/blog/2016/05/04/install-jupyter-notebook-spark/

本文介紹了Mongo Hadoop的連接函數是如何竄起Spark和MongoDB的。

https://x.ai/using-the-mongo-hadoop-connector-as-a-translation-layer-to-spark/

Qubole博客撰文比較了用于大數據分析的流行編程語言—Python、R和Scala。

http://www.qubole.com/blog/big-data/programming-language/

其他新聞

MapR宣布本季度他們授權下單創紀錄的增長了99%，以及146%的美元凈增長率。

https://www.mapr.com/company/press-releases/mapr-achieves-another-record-quarter-99-software-subscription-license-growth

本文描述了最近Google Cloud Dataflow和Apache Spark在Google Compute Engine上的基準測試表現。Dataflow勝過Spark2－5.7倍（一直以來，最好是在自己的環境下評估工作負載，而不是一味的信任基準測試）。本文還解釋了一種“冷戰”，通過它使每個使用大數據工具的人獲益。

http://www.datanami.com/2016/05/02/dataflow-tops-spark-benchmark-test/

Confluent博客回顧了最近召開的Kafka峰會，包括編程挑戰預選賽，主題演講，分組會議等等。

http://www.confluent.io/blog/log-compaction-kafka-summit-edition-may-2016

福布斯介紹了美國運通在過去5年間采用大數據技術的歷程。本文中，美國運通分享了一些技巧和學到的經驗教訓，例如采用新技術的困難（得到組織高層的認同是多么的重要），以及雇傭和留住工程師的挑戰等等。

http://www.forbes.com/sites/ciocentral/2016/04/27/inside-american-express-big-data-journey/

產品發布

Cask發布了Cask Data Application Platform (CDAP)3.4版本。新版本增加了Cask Tracker，新的數據集成/審計/搜索系統，升級了Cask Hydrator的UI，增強了對Spark的支持等等。

http://blog.cask.co/2016/05/announcing-cdap-release-3-4-introducing-tracker-next-gen-hydrator-enhanced-spark-support-and-much-more/

Cloudera開源了“dist_tes”，并行執行單元測試的新工具。通過該工具，對Hadoop和Kudu項目進行單元測試，可以在數分鐘而不是數小時內完成。該工具綁定了C++和Java，并在網站上演示了這些特性。

http://blog.cloudera.com/blog/2016/05/quality-assurance-at-cloudera-distributed-unit-testing/

Google宣布Google BigQuery和Drive可集成在一起，把輸出保存到Google sheets。

http://techcrunch.com/2016/05/06/google-connects-bigquery-to-google-drive-and-sheets/

活動

中國

無

posted on 2016-05-15 20:30 Rosen 閱讀(861) 評論(1) 編輯收藏

成都心情

公告

隨筆分類(91)

隨筆檔案(99)

文章分類(2)

友情鏈接

積分與排名

最新評論

閱讀排行榜

評論排行榜

評論


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理