你懂的视频在线免费,亚洲欧美偷拍三级,视频一区二区中文字幕

Hadoop周刊第 166 期

2016年4月17日

啟明星辰——平臺和大數(shù)據(jù)整體組編譯

Hortonworks在本周Hadoop歐洲峰會上有若干爆料，貫穿了本期整個內(nèi)容。伴隨著驕人的新特性，Apache Storm發(fā)布了1.0.0版。在技術新聞方面，有不少基于Kafka構(gòu)建大規(guī)模服務和分布式系統(tǒng)測試的文章。如果你錯過了Hadoop峰會，那么不用擔心，演講視頻已經(jīng)放到了網(wǎng)上。

技術新聞

Smyte撰文介紹了他們基于事件數(shù)據(jù)流實時檢測垃圾郵件和詐騙信息的基礎設施。最初的事件處理系統(tǒng)構(gòu)建在Kafka、Redis、Secor以及S3上，為了滿足規(guī)模不斷擴張和廉價的要求，他們把系統(tǒng)遷移到基于磁盤的方案上，使用Redis協(xié)議與RocksDB交互，使用Kafka進行復制。

https://medium.com/the-smyte-blog/counting-with-domain-specific-databases-73c660472da

本文把rsyslog、Kafka、AWS 與ELK棧（ElasticSearch、Logstash、Kibana）結(jié)合，處理諸如反壓、規(guī)模以及維護方面的問題。本文覆蓋了rsyslog集成Kafka以及schema方面的技巧，也介紹了如何運行Kafka、Zookeeper以及AWS中大規(guī)模自動分組。

https://www.bashton.com/blog/2016/elk-on-ark/

Hortonworks撰文介紹了Apache Atlas以及Apache Range將要引入的數(shù)據(jù)管理特性。這些特性是：分類訪問控制、數(shù)據(jù)有效期策略、位置特性策略、禁止數(shù)據(jù)集組合、跨組件家族（例如從Kafka到Storm再到Hive的數(shù)據(jù)跟蹤）。

http://hortonworks.com/blog/the-next-generation-of-hadoop-based-security-data-governance/

Apache HAWQ （孵化中）是一個基于Greenplum在HDFS上提供數(shù)據(jù)查詢的SQL引擎。本文討論了其典型設計以及新版本的諸多改進。包括它與Spark和MapReduce的區(qū)別，還有些Hadoop挑戰(zhàn)經(jīng)典MPP設計的內(nèi)容，以及HAWQ的新設計怎樣結(jié)合MPP和批處理技術進而使其兩者兼顧。

https://blog.pivotal.io/big-data-pivotal/products/apache-hawq-next-step-in-massively-parallel-processing

Cloudera博客撰文介紹了對Hadoop分布式系統(tǒng)進行故障注入、組網(wǎng)的測試工具AgenTEST。它能注入網(wǎng)絡故障（例如丟包），資源滿載（例如CPU、IO、磁盤空間）等等。當測試網(wǎng)絡分區(qū)時，可以評估環(huán)形組網(wǎng)、橋接組網(wǎng)等等。

http://blog.cloudera.com/blog/2016/04/quality-assurance-at-cloudera-fault-injection-and-elastic-partitioning/

Hortonworks博客展望了將包含新版本Spark和Zeppelin的HDP 2.4.2。Spark2.0預覽版和Zeppelin新特性都將包含在內(nèi)。

http://hortonworks.com/blog/apache-spark-apache-zeppelin-whats-coming-in-hdp-2-4-2/

Cask撰文介紹了在Hbase region compaction這樣罕見事件發(fā)生的前后，他們是怎樣通過長時間測試以評估分布式系統(tǒng)正確性的。

http://blog.cask.co/2016/04/long-running-tests-in-cdap/

本文介紹了如何結(jié)合SparkR與亞馬遜EMR進行地理空間分析的。通過SparkR的Hive集成組件，可以立刻基于S3上的數(shù)據(jù)映射Hive外部表。從這開始，數(shù)據(jù)就能直接加載到內(nèi)存中使用R語言分析，很容易實現(xiàn)高質(zhì)量的數(shù)據(jù)可視化。

http://blogs.aws.amazon.com/bigdata/post/Tx1MECZ47VAV84F/Exploring-Geospatial-Intelligence-using-SparkR-on-Amazon-EMR

MapR編寫了使用Pig和Hive分析職業(yè)棒球大聯(lián)盟球隊水平的教程。Pig用于數(shù)據(jù)初加工，Hive提供基于SQL的數(shù)據(jù)查詢環(huán)境。借助Hive ODBC驅(qū)動和Hive服務器，使得微軟Excel也能用于獲取和分析數(shù)據(jù)。

https://www.mapr.com/blog/using-hive-and-pig-baseball-statistics

SignalFX通過27節(jié)點的Kafka集群每天處理700多億條消息。只有基于他們積累的大規(guī)模Kafka使用經(jīng)驗才能有如此高的量，因此他們共享了不少調(diào)試Kafka的技巧，定位告警（例如日志刷新延遲增加），以及Kafka橫向擴展。

http://www.confluent.io/blog/how-we-monitor-and-run-kafka-at-scale-signalfx

dataArtisan's博客為了度量Flink在數(shù)據(jù)流效率、低延遲、正確性上的能力，專門寫了這篇文章。為了證明效率，在高吞吐量的環(huán)境下運行了最新的Yahoo!流式基準測試程序。在正確性方面，文章突出了Flink事件判別和處理事件（星球大戰(zhàn)電影年表做類比）方面的優(yōu)勢。最后，文章描述了Flink未來版本基于內(nèi)存的查詢?nèi)蝿铡?/span>

http://data-artisans.com/counting-in-streams-a-hierarchy-of-needs/

本教程介紹了怎樣把TCP Socket中的文本數(shù)據(jù)流轉(zhuǎn)換為Spark流式數(shù)據(jù)源。

https://medium.com/@anicolaspp/spark-custom-streaming-sources-e7d52da72e80

本文介紹了在構(gòu)建Hadoop的時候怎樣防止AWS證書意外提交到補丁或git資源庫。除Hadoop本身外，本文還建議使用“git-secrets”工具防止意外提交訪問/安全密鑰。如果你用的是Hadoop S3，還推薦了新補丁供評估。

http://steveloughran.blogspot.co.uk/2016/04/testing-against-s3-and-object-stores.html

Big Data & Brews采訪了MapR的Ted Dunning和Jacques Nadeau。Apache Arrow也在本次采訪范圍內(nèi)。

https://www.youtube.com/watch?v=l3mDDKjDjMk

https://www.youtube.com/watch?v=Xo9CO0a0VJI

其他新聞

DataEngConf最近在舊金山召開。本文總結(jié)了Uber、Stripe、Microsoft、Instacart、Jawbone的發(fā)言內(nèi)容。也介紹了會議主題“數(shù)據(jù)科學在現(xiàn)實世界中是一個產(chǎn)品和工程學科”。

https://medium.com/@eugmandel/software-engineering-invades-data-science-notes-from-dataengconf-4a3c066b081f#.g2h0duo44

Hortonworks在上周都柏林舉行的Hadoop歐洲峰會上大放異彩。ZDNet報導了這些亮點，其中包括與Pivotal（已轉(zhuǎn)售給HDP）的擴展合作，與Syncosrt的轉(zhuǎn)售協(xié)議，以及Atlas、Ranger、Zeppelin、Metron的技術預覽。報導還介紹了Hortonworks、Cloudera、MapR產(chǎn)品的不同之處。

http://www.zdnet.com/article/hortonworks-announces-new-alliances-and-releases-hadoop-comes-to-fork-in-road/

Flink 2016峰會將在九月于德國柏林舉行。討論議題征集將于六月末結(jié)束。

http://flink.apache.org/news/2016/04/14/flink-forward-announce.html

YouTube上發(fā)布了Hadoop都柏林峰會演講視頻。正如預期的那樣，這些演講內(nèi)容涵蓋Hadoop生態(tài)系統(tǒng)的各個部分。

https://www.youtube.com/channel/UCAPa-K_rhylDZAUHVxqqsRA/videos?flow=list&live_view=500&view=0&sort=dd

產(chǎn)品發(fā)布

Metascope是一個配合Schedoscope在Hadoop集群中進行元數(shù)據(jù)管理的新工具。通過web界面，利用數(shù)據(jù)沿襲它能洞察大量的數(shù)據(jù)。也提供檢索、內(nèi)嵌文檔、REST API等等功能。

https://github.com/ottogroup/metascope

Apache HBase 1.2.1于本周發(fā)布，在1.2.0的基礎上解決了27個問題。發(fā)布聲明中重點介紹了四個高優(yōu)先級的問題。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAN5cbe7-T5uAYvGRbxw2dfvdbwe5s0nx3vKU8Nt2fzXbKPoQTg@mail.gmail.com%3E

Apache Mahout機器學習庫發(fā)布了0.12.0版。該版本的“Samsara”數(shù)學環(huán)境開始支持Apache Flink了，并且是平臺無關的。發(fā)布聲明中分享了與Flink集成、已知問題、項目演進計劃相關的內(nèi)容。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAOtpBjj5An876PStdn5kMeaF+up-B72WTmCk9j21EXdP=JOCUA@mail.gmail.com%3E

Apache Storm 1.0.0本周發(fā)布了。亮點包括性能提升（普遍提升3倍以上）、新的分布式緩存API、nimbus的高可用性、自動反壓、動態(tài)worker性能分析等等。

http://storm.apache.org/2016/04/12/storm100-released.html

Apache Kudu（孵化中）本周發(fā)布了0.8.0版。本次發(fā)布添加了Apache Flume sink、部分功能提升、修復了一批bug。

http://getkudu.io/releases/0.8.0/docs/release_notes.html

Cloudbreak本周發(fā)布了1.2版，它為云環(huán)境提供Hadoop集群Docker。新特性包括支持OpenStack以及為自定義服務器提供配置腳本。

http://hortonworks.com/blog/announcing-cloudbreak-1-2/

Cloudera發(fā)布了Cloudera Enterprise 5.4.10，內(nèi)置了Flume、Hadoop、HBase、Hive、Impala等組件。

http://community.cloudera.com/t5/Community-News-Release/ANNOUNCE-Cloudera-Enterprise-5-4-10-Released/m-p/39790#U39790

Presto Accumulo是個新項目，為Accumulo讀寫數(shù)據(jù)提供了Presto連接器。

https://github.com/bloomberg/presto-accumulo

活動

中國

無

posted on 2016-04-21 15:07 Rosen 閱讀(723) 評論(0) 編輯收藏所屬分類: 大數(shù)據(jù)

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Hadoop周刊—第 167 期 Hadoop周刊—第 166 期 Hadoop周刊—第 165 期

成都心情

公告

隨筆分類(91)

隨筆檔案(99)

文章分類(2)

友情鏈接

積分與排名

最新評論

閱讀排行榜

評論排行榜