成都心情

            BlogJava :: 首頁(yè) ::  :: 聯(lián)系 :: 聚合  :: 管理 ::
            98 隨筆 :: 2 文章 :: 501 評(píng)論 :: 1 Trackbacks

          公告

          Creative Commons License
          本作品采用知識(shí)共享署名-相同方式共享 2.5 中國(guó)大陸許可協(xié)議進(jìn)行許可。 Locations of visitors to this page(15)

          隨筆分類(91)

          隨筆檔案(99)

          文章分類(2)

          友情鏈接

          積分與排名

          • 積分 - 635653
          • 排名 - 74

          最新評(píng)論

          閱讀排行榜

          評(píng)論排行榜

          Hadoop周刊

           

          第 165 期 2016年4月10日

          啟明星辰——平臺(tái)和大數(shù)據(jù)整體組編譯

           

          本周,包括LinkedIn Airbnb新開(kāi)源項(xiàng)目在內(nèi)的數(shù)個(gè)產(chǎn)品進(jìn)行了重大版本發(fā)布。本期技術(shù)部分與流式處理有關(guān)——SparkFlinkKafka等等;新聞部分是關(guān)于Spark Summit HbaseCon的會(huì)議議程。

          技術(shù)

          Zalando發(fā)表了他們是如何選擇Apache Flink作為流式處理框架的文章。該文章闡述了對(duì)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行驗(yàn)證后得出的結(jié)論,闡明了選擇Apache Flink的主因在高吞吐量的情況下依然能保持低延遲,真正的流式處理,開(kāi)發(fā)人員支持。

          https://tech.zalando.com/blog/apache-showdown-flink-vs.-spark/

           

          Cloudera博客刊登了來(lái)自Wargaming.net的文章,通過(guò)本文可了解到他們?nèi)绾瓮ㄟ^(guò)KafkaHBaseDroolsSpark構(gòu)建實(shí)時(shí)處理基礎(chǔ)設(shè)施的。另外,在數(shù)據(jù)流程方面,他們介紹了如何對(duì)HBase的檢索和序列化、HBaseSpark之間的數(shù)據(jù)本地化以及Spark計(jì)算方面的優(yōu)化措施。

          http://blog.cloudera.com/blog/2016/04/inside-wargamings-data-driven-real-time-rules-engine/

           

          InfoQ發(fā)布了大規(guī)模流式處理—SMACKSparkMesosAkkaCassandra以及 Kafka)棧的介紹視頻。討論了為什么SMACK棧在處理同樣問(wèn)題的時(shí)候比Lambda架構(gòu)更簡(jiǎn)單。

          http://www.infoq.com/presentations/stream-analytics-scalability

           

          Confluent“日志壓縮系列博文又有更新,介紹了Kafka項(xiàng)目三月份發(fā)生的事情。有不少令人關(guān)注的開(kāi)發(fā)內(nèi)容,包括機(jī)架感知、Kerberos支持、基于時(shí)間索引方面的進(jìn)展。以及不少你(我也是)沒(méi)有時(shí)間持續(xù)關(guān)注的最新研發(fā)成果。

          http://www.confluent.io/blog/log-compaction-highlights-in-the-kafka-and-stream-processing-community-april-2016

           

          Apache Flink 1.0引入了新的復(fù)雜事件處理(CEP)庫(kù)。啰嗦幾句,CEP提供了一種檢測(cè)事件模式的方法。本文借助傳感器從數(shù)據(jù)中心服務(wù)器上收集數(shù)據(jù),運(yùn)用一種可能的異常檢測(cè)用例,詮釋了FlinkCEP模式API

          http://flink.apache.org/news/2016/04/06/cep-monitoring.html

           

          Genome Analysis Toolkit GATK)最近宣布,下一個(gè)版本(當(dāng)前是alpha)將支持Apache Spark。本文簡(jiǎn)要介紹了工具箱并展示了怎樣通過(guò)Spark來(lái)檢測(cè)重復(fù)DNA片段的。

          http://blog.cloudera.com/blog/2016/04/genome-analysis-toolkit-now-using-apache-spark-for-data-processing/

           

          InfoWorld綜述了Spark2.0關(guān)于結(jié)構(gòu)化流式處理方面的計(jì)劃。微批處理將依然延續(xù),還有些新特性,例如無(wú)限數(shù)據(jù)幀(Infinite DataFrames)、一流的重復(fù)查詢支持。

          http://www.infoworld.com/article/3052924/analytics/what-sparks-structured-streaming-really-means.html

           

          AWS大數(shù)據(jù)博客發(fā)布了一篇通過(guò)存儲(chǔ)在AWS Key Management Service KMS)中的加密密鑰加載數(shù)據(jù)到S3Redshift的文章。除了描述所需步驟,本文還介紹了如何在AWS S3中通過(guò)KMS密鑰加密數(shù)據(jù)。

          http://blogs.aws.amazon.com/bigdata/post/Tx2Q3ZBOZO9DHVQ/Encrypt-Your-Amazon-Redshift-Loads-with-Amazon-S3-and-AWS-KMS

           

          Confluent博客介紹了如何使用Kafka Connect Kafka Streams 編寫(xiě)非凡的“hello world”程序。更確切地說(shuō),范例程序從IRC拉維基百科數(shù)據(jù),并解析消息、進(jìn)行多方面的統(tǒng)計(jì)計(jì)算。本文還用了若干程序展示了整個(gè)實(shí)現(xiàn)過(guò)程。

          http://www.confluent.io/blog/hello-world-kafka-connect-kafka-streams

           

          本文從Postgres Cassandra轉(zhuǎn)換簡(jiǎn)單的模式(schemas),并描述了主要的差異復(fù)制、數(shù)據(jù)類型(Cassandra不支持JSON)、主鍵、最終以一致性。

          http://neovintage.org/2016/04/07/data-modeling-in-cassandra-from-a-postgres-perspective/

           

          新聞

          ESG博客報(bào)導(dǎo)了最近Strata+Hadoop World大會(huì)的情況。并有些重點(diǎn)關(guān)注,例如Spark的良好勢(shì)頭、機(jī)器學(xué)習(xí)、云服務(wù)。

          http://blog.esg-global.com/riding-high-at-stratahadoop-world

           

          InformationWeek也報(bào)導(dǎo)了Strata大會(huì),關(guān)注了MapRPivotal的關(guān)燈片、人工智能等。

          http://www.informationweek.com/big-data/ai-public-data-sets-real-time-strata-+-hadoop-keynote-sampling/d/d-id/1324943?

           

          Spark Summit 2016議程敲定,將于66-8日在舊金山舉行。會(huì)議將有兩天展開(kāi)五個(gè)方向的討論。

          https://databricks.com/blog/2016/04/04/agenda-announced-for-sparksummit-2016-in-san-francisco.html

           

          福布斯采訪了Cloudera CEO Tom Reilly,他討論了公司的機(jī)遇、競(jìng)爭(zhēng)性市場(chǎng)、上市計(jì)劃等。

          http://www.forbes.com/sites/roberthof/2016/04/06/ceo-tom-reilly-makes-the-case-for-cloudera-and-its-ipo/

           

          Datanami撰文將正在崛起的Apache Kafka作為流式處理的支柱。文章還采訪了Confluent聯(lián)合創(chuàng)始人兼CTO Neha Narkhede,坊間她表示最近將推出Kafka Connect Kafka Streams

          http://www.datanami.com/2016/04/06/real-time-rise-apache-kafka/

           

          HBaseCon將于524日在舊金山召開(kāi),最近議程才正式宣布。在三個(gè)方向上,將有20個(gè)以上的議題要討論。

          http://blog.cloudera.com/blog/2016/04/hbasecon-2016-speaker-lineup-announced/

           

          發(fā)布

           Apache HBase 0.98.18 1.1.4最近都發(fā)布了。1.1.4上有包括九個(gè)或正確性在內(nèi)的若干修復(fù)。HBase 0.98.18羞答答的僅解決了50個(gè)問(wèn)題(bug、改善兩個(gè)新特性)。

          http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCANZa%3DGu-mAxKEtfoRjctHcE0KD7z52oE010Fgsf6AMmW2tDZLA%40mail.gmail.com%3E 
          http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCA%2BRK%3D_CtZ1L07nS6Og2ekfVwet0qTE7jw-bmyD2pp5UPweUehQ%40mail.gmail.com%3E

           

          Apache Lens發(fā)布了2.5.0-beta,作為統(tǒng)一分析接口,它已經(jīng)支持Hadoop生態(tài)系統(tǒng)的執(zhí)行引擎數(shù)據(jù)存儲(chǔ)了。本次發(fā)布解決了87票,主要是bug修復(fù)和實(shí)現(xiàn)新功能。

          http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAL3kmZj60kpopRPpOVEs9o7oTg7YuaC_=c8zncBeMyUESrZsmQ@mail.gmail.com%3E

           

          Airbnb 開(kāi)源了 Caravel,數(shù)據(jù)探索系統(tǒng)(數(shù)據(jù)可視化平臺(tái))。Caravel支持多種在商業(yè)產(chǎn)品上才能看到的特性,能夠連接到任意只要支持SQL方言的系統(tǒng)。尤其它支持面向Druid的實(shí)時(shí)分析。

          https://medium.com/airbnb-engineering/caravel-airbnb-s-data-exploration-platform-15a72aa610e5

           

          MapR 宣布支持Apache Drill 1.6作為他們的分布式系統(tǒng)。比較有亮點(diǎn)的發(fā)布有MapR-DB新存儲(chǔ)插件、新SQL窗口函數(shù)支持以及端對(duì)端安全。在網(wǎng)頁(yè)介紹部分,有些使用MapR-DB API數(shù)據(jù)并通過(guò)Drill查詢的例子。

          https://www.mapr.com/blog/apache-drill-16-mapr-converged-platform-gearing-new-generation-stack-json-enabled-big-data

           

          Apache Flink發(fā)布了修復(fù)bug后的1.0.x。這次發(fā)布解決了23個(gè)問(wèn)題,推薦所有1.0.0的用戶升級(jí)。

          http://flink.apache.org/news/2016/04/06/release-1.0.1.html

           

          Cloudera Enterprise 5.7發(fā)布附帶了SparkHBaseImpalaKafka等組件版本的升級(jí)。本次發(fā)布的亮點(diǎn)包括從Cloudera Labs 新鮮推薦的Hive-on-SparkHBase-SparkImpala性能重要提升,支持SSD HBase WAL

          http://blog.cloudera.com/blog/2016/04/cloudera-enterprise-5-7-is-released/

           

          Apache Tajo,構(gòu)建在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),發(fā)布了0.11.2版。新版本支持了Kerberos,修復(fù)了ORC表對(duì)Hive的支持等。

          http://tajo.apache.org/releases/0.11.2/announcement.html

           

          LinkedIn 開(kāi)源了 Dr. Elephant,里面的工具能診斷HadoopSpark任務(wù)的性能問(wèn)題。基于metricsYARN資源管理器收集已完成任務(wù)數(shù)據(jù),Dr. Elephant評(píng)估后生成診斷報(bào)表,內(nèi)容包括數(shù)據(jù)錯(cuò)位、GC開(kāi)銷等。LinkedIn宣稱借助它能解決80%的問(wèn)題。

          https://engineering.linkedin.com/blog/2016/04/dr-elephant-open-source-self-serve-performance-tuning-hadoop-spark

           

          活動(dòng)

          中國(guó)

          無(wú)

          posted on 2016-04-14 18:02 Rosen 閱讀(730) 評(píng)論(0)  編輯  收藏 所屬分類: 大數(shù)據(jù)

          只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 涞源县| 南康市| 元朗区| 紫金县| 丰城市| 新闻| 兴山县| 潞城市| 焦作市| 铜川市| 宁晋县| 南澳县| 汉中市| 油尖旺区| 孝义市| 博湖县| 红桥区| 杂多县| 吐鲁番市| 屯昌县| 宜阳县| 涟水县| 静安区| 保德县| 攀枝花市| 沙坪坝区| 来凤县| 融水| 南雄市| 清河县| 绍兴市| 米泉市| 龙南县| 临武县| 仙游县| 荔浦县| 普安县| 迁安市| 左权县| 镶黄旗| 宜都市|