成都心情

            BlogJava :: 首頁 ::  :: 聯系 :: 聚合  :: 管理 ::
            98 隨筆 :: 2 文章 :: 501 評論 :: 1 Trackbacks

          公告

          Creative Commons License
          本作品采用知識共享署名-相同方式共享 2.5 中國大陸許可協議進行許可。 Locations of visitors to this page(15)

          隨筆分類(91)

          隨筆檔案(99)

          文章分類(2)

          友情鏈接

          積分與排名

          • 積分 - 635835
          • 排名 - 74

          最新評論

          閱讀排行榜

          評論排行榜

          Hadoop周刊 167



          啟明星辰平臺和大數據整體組編譯



          2016
          425

           

          歡迎來到Hadoop周刊周一特別版。本周有大量來自SparkKafkaBeamKudu的技術新聞。如果你正在尋找一些更前沿的技術,Apache Metron(孵化中)發布了它們第一個版本。Metron,是一個構建在Hadoop上正在不斷發展的通用安全系統。

           

          技術新聞

          本文介紹了如何在AWS上構建流式處理系統。包括了諸如Amazon Kinesis AWS LambdaKineses S3 connector之類簡單的搭配方案,也介紹了AWS實現實時分析場景這樣相對復雜點的方案。

          http://cdn.oreillystatic.com/en/assets/1/event/144/Building%20a%20scalable%20architecture%20for%20processing%20streaming%20data%20on%20AWS%20Presentation.pdf

           

          本文介紹了怎樣使用Spark Testing BaseSpark Testing Base是一個用Scala編寫,通過Java調用的Spark測試框架。本文的樣例代碼展示了如何隔離測試邏輯重構Spark代碼,同時還通過Java處理了一些臃腫的Scala API

          http://www.jesse-anderson.com/2016/04/unit-testing-spark-with-java/

           

          Altiscale博客概述了在Spark環境下,構建thinuber jar包的優劣。示范了在MavenSBT分別構建兩種包的情況。

          https://www.altiscale.com/blog/spark-on-hadoop-thin-jars/

           

          LinkedIn介紹了他們的Kafka生態系統,生態系統包含一個特殊的Kafka producer,一個為非Java客戶端提供的REST API,一個avro模式注冊表,以及Gobblin(裝載數據到Hadoop的工具)等等。

          https://engineering.linkedin.com/blog/2016/04/kafka-ecosystem-at-linkedin

           

          Spark Streaming教程介紹了怎樣通過twitter4j API拉推文,基于標簽過濾,對推文進行情感分析。

          https://www.mapr.com/blog/spark-streaming-and-twitter-sentiment-analysis

           

          Apache Kudu(孵化中)是Apache Impala(孵化中)的絕佳伴侶,因為它能高效地解決廣泛的分析和有針對性的查詢。本文描述了兩者集成的技術細節,例如Kudu的設計如何保證高效地查詢能力,如何通過ImpalaKudu執行寫/更新/刪除操作等等。

          http://blog.cloudera.com/blog/2016/04/how-to-use-impala-and-kudu-together-for-analytic-workloads/

           

          MapR撰文介紹了使用spark-sklearn擴展一個已存在的scikit-learn模型。文章介紹了如何透過Airbnb數據集內部建模,還介紹了如何傍著spark-sklearn進行交叉驗證。

          https://www.mapr.com/blog/predicting-airbnb-listing-prices-scikit-learn-and-apache-spark

           

          AWS大數據博客寫了個如何在Amazon EMR中使用HBaseHive的教程。本教程介紹了HBase,描述了如何在S3中恢復HBase表,示范了HiveHBase如何集成等等。

          http://blogs.aws.amazon.com/bigdata/post/Tx3EGE8Z90LZ9WX/Combine-NoSQL-and-Massively-Parallel-Analytics-Using-Apache-HBase-and-Apache-Hiv

           

          本文描述了為學生在大數據課程上提供實戰經驗的挑戰。作者經歷若干次的迭代和選擇似乎有了一個好方案 AltiscaleHadoop-as-a-Service

          https://www.altiscale.com/blog/hadoop-as-a-service-in-the-classroom/

           

          Cloudera博客的一篇客做文章,作者比較了ParquetAvro在跨兩個數據集的不同處理方式(一個數據集窄(3)、一個數據集寬(103))。在用SparkSpark SQL測試查詢/操作后,作者發現ParquetAvro在查詢序列化數據方面有時表現很類似,盡管在大多數情況下查詢Parquet數據的時候更快點(序列化數據更小)。

          http://blog.cloudera.com/blog/2016/04/benchmarking-apache-parquet-the-allstate-experience/

           

          本文介紹了如何在CDH這樣的分布式環境中使用SparkR,盡管SparkR官方還沒有支持這種方式。借助YARNworker本地安裝R語言包,job稍加改造就能執行了。

          http://www.nodalpoint.com/sparkr-in-cloudera-hadoop/

           

          很多開源框架都能執行MapReduce以及借助更高級的編程模型完成類似的工作。縱觀過去,它們依賴獨立運行的框架(例如MapReduce, Storm),但是最近的某些變化使得這一切充滿了變數。Apache Beam(孵化中)更進一步地跨越了批處理、流式處理兩種執行模式,內置更加復雜的計算模型。

          http://www.datanami.com/2016/04/22/apache-beam-emerges-ambitious-goal-unify-big-data-development/

           

          Apache博客發布了HBaseHDDSSD以及RAMDISK上的寫入性能測試比對的7篇系列文章。通過這一分析,作者發現并提議在HBaseHDFS上實現一些未覆蓋的功能。

          https://blogs.apache.org/hbase/entry/hdfs_hsm_and_hbase_part

           

          其他新聞

          Tom White“Hadoop權威指南的作者撰文介紹他是如何步入Apache Hadoop殿堂的。他的早期貢獻是繞著HadoopAmazon Web Services集成展開,而今AWS已成為Hadoop項目成功的重要部分。

          http://vision.cloudera.com/how-i-got-into-hadoop/

           

          Fluo,為Apache Accumulo準備的分布式處理引擎,向Apache孵化器提交了孵化申請。

          https://wiki.apache.org/incubator/FluoProposal

           

          Apache Phoenix宣布將在HBaseCon后舉行會議,Apache Phoenix是一個SQL-on-HBase系統。該會議只有半天,主題是介紹Phoenix內部情況和用例。

          http://hortonworks.com/blog/announcing-first-annual-phoenixcon-apache-phoenix-user-conference/

           

          產品發布

          Apache Metron,構建于Hadoop上的安全框架,發布了0.1版。Hortonworks支撐其作為技術預覽版,并撰寫本文介紹了如何上手,如何貢獻,如何使用Metron UI等等。

          http://hortonworks.com/blog/apache-metron-tech-preview-1-come-get/

          http://hortonworks.com/blog/apache-metron-use-case-finding-needle-haystack/

           

          Apache NiFi本周發布了0.6.1版。這是修復了10多個bug后的修復版。

          http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCALJK9a7yLnFeJ7Z=eU6mOB-DXvo8MHUr=_RshSjZcTbTcAHDZA@mail.gmail.com%3E

           

          Apache Flink本周發布了1.0.2版。本次發布包括了bug修復,RocksDB環境下的性能提升以及一些文檔方面的進步。

          http://flink.apache.org/news/2016/04/22/release-1.0.2.html

           

          Amazon發布了新版Amazon EMR,開始支持HBase 1.2

          https://aws.amazon.com/blogs/aws/amazon-emr-update-apache-hbase-1-2-is-now-available/

           

          活動

          中國

          posted on 2016-05-03 10:08 Rosen 閱讀(657) 評論(0)  編輯  收藏 所屬分類: 大數據

          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 伽师县| 子长县| 桐柏县| 新兴县| 正阳县| 淮安市| 贵州省| 广水市| 苏尼特左旗| 临夏县| 黑河市| 时尚| 太湖县| 博爱县| 白朗县| 永仁县| 西和县| 江安县| 宜城市| 湖口县| 海兴县| 房山区| 凯里市| 昌邑市| 娱乐| 民县| 奇台县| 龙山县| 吴忠市| 兰西县| 聊城市| 柏乡县| 防城港市| 邢台市| 宜黄县| 罗定市| 云阳县| 云南省| 宜宾县| 大英县| 察隅县|