posts - 28, comments - 37, trackbacks - 0, articles - 0

          Yarn(MR2)上的應用匯總

          Posted on 2012-06-03 11:43 俞靈 閱讀(3660) 評論(0)  編輯  收藏

          Yarn做為hadoop下一代集群資源管理和調度平臺, 其上能支持多種計算框架, 本文就簡要介紹一下這些計算框架.


          1.       MapReduce

          首先是大家熟悉的mapreduce, MR2之前, hadoop包括HDFSmapreduce, 做為hadoop上唯一的分布式計算框架, 其優點是用戶可以很方便的編寫分布式計算程序, 并支持許多的應用, hive, mahout, pig. 但是其缺點是無法充分利用集群資源, 不支持DAG, 迭代式計算等. 為了解決這些問題, yahoo提出了Yarn (next generation mapreduce), 一個分布式集群集群資源管理和調度平臺. 這樣除了mapreduce, 還可以支持各種計算框架.

          2.       Spark

          Spark是一種與mapreduce相似的開源計算框架, 不同之處在于Spark在某些工作負載方面表現更優, 因為它使用了內存分布式數據集, 另外除了提供交互式查詢外, 它還可以優化迭代工作負載.

          3.       Apache HAMA

          Apache Hama 是一個運行在HDFS上的BSP(Bulk Synchronous Parallel大容量同步并行) 計算框架, 主要針對大規模科學計算,如矩陣, 圖像, 網絡算法等.當前它有一下功能:

          • 作業提交和管理接口
          • 單節點上運行多個任務
          • 輸入/輸出格式化
          • 備份恢復
          • 支持通過Apache Whirr運行在云端
          • 支持與Yarn一起運行

          4.       Apache Giraph

          圖像處理平臺上運行這大型算法(page rank, shared connections, personalization-based popularity )已經很流行, Giraph采用BSP模型(bulk-synchronous parallel model),可用于等迭代類算法。

          5.       Open MPI

          這是一個高性能計算函數庫,通常在HPCHigh Performance Computing)中采用,與MapReduce相比,其性能更高,用戶可控性更強,但編程復雜,容錯性差,可以說,各有所長,在實際應用中,針對不同 該應用會采用MPI或者MapReduce

          6.       Apache HBase

          HBase是一個hadoop數據庫, 其特點是分布式,可擴展的,存儲大數據。當有需要隨機,實時讀寫的大數據時, 使用HBase很適合.

          本文參考:

          http://wiki.apache.org/hadoop/PoweredByYarn
          http://www.oschina.net/p/open+mpi

          http://incubator.apache.org/hama/
          http://incubator.apache.org/giraph/

          http://hbase.apache.org/


          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 安溪县| 顺昌县| 浦北县| 台东市| 芒康县| 光山县| 新乐市| 巫溪县| 中宁县| 交口县| 江口县| 平山县| 新绛县| 赤壁市| 儋州市| 集贤县| 泗洪县| 海安县| 抚顺县| 包头市| 宁晋县| 陇南市| 宣威市| 宁阳县| 临沂市| 昭苏县| 柳州市| 南汇区| 金山区| 大英县| 商河县| 凯里市| 凤阳县| 蓝田县| 阿拉善盟| 罗田县| 靖远县| 闻喜县| 东乡县| 岳阳市| 鲁山县|