paulwong

          STORM與HADOOP的比較

          對于一堆時刻在增長的數據,如果要統計,可以采取什么方法呢?
          1. 等數據增長到一定程度的時候,跑一個統計程序進行統計。適用于實時性要求不高的場景。
            如將數據導到HDFS,再運行一個MAP REDUCE JOB。
          2. 如果實時性要求高的,上面的方法就不行了。因此就帶來第二種方法。
            在數據每次增長一筆的時候,就進行統計JOB,結果放到DB或搜索引擎的INDEX中。
            STORM就是完成這種工作的。

          HADOOP與STORM比較
          1. 數據來源:HADOOP是HDFS上某個文件夾下的可能是成TB的數據,STORM是實時新增的某一筆數據
          2. 處理過程:HADOOP是分MAP階段到REDUCE階段,STORM是由用戶定義處理流程,
            流程中可以包含多個步驟,每個步驟可以是數據源(SPOUT)或處理邏輯(BOLT)
          3. 是否結束:HADOOP最后是要結束的,STORM是沒有結束狀態,到最后一步時,就停在那,直到有新
            數據進入時再從頭開始
          4. 處理速度:HADOOP是以處理HDFS上大量數據為目的,速度慢,STORM是只要處理新增的某一筆數據即可
            可以做到很快。
          5. 適用場景:HADOOP是在要處理一批數據時用的,不講究時效性,要處理就提交一個JOB,STORM是要處理
            某一新增數據時用的,要講時效性
          6. 與MQ對比:HADOOP沒有對比性,STORM可以看作是有N個步驟,每個步驟處理完就向下一個MQ發送消息,
            監聽這個MQ的消費者繼續處理

          posted on 2013-09-08 19:49 paulwong 閱讀(4582) 評論(0)  編輯  收藏 所屬分類: LOG ANALYST BIG DATA SYSTEMSTORM

          主站蜘蛛池模板: 东海县| 武威市| 库伦旗| 康马县| 木兰县| 从化市| 石狮市| 望都县| 贵州省| 七台河市| 金坛市| 祁连县| 五常市| 德昌县| 玉环县| 河西区| 永城市| 息烽县| 聂荣县| 黄平县| 临泽县| 昌都县| 平江县| 吴忠市| 图木舒克市| 马鞍山市| 武平县| 东台市| 淳安县| 晋江市| 神池县| 蓝田县| 喀喇沁旗| 霍林郭勒市| 安泽县| 新营市| 安宁市| 长垣县| 凌海市| 胶州市| 观塘区|