paulwong

          MAPREDUCE運行原理

          1. 將INPUT通過SPLIT成M個MAP任務

          2. JOB TRACKER將這M個任務分派給TASK TRACKER執行

          3. TASK TRACKER執行完MAP任務后,會在本地生成文件,然后通知JOB TRACKER

          4. JOB TRACKER收到通知后,將此任務標記為已完成,如果收到失敗的消息,會將此任務重置為原始狀態,再分派給另一TASK TRACKER執行

          5. 當所有的MAP任務完成后,JOB TRACKER將MAP執行后生成的LIST重新整理,整合相同的KEY,根據KEY的數量生成R個REDUCE任務,再分派給TASK TRACKER執行

          6. TASK TRACKER執行完REDUCE任務后,會在HDFS生成文件,然后通知JOB TRACKER


          7. JOB TRACKER等到所有的REDUCE任務執行完后,進行合并,產生最后結果,通知CLIENT


          8. TASK TRACKER執行完MAP任務時,可以重新生成新的KEY VALUE對,從而影響REDUCE個數


          posted on 2013-01-29 12:54 paulwong 閱讀(272) 評論(0)  編輯  收藏 所屬分類: HADOOP云計算

          主站蜘蛛池模板: 罗城| 自治县| 崇文区| 察哈| 板桥市| 武穴市| 合阳县| 潢川县| 克拉玛依市| 庄河市| 梅河口市| 盐边县| 定边县| 澎湖县| 乌拉特后旗| 南澳县| 兴山县| 崇义县| 北安市| 收藏| 灵寿县| 千阳县| 宜宾市| 平顶山市| 临安市| 平罗县| 佛冈县| 通辽市| 渭南市| 驻马店市| 准格尔旗| 仲巴县| 东乌珠穆沁旗| 榆树市| 开平市| 曲靖市| 盱眙县| 东源县| 金阳县| 阿克苏市| 正定县|