MAPREDUCE運行原理
- 將INPUT通過SPLIT成M個MAP任務
- JOB TRACKER將這M個任務分派給TASK TRACKER執行
- TASK TRACKER執行完MAP任務后,會在本地生成文件,然后通知JOB TRACKER
- JOB TRACKER收到通知后,將此任務標記為已完成,如果收到失敗的消息,會將此任務重置為原始狀態,再分派給另一TASK TRACKER執行
- 當所有的MAP任務完成后,JOB TRACKER將MAP執行后生成的LIST重新整理,整合相同的KEY,根據KEY的數量生成R個REDUCE任務,再分派給TASK TRACKER執行
- TASK TRACKER執行完REDUCE任務后,會在HDFS生成文件,然后通知JOB TRACKER
- JOB TRACKER等到所有的REDUCE任務執行完后,進行合并,產生最后結果,通知CLIENT
- TASK TRACKER執行完MAP任務時,可以重新生成新的KEY VALUE對,從而影響REDUCE個數
posted on 2013-01-29 12:54 paulwong 閱讀(272) 評論(0) 編輯 收藏 所屬分類: HADOOP 、云計算