首頁新隨筆新文章聯系聚合

posts - 495,comments - 227,trackbacks - 0

2014年9月

>

日

一

二

三

四

五

六

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

常用鏈接

留言簿(46)

隨筆分類(476)

隨筆檔案(495)

搜索

積分與排名

積分 - 1395441
排名 - 16

閱讀排行榜

評論排行榜

mapreduce job讓一個文件只由一個map來處理

http://www.rigongyizu.com/mapreduce-job-one-map-process-one-file/

有一批數據用hadoop mapreduce job處理時，業務特點要求一個文件對應一個map來處理，如果兩個或多個map處理了同一個文件，可能會有問題。開始想通過設置 dfs.blocksize 或者 mapreduce.input.fileinputformat.split.minsize/maxsize 參數來控制map的個數，后來想到其實不用這么復雜，在自定義的InputFormat里面直接讓文件不要進行split就可以了。

public class CustemDocInputFormat extends TextInputFormat {

@Override

public RecordReader<LongWritable, Text> createRecordReader(InputSplit split, TaskAttemptContext context) {

DocRecordReader reader = null;

try {

reader = new DocRecordReader(); // 自定義的reader

} catch (IOException e) {

e.printStackTrace();

}

return reader;

}

@Override

protected boolean isSplitable(JobContext context, Path file) {

return false;

}

這樣，輸入文件有多少個，job就會啟動多少個map了。

2014年8月19日 Hadoop : 一個目錄下的數據只由一個map處理
2014年6月27日一個Hadoop程序的優化過程 – 根據文件實際大小實現CombineFileInputFormat
2013年9月23日 hadoop用MultipleInputs/MultiInputFormat實現一個mapreduce job中讀取不同格式的文件
2012年1月9日 hadoop mapreduce和hive中使用SequeceFile+lzo格式數據
2014年3月11日 hadoop集群DataNode起不來：“DiskChecker$DiskErrorException: Invalid volume failure config value: 1”

posted on 2014-09-16 09:28 SIMONE 閱讀(529) 評論(0) 編輯收藏所屬分類: hadoop

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Storm集成Kafka編程模型 Hadoop作業調優參數整理及原理 mapreduce job讓一個文件只由一個map來處理 hadoop用MultipleInputs/MultiInputFormat實現一個mapreduce job中讀取不同格式的文件一個Hadoop程序的優化過程 – 根據文件實際大小實現CombineFileInputFormat