摘要: Hadoop在做Join時, Bloom Filter可以在Mapper階段就幫助過濾掉大部分無用數(shù)據(jù), 同時也不需要把大量的List數(shù)據(jù)復(fù)制到每個Mapper節(jié)點(diǎn). 相比下面的幾種方法十分具有優(yōu)勢.
1) 在Reduce階段進(jìn)行Join,這樣運(yùn)算量比較小.(這個適合被Join的數(shù)據(jù)比較小的情況下.)
2) 壓縮字段,對數(shù)據(jù)預(yù)處理,過濾不需要的字段.
閱讀全文
1) 在Reduce階段進(jìn)行Join,這樣運(yùn)算量比較小.(這個適合被Join的數(shù)據(jù)比較小的情況下.)
2) 壓縮字段,對數(shù)據(jù)預(yù)處理,過濾不需要的字段.
閱讀全文
posted @ 2011-08-22 21:43 itspy 閱讀(1579) | 評論 (0) 編輯 |