摘要: Hadoop在做Join時, Bloom Filter可以在Mapper階段就幫助過濾掉大部分無用數據, 同時也不需要把大量的List數據復制到每個Mapper節點. 相比下面的幾種方法十分具有優勢.
1) 在Reduce階段進行Join,這樣運算量比較小.(這個適合被Join的數據比較小的情況下.)
2) 壓縮字段,對數據預處理,過濾不需要的字段.
閱讀全文
1) 在Reduce階段進行Join,這樣運算量比較小.(這個適合被Join的數據比較小的情況下.)
2) 壓縮字段,對數據預處理,過濾不需要的字段.
閱讀全文
posted @ 2011-08-22 21:43 itspy 閱讀(1575) | 評論 (0) 編輯 |