posts - 82, comments - 269, trackbacks - 0, articles - 1
            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

          2011年8月22日

          posted @ 2011-09-08 08:59 itspy 閱讀(342) | 評論 (0)編輯 收藏

          posted @ 2011-09-07 21:02 itspy 閱讀(16326) | 評論 (0)編輯 收藏

               摘要: Hadoop在做Join時, Bloom Filter可以在Mapper階段就幫助過濾掉大部分無用數據, 同時也不需要把大量的List數據復制到每個Mapper節點. 相比下面的幾種方法十分具有優勢.

          1) 在Reduce階段進行Join,這樣運算量比較小.(這個適合被Join的數據比較小的情況下.)

          2) 壓縮字段,對數據預處理,過濾不需要的字段.





            閱讀全文

          posted @ 2011-08-22 21:43 itspy 閱讀(1579) | 評論 (0)編輯 收藏

          主站蜘蛛池模板: 呼和浩特市| 克什克腾旗| 梁山县| 山西省| 兴城市| 博白县| 怀集县| 石景山区| 西华县| 枣强县| 开鲁县| 安吉县| 嘉义市| 手游| 凭祥市| 西乌珠穆沁旗| 六枝特区| 宁城县| 曲阜市| 上犹县| 安仁县| 清河县| 和静县| 沙洋县| 逊克县| 手游| 新化县| 新郑市| 阳高县| 罗田县| 凤山市| 阜新市| 利川市| 礼泉县| 出国| 平度市| 昌都县| 新乐市| 侯马市| 饶河县| 重庆市|