posts - 82, comments - 269, trackbacks - 0, articles - 1
            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

          2011年8月22日

          posted @ 2011-09-08 08:59 itspy 閱讀(336) | 評論 (0)編輯 收藏

          posted @ 2011-09-07 21:02 itspy 閱讀(16321) | 評論 (0)編輯 收藏

               摘要: Hadoop在做Join時, Bloom Filter可以在Mapper階段就幫助過濾掉大部分無用數據, 同時也不需要把大量的List數據復制到每個Mapper節點. 相比下面的幾種方法十分具有優勢.

          1) 在Reduce階段進行Join,這樣運算量比較小.(這個適合被Join的數據比較小的情況下.)

          2) 壓縮字段,對數據預處理,過濾不需要的字段.





            閱讀全文

          posted @ 2011-08-22 21:43 itspy 閱讀(1575) | 評論 (0)編輯 收藏

          主站蜘蛛池模板: 黔西| 泗水县| 漳州市| 襄樊市| 萨迦县| 茌平县| 开阳县| 长宁县| 合作市| 博客| 色达县| 济源市| 武乡县| 兰州市| 万安县| 宁波市| 东光县| 建始县| 岫岩| 广丰县| 柯坪县| 漳平市| 射洪县| 晋州市| 嘉荫县| 和平县| 那曲县| 思茅市| 西青区| 芜湖市| 绍兴县| 柘城县| 浦江县| 浮山县| 新巴尔虎左旗| 德保县| 桓台县| 时尚| 新龙县| 修水县| 凤山市|