国产精品第2页,欧美日韩亚州综合,亚洲国产欧美国产综合一区

大規(guī)模數(shù)據(jù)查重的多種方法，及Bloom Filter的應(yīng)用

挺有意思的題目。

1. 給你A,B兩個文件，各存放50億條URL，每條URL占用64字節(jié)，內(nèi)存限制是4G，讓你找出:A,B文件共同的URL。
解法一：Hash成內(nèi)存大小的小塊文件，然后分塊內(nèi)存內(nèi)查交集。
解法二：Bloom Filter（廣泛應(yīng)用于URL過濾、查重。參考http://en.wikipedia.org/wiki/Bloom_filter、http://blog.csdn.net/jiaomeng/archive/2007/01/28/1496329.aspx）

2. 有10個文件，每個文件1G，每個文件的每一行都存放的是用戶的query，每個文件的query都可能重復(fù)。要你按照query的頻度排序。
解法一：根據(jù)數(shù)據(jù)稀疏程度算法會有不同，通用方法是用Hash把文件重排，讓相同query一定會在同一個文件，同時進行計數(shù)，然后歸并，用最小堆來統(tǒng)計頻度最大的。
解法二：類似1，但是用的是與簡單Bloom Filter稍有不同的CBF（Counting Bloom Filter）或者更進一步的SBF（Spectral Bloom Filter，參考http://blog.csdn.net/jiaomeng/archive/2007/03/19/1534238.aspx）
解法三：MapReduce，幾分鐘可以在hadoop集群上搞定。參考http://en.wikipedia.org/wiki/MapReduce

3. 有一個1G大小的一個文件，里面每一行是一個詞，詞的大小不超過16個字節(jié)，內(nèi)存限制大小是1M。返回頻數(shù)最高的100個詞。
解法一：跟2類似，只是不需要排序，各個文件分別統(tǒng)計前100，然后一起找前100。

posted on 2013-01-31 13:55 paulwong 閱讀(1148) 評論(0) 編輯收藏所屬分類: 分布式、HADOOP 、云計算

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: !!!架構(gòu)網(wǎng)站內(nèi)容不錯 SPRING CACHE資源使用WILDFLY中的分布式緩存INFISHPAN SPRING-SESSION 分布式調(diào)度QUARTZ+SPRING 樂視 TV 載入 4K 片點解咁快？CDN 網(wǎng)絡(luò)解構(gòu) Java并行處理框架 JPPF 騰訊CKV海量分布式存儲系統(tǒng) 【轉(zhuǎn)載】經(jīng)典漫畫講解HDFS原理一些數(shù)據(jù)切分、緩存、rpc框架、nosql方案資料

paulwong

My Links

Blog Stats

常用鏈接

留言簿(67)

隨筆分類(1393)

隨筆檔案(1151)

文章分類(7)

文章檔案(10)

相冊

收藏夾(2)

AI

Develop

E-BOOK

Other

養(yǎng)生

微服務(wù)

搜索

最新評論

閱讀排行榜

評論排行榜

60天內(nèi)閱讀排行

大規(guī)模數(shù)據(jù)查重的多種方法，及Bloom Filter的應(yīng)用