Skynet

---------- ---------- 我的新 blog : liukaiyi.cublog.cn ---------- ----------

:: 管理

112 Posts :: 1 Stories :: 49 Comments :: 0 Trackbacks

數據說明:
knnuu_...txt 文件大小 3.2G 數據格式是
user1 user2 score
..
usern userm score

我這里希望通過清洗得到：
與 user1 關系最近的 top 100 人

由于數據并非需要百分之百準確，我放棄在分隔出的數據
if len(dr)!=3 : continue
開了 7 個線程也就是會有 7 個用戶的 uid 對 top 100 uid 會出現問題
對應總用戶數幾十萬來說呵呵 ! 我就用這完善7個特殊人的列表時間寫個 blog 吧

并結合 linux split , awk 等快速實現的猥瑣多線程哈哈!!
怎么修改下速度提升 5倍，原來的一小時到 10多分鐘。。。。。

# split  --bytes=500m  knnuu_20091123.txt knnuu/
# ls a* | awk '{system( "  python uu.py "$0" & " )}'
import bsddb,sys
db = bsddb.hashopen('../id-item-y-09-10-11.db','c')

uid = -1
arr=[]
arrsc=[]
fw = open('tc/'+sys.argv[1]+'uid-uid-sc.txt','w')
ii=0

def insertion_sort(arr,arrsc,uid,sc):
    ls = min(100,len(arrsc))
    if ls!=0 and sc < arrsc[ls-1] : return
    for i in xrange(ls):
        if arrsc[i]<=sc  :
            arrsc.insert(i,sc)
            arr.insert(i,uid)
            return
        elif arrsc[i] > sc :  continue
    if ls < 99 :
        arr.append(uid)
        arrsc.append(sc)

#for row in open('knnuu_20091123.txt') :
for row in open(sys.argv[1]):
    dr = row.split('\n')[0].split('\t')
    if len(dr)!=3 : continue
    u1,u2,strsc = dr[0],dr[1],dr[2]

    sc = float(strsc)
    if uid == -1 : uid = u1
    if u1 != uid :
        for c in xrange( min(100,len(arrsc)) ):
            tu = arr[c]
            ts = arrsc[c]
            print >>fw,"%s\t%s\t%s" % ( db[u1],db[tu],ts )
        print uid
        fw.flush()
        arr=[u1]
        arrsc=[sc]
        uid=u1
    else :
        insertion_sort(arr,arrsc,u2,sc)
    ii+=1
    #print ii,u1,uid,u2,strsc,len(arr),len(arrsc)
    #if ii>10 : break

fw.close()

整理 www.aygfsteel.com/Good-Game

posted on 2009-11-23 14:43 劉凱毅閱讀(1416) 評論(0) 編輯收藏所屬分類: 數據清洗

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: shell txt 分析小結大文件切割，top倒序排列（方法比奔逸,大家可繞行）

Skynet

常用鏈接

留言簿(13)

我參與的團隊

隨筆分類

隨筆檔案

相冊

搜索

最新評論

閱讀排行榜

評論排行榜