我的一畝三分地

            BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
            7 隨筆 :: 0 文章 :: 17 評論 :: 0 Trackbacks
             數(shù)據(jù)倉庫很難寫清楚的,試試看能不能以亂彈的方式將它寫的通俗易懂,老少咸宜。
             數(shù)據(jù)倉庫就是把不同數(shù)據(jù)庫的數(shù)據(jù)收集到一起,加以整理,主要用于做長期趨勢分析 。也就是說我們需要 從數(shù)據(jù)庫中把數(shù)據(jù)取過來,加工下(規(guī)整下),存儲起來,分析展現(xiàn)。下面就按這個過程亂彈下數(shù)據(jù)倉庫。
            首先要考慮我們需要什么數(shù)據(jù),換句話說那些數(shù)據(jù)是值得集成的,那些數(shù)據(jù)是值得保留的。當(dāng)然這些需要客戶說了算,看他們關(guān)心那些數(shù)據(jù),關(guān)心那些指標(biāo),關(guān)心數(shù)據(jù)的時間,希望以怎樣的方式展現(xiàn)。比如需要按月統(tǒng)計各類型手機(jī)用戶話費類型比率。可以知道客戶需要有話費類型、用戶類型、話費金額、時間這些數(shù)據(jù)及數(shù)據(jù)的關(guān)系。這樣就有了簡單的數(shù)據(jù)模型,知道我們需要什么數(shù)據(jù),數(shù)據(jù)之間的簡單關(guān)系了。當(dāng)然也有人叫它企業(yè)數(shù)據(jù)模型,這個模型是有數(shù)據(jù)倉庫特點的模型即面向主題的、與時間相關(guān)的。為了不落下不嚴(yán)密的口舌暫叫“簡單企業(yè)模型”。
            有了簡單企業(yè)模型,我們就按圖索驥從業(yè)務(wù)系統(tǒng)中獲取數(shù)據(jù)了,可是你在A系統(tǒng)中叫張三、B系統(tǒng)中叫zhangsan、C系統(tǒng)中叫7。把這些數(shù)據(jù)整進(jìn)數(shù)據(jù)倉庫也沒有辦法利用,沒有統(tǒng)一的標(biāo)準(zhǔn),怎么查詢分析呀。這下應(yīng)該看出來了需要轉(zhuǎn)換數(shù)據(jù),按照統(tǒng)一的標(biāo)準(zhǔn)轉(zhuǎn)換。說的通俗些需要統(tǒng)一的數(shù)據(jù)字典或編碼標(biāo)準(zhǔn),將各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換成為標(biāo)準(zhǔn)的數(shù)據(jù)。當(dāng)然實際情況復(fù)雜的多,需要將生數(shù)據(jù)進(jìn)行轉(zhuǎn)碼,轉(zhuǎn)類型甚至合并,補缺等等最終整成能用的數(shù)據(jù)或者叫熟數(shù)據(jù),加載入目的數(shù)據(jù)庫。源數(shù)據(jù)可能是xml、平面文件,oracle,foxbase等,沒有遇不到只有想不到。這個數(shù)據(jù)轉(zhuǎn)換、清洗、加載、抽取的過程就叫ETL。
            可是問題又出現(xiàn)了,在業(yè)務(wù)系統(tǒng)關(guān)心的是細(xì)節(jié)數(shù)據(jù),如某人當(dāng)月每次通話記錄,在數(shù)據(jù)倉庫關(guān)心的匯總數(shù)據(jù),如某類人當(dāng)月通話次數(shù)。不能按照正常的數(shù)據(jù)庫設(shè)計進(jìn)行數(shù)據(jù)倉庫的設(shè)計,因為很多數(shù)據(jù)是決策層面的人不需要,而且數(shù)據(jù)量一大存儲就大,存儲大查詢就慢,查詢速度一慢數(shù)據(jù)倉庫縱然有白好也一無是處了。于是就演變出來雪花模型和星型模型。星型模型是目前采用較多的模型。可以這樣理解星型模型的角就是group by的條件,中心的數(shù)據(jù)就是聚合的結(jié)果。將數(shù)據(jù)按照星型模型存儲起來,作為數(shù)據(jù)倉庫的數(shù)據(jù)。
            現(xiàn)在就差數(shù)據(jù)展現(xiàn)分析部分了,只要數(shù)據(jù)對客戶來說沒有什么用。數(shù)據(jù)倉庫有多種應(yīng)用如靜態(tài)報表、多維查詢、即席查詢、數(shù)據(jù)挖掘等等。可以簡單的認(rèn)為我把多個維度一拼就是一個分析,比如我把聯(lián)通、北京、用戶數(shù)一組合就認(rèn)為聯(lián)通北京的用戶數(shù)是多少?當(dāng)然也可以一拆開聯(lián)通、用戶數(shù)認(rèn)為聯(lián)通的用戶數(shù)是多少?當(dāng)然你也許已經(jīng)知道了這就是數(shù)據(jù)立方,我只是從不同的角度看這個世界,看到的層面不一樣。
             為了文章通俗,減少了數(shù)據(jù)倉庫一些核心方面,比如數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理、數(shù)據(jù)安全、ODS、數(shù)據(jù)集市等介紹。 希望對大家有用。 
            
          posted on 2007-06-27 23:11 西北狼 閱讀(1410) 評論(4)  編輯  收藏 所屬分類: 開發(fā)技術(shù)

          評論

          # re: 亂彈數(shù)據(jù)倉庫 2007-06-28 17:50 yangtse_ye
          收益  回復(fù)  更多評論
            

          # re: 亂彈數(shù)據(jù)倉庫 2007-06-28 22:27 紫貓
          只顧著看了,才想起來要支持下。這種方式很好啊,繼續(xù)啦,這樣了解就更多了。  回復(fù)  更多評論
            

          # re: 亂彈數(shù)據(jù)倉庫 2007-07-12 07:41 davy
          寫得好。  回復(fù)  更多評論
            

          # re: 亂彈數(shù)據(jù)倉庫 2007-07-26 12:37 hemu1190
          不錯,繼續(xù)吧!關(guān)注中  回復(fù)  更多評論
            

          主站蜘蛛池模板: 南川市| 瑞金市| 永清县| 晋中市| 富源县| 徐州市| 卫辉市| 宝山区| 阿鲁科尔沁旗| 日照市| 美姑县| 垫江县| 邻水| 潮州市| 赤壁市| 东辽县| 玛纳斯县| 阿坝县| 海兴县| 昭通市| 诏安县| 托里县| 上杭县| 尖扎县| 大庆市| 麻城市| 雅安市| 内乡县| 巩义市| 若尔盖县| 九龙县| 秭归县| 临朐县| 格尔木市| 辉南县| 海晏县| 青河县| 沙田区| 襄垣县| 天镇县| 定西市|