我的一畝三分地

            BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
            7 隨筆 :: 0 文章 :: 17 評(píng)論 :: 0 Trackbacks
             數(shù)據(jù)倉庫很難寫清楚的,試試看能不能以亂彈的方式將它寫的通俗易懂,老少咸宜。
             數(shù)據(jù)倉庫就是把不同數(shù)據(jù)庫的數(shù)據(jù)收集到一起,加以整理,主要用于做長期趨勢分析 。也就是說我們需要 從數(shù)據(jù)庫中把數(shù)據(jù)取過來,加工下(規(guī)整下),存儲(chǔ)起來,分析展現(xiàn)。下面就按這個(gè)過程亂彈下數(shù)據(jù)倉庫。
            首先要考慮我們需要什么數(shù)據(jù),換句話說那些數(shù)據(jù)是值得集成的,那些數(shù)據(jù)是值得保留的。當(dāng)然這些需要客戶說了算,看他們關(guān)心那些數(shù)據(jù),關(guān)心那些指標(biāo),關(guān)心數(shù)據(jù)的時(shí)間,希望以怎樣的方式展現(xiàn)。比如需要按月統(tǒng)計(jì)各類型手機(jī)用戶話費(fèi)類型比率。可以知道客戶需要有話費(fèi)類型、用戶類型、話費(fèi)金額、時(shí)間這些數(shù)據(jù)及數(shù)據(jù)的關(guān)系。這樣就有了簡單的數(shù)據(jù)模型,知道我們需要什么數(shù)據(jù),數(shù)據(jù)之間的簡單關(guān)系了。當(dāng)然也有人叫它企業(yè)數(shù)據(jù)模型,這個(gè)模型是有數(shù)據(jù)倉庫特點(diǎn)的模型即面向主題的、與時(shí)間相關(guān)的。為了不落下不嚴(yán)密的口舌暫叫“簡單企業(yè)模型”。
            有了簡單企業(yè)模型,我們就按圖索驥從業(yè)務(wù)系統(tǒng)中獲取數(shù)據(jù)了,可是你在A系統(tǒng)中叫張三、B系統(tǒng)中叫zhangsan、C系統(tǒng)中叫7。把這些數(shù)據(jù)整進(jìn)數(shù)據(jù)倉庫也沒有辦法利用,沒有統(tǒng)一的標(biāo)準(zhǔn),怎么查詢分析呀。這下應(yīng)該看出來了需要轉(zhuǎn)換數(shù)據(jù),按照統(tǒng)一的標(biāo)準(zhǔn)轉(zhuǎn)換。說的通俗些需要統(tǒng)一的數(shù)據(jù)字典或編碼標(biāo)準(zhǔn),將各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換成為標(biāo)準(zhǔn)的數(shù)據(jù)。當(dāng)然實(shí)際情況復(fù)雜的多,需要將生數(shù)據(jù)進(jìn)行轉(zhuǎn)碼,轉(zhuǎn)類型甚至合并,補(bǔ)缺等等最終整成能用的數(shù)據(jù)或者叫熟數(shù)據(jù),加載入目的數(shù)據(jù)庫。源數(shù)據(jù)可能是xml、平面文件,oracle,foxbase等,沒有遇不到只有想不到。這個(gè)數(shù)據(jù)轉(zhuǎn)換、清洗、加載、抽取的過程就叫ETL。
            可是問題又出現(xiàn)了,在業(yè)務(wù)系統(tǒng)關(guān)心的是細(xì)節(jié)數(shù)據(jù),如某人當(dāng)月每次通話記錄,在數(shù)據(jù)倉庫關(guān)心的匯總數(shù)據(jù),如某類人當(dāng)月通話次數(shù)。不能按照正常的數(shù)據(jù)庫設(shè)計(jì)進(jìn)行數(shù)據(jù)倉庫的設(shè)計(jì),因?yàn)楹芏鄶?shù)據(jù)是決策層面的人不需要,而且數(shù)據(jù)量一大存儲(chǔ)就大,存儲(chǔ)大查詢就慢,查詢速度一慢數(shù)據(jù)倉庫縱然有白好也一無是處了。于是就演變出來雪花模型和星型模型。星型模型是目前采用較多的模型??梢赃@樣理解星型模型的角就是group by的條件,中心的數(shù)據(jù)就是聚合的結(jié)果。將數(shù)據(jù)按照星型模型存儲(chǔ)起來,作為數(shù)據(jù)倉庫的數(shù)據(jù)。
            現(xiàn)在就差數(shù)據(jù)展現(xiàn)分析部分了,只要數(shù)據(jù)對(duì)客戶來說沒有什么用。數(shù)據(jù)倉庫有多種應(yīng)用如靜態(tài)報(bào)表、多維查詢、即席查詢、數(shù)據(jù)挖掘等等??梢院唵蔚恼J(rèn)為我把多個(gè)維度一拼就是一個(gè)分析,比如我把聯(lián)通、北京、用戶數(shù)一組合就認(rèn)為聯(lián)通北京的用戶數(shù)是多少?當(dāng)然也可以一拆開聯(lián)通、用戶數(shù)認(rèn)為聯(lián)通的用戶數(shù)是多少?當(dāng)然你也許已經(jīng)知道了這就是數(shù)據(jù)立方,我只是從不同的角度看這個(gè)世界,看到的層面不一樣。
             為了文章通俗,減少了數(shù)據(jù)倉庫一些核心方面,比如數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理、數(shù)據(jù)安全、ODS、數(shù)據(jù)集市等介紹。 希望對(duì)大家有用。 
            
          posted on 2007-06-27 23:11 西北狼 閱讀(1410) 評(píng)論(4)  編輯  收藏 所屬分類: 開發(fā)技術(shù)

          評(píng)論

          # re: 亂彈數(shù)據(jù)倉庫 2007-06-28 17:50 yangtse_ye
          收益  回復(fù)  更多評(píng)論
            

          # re: 亂彈數(shù)據(jù)倉庫 2007-06-28 22:27 紫貓
          只顧著看了,才想起來要支持下。這種方式很好啊,繼續(xù)啦,這樣了解就更多了。  回復(fù)  更多評(píng)論
            

          # re: 亂彈數(shù)據(jù)倉庫 2007-07-12 07:41 davy
          寫得好。  回復(fù)  更多評(píng)論
            

          # re: 亂彈數(shù)據(jù)倉庫 2007-07-26 12:37 hemu1190
          不錯(cuò),繼續(xù)吧!關(guān)注中  回復(fù)  更多評(píng)論
            


          只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 新野县| 通渭县| 通河县| 墨竹工卡县| 东至县| 申扎县| 保靖县| 黔南| 崇阳县| 鲜城| 柳州市| 琼海市| 柞水县| 九龙县| 定陶县| 介休市| 道真| 宜城市| 延寿县| 拜城县| 中江县| 侯马市| 延川县| 灵璧县| 繁峙县| 蓬溪县| 涿鹿县| 罗定市| 望都县| 资兴市| 繁峙县| 东明县| 简阳市| 绵竹市| 亚东县| 会理县| 留坝县| 赤水市| 遂溪县| 瓦房店市| 崇左市|