我的一畝三分地

            BlogJava :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
            7 隨筆 :: 0 文章 :: 17 評(píng)論 :: 0 Trackbacks
             數(shù)據(jù)倉(cāng)庫(kù)很難寫(xiě)清楚的,試試看能不能以亂彈的方式將它寫(xiě)的通俗易懂,老少咸宜。
             數(shù)據(jù)倉(cāng)庫(kù)就是把不同數(shù)據(jù)庫(kù)的數(shù)據(jù)收集到一起,加以整理,主要用于做長(zhǎng)期趨勢(shì)分析 。也就是說(shuō)我們需要 從數(shù)據(jù)庫(kù)中把數(shù)據(jù)取過(guò)來(lái),加工下(規(guī)整下),存儲(chǔ)起來(lái),分析展現(xiàn)。下面就按這個(gè)過(guò)程亂彈下數(shù)據(jù)倉(cāng)庫(kù)。
            首先要考慮我們需要什么數(shù)據(jù),換句話說(shuō)那些數(shù)據(jù)是值得集成的,那些數(shù)據(jù)是值得保留的。當(dāng)然這些需要客戶(hù)說(shuō)了算,看他們關(guān)心那些數(shù)據(jù),關(guān)心那些指標(biāo),關(guān)心數(shù)據(jù)的時(shí)間,希望以怎樣的方式展現(xiàn)。比如需要按月統(tǒng)計(jì)各類(lèi)型手機(jī)用戶(hù)話費(fèi)類(lèi)型比率。可以知道客戶(hù)需要有話費(fèi)類(lèi)型、用戶(hù)類(lèi)型、話費(fèi)金額、時(shí)間這些數(shù)據(jù)及數(shù)據(jù)的關(guān)系。這樣就有了簡(jiǎn)單的數(shù)據(jù)模型,知道我們需要什么數(shù)據(jù),數(shù)據(jù)之間的簡(jiǎn)單關(guān)系了。當(dāng)然也有人叫它企業(yè)數(shù)據(jù)模型,這個(gè)模型是有數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)的模型即面向主題的、與時(shí)間相關(guān)的。為了不落下不嚴(yán)密的口舌暫叫“簡(jiǎn)單企業(yè)模型”。
            有了簡(jiǎn)單企業(yè)模型,我們就按圖索驥從業(yè)務(wù)系統(tǒng)中獲取數(shù)據(jù)了,可是你在A系統(tǒng)中叫張三、B系統(tǒng)中叫zhangsan、C系統(tǒng)中叫7。把這些數(shù)據(jù)整進(jìn)數(shù)據(jù)倉(cāng)庫(kù)也沒(méi)有辦法利用,沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),怎么查詢(xún)分析呀。這下應(yīng)該看出來(lái)了需要轉(zhuǎn)換數(shù)據(jù),按照統(tǒng)一的標(biāo)準(zhǔn)轉(zhuǎn)換。說(shuō)的通俗些需要統(tǒng)一的數(shù)據(jù)字典或編碼標(biāo)準(zhǔn),將各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換成為標(biāo)準(zhǔn)的數(shù)據(jù)。當(dāng)然實(shí)際情況復(fù)雜的多,需要將生數(shù)據(jù)進(jìn)行轉(zhuǎn)碼,轉(zhuǎn)類(lèi)型甚至合并,補(bǔ)缺等等最終整成能用的數(shù)據(jù)或者叫熟數(shù)據(jù),加載入目的數(shù)據(jù)庫(kù)。源數(shù)據(jù)可能是xml、平面文件,oracle,foxbase等,沒(méi)有遇不到只有想不到。這個(gè)數(shù)據(jù)轉(zhuǎn)換、清洗、加載、抽取的過(guò)程就叫ETL。
            可是問(wèn)題又出現(xiàn)了,在業(yè)務(wù)系統(tǒng)關(guān)心的是細(xì)節(jié)數(shù)據(jù),如某人當(dāng)月每次通話記錄,在數(shù)據(jù)倉(cāng)庫(kù)關(guān)心的匯總數(shù)據(jù),如某類(lèi)人當(dāng)月通話次數(shù)。不能按照正常的數(shù)據(jù)庫(kù)設(shè)計(jì)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì),因?yàn)楹芏鄶?shù)據(jù)是決策層面的人不需要,而且數(shù)據(jù)量一大存儲(chǔ)就大,存儲(chǔ)大查詢(xún)就慢,查詢(xún)速度一慢數(shù)據(jù)倉(cāng)庫(kù)縱然有白好也一無(wú)是處了。于是就演變出來(lái)雪花模型和星型模型。星型模型是目前采用較多的模型。可以這樣理解星型模型的角就是group by的條件,中心的數(shù)據(jù)就是聚合的結(jié)果。將數(shù)據(jù)按照星型模型存儲(chǔ)起來(lái),作為數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)。
            現(xiàn)在就差數(shù)據(jù)展現(xiàn)分析部分了,只要數(shù)據(jù)對(duì)客戶(hù)來(lái)說(shuō)沒(méi)有什么用。數(shù)據(jù)倉(cāng)庫(kù)有多種應(yīng)用如靜態(tài)報(bào)表、多維查詢(xún)、即席查詢(xún)、數(shù)據(jù)挖掘等等。可以簡(jiǎn)單的認(rèn)為我把多個(gè)維度一拼就是一個(gè)分析,比如我把聯(lián)通、北京、用戶(hù)數(shù)一組合就認(rèn)為聯(lián)通北京的用戶(hù)數(shù)是多少?當(dāng)然也可以一拆開(kāi)聯(lián)通、用戶(hù)數(shù)認(rèn)為聯(lián)通的用戶(hù)數(shù)是多少?當(dāng)然你也許已經(jīng)知道了這就是數(shù)據(jù)立方,我只是從不同的角度看這個(gè)世界,看到的層面不一樣。
             為了文章通俗,減少了數(shù)據(jù)倉(cāng)庫(kù)一些核心方面,比如數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理、數(shù)據(jù)安全、ODS、數(shù)據(jù)集市等介紹。 希望對(duì)大家有用。 
            
          posted on 2007-06-27 23:11 西北狼 閱讀(1411) 評(píng)論(4)  編輯  收藏 所屬分類(lèi): 開(kāi)發(fā)技術(shù)

          評(píng)論

          # re: 亂彈數(shù)據(jù)倉(cāng)庫(kù) 2007-06-28 17:50 yangtse_ye
          收益  回復(fù)  更多評(píng)論
            

          # re: 亂彈數(shù)據(jù)倉(cāng)庫(kù) 2007-06-28 22:27 紫貓
          只顧著看了,才想起來(lái)要支持下。這種方式很好啊,繼續(xù)啦,這樣了解就更多了。  回復(fù)  更多評(píng)論
            

          # re: 亂彈數(shù)據(jù)倉(cāng)庫(kù) 2007-07-12 07:41 davy
          寫(xiě)得好。  回復(fù)  更多評(píng)論
            

          # re: 亂彈數(shù)據(jù)倉(cāng)庫(kù) 2007-07-26 12:37 hemu1190
          不錯(cuò),繼續(xù)吧!關(guān)注中  回復(fù)  更多評(píng)論
            

          主站蜘蛛池模板: 都兰县| 南汇区| 金门县| 宁阳县| 吉木乃县| 龙陵县| 中宁县| 平遥县| 宜兰县| 林口县| 东丽区| 化隆| 盐源县| 商水县| 孙吴县| 房山区| 余庆县| 乌兰察布市| 安丘市| 高阳县| 巴塘县| 偏关县| 建水县| 赞皇县| 唐河县| 镇巴县| 邹平县| 名山县| 苗栗市| 岫岩| 昆山市| 慈溪市| 方城县| 彭泽县| 金湖县| 武乡县| 永宁县| 平利县| 邹城市| 南陵县| 阿鲁科尔沁旗|