數(shù)據(jù)倉(cāng)庫(kù)很難寫清楚的,試試看能不能以亂彈的方式將它寫的通俗易懂,老少咸宜。
數(shù)據(jù)倉(cāng)庫(kù)就是把不同數(shù)據(jù)庫(kù)的數(shù)據(jù)收集到一起,加以整理,主要用于做長(zhǎng)期趨勢(shì)分析 。也就是說(shuō)我們需要 從數(shù)據(jù)庫(kù)中把數(shù)據(jù)取過(guò)來(lái),加工下(規(guī)整下),存儲(chǔ)起來(lái),分析展現(xiàn)。下面就按這個(gè)過(guò)程亂彈下數(shù)據(jù)倉(cāng)庫(kù)。
首先要考慮我們需要什么數(shù)據(jù),換句話說(shuō)那些數(shù)據(jù)是值得集成的,那些數(shù)據(jù)是值得保留的。當(dāng)然這些需要客戶說(shuō)了算,看他們關(guān)心那些數(shù)據(jù),關(guān)心那些指標(biāo),關(guān)心數(shù)據(jù)的時(shí)間,希望以怎樣的方式展現(xiàn)。比如需要按月統(tǒng)計(jì)各類型手機(jī)用戶話費(fèi)類型比率。可以知道客戶需要有話費(fèi)類型、用戶類型、話費(fèi)金額、時(shí)間這些數(shù)據(jù)及數(shù)據(jù)的關(guān)系。這樣就有了簡(jiǎn)單的數(shù)據(jù)模型,知道我們需要什么數(shù)據(jù),數(shù)據(jù)之間的簡(jiǎn)單關(guān)系了。當(dāng)然也有人叫它企業(yè)數(shù)據(jù)模型,這個(gè)模型是有數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)的模型即面向主題的、與時(shí)間相關(guān)的。為了不落下不嚴(yán)密的口舌暫叫“簡(jiǎn)單企業(yè)模型”。
有了簡(jiǎn)單企業(yè)模型,我們就按圖索驥從業(yè)務(wù)系統(tǒng)中獲取數(shù)據(jù)了,可是你在A系統(tǒng)中叫張三、B系統(tǒng)中叫zhangsan、C系統(tǒng)中叫7。把這些數(shù)據(jù)整進(jìn)數(shù)據(jù)倉(cāng)庫(kù)也沒(méi)有辦法利用,沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),怎么查詢分析呀。這下應(yīng)該看出來(lái)了需要轉(zhuǎn)換數(shù)據(jù),按照統(tǒng)一的標(biāo)準(zhǔn)轉(zhuǎn)換。說(shuō)的通俗些需要統(tǒng)一的數(shù)據(jù)字典或編碼標(biāo)準(zhǔn),將各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換成為標(biāo)準(zhǔn)的數(shù)據(jù)。當(dāng)然實(shí)際情況復(fù)雜的多,需要將生數(shù)據(jù)進(jìn)行轉(zhuǎn)碼,轉(zhuǎn)類型甚至合并,補(bǔ)缺等等最終整成能用的數(shù)據(jù)或者叫熟數(shù)據(jù),加載入目的數(shù)據(jù)庫(kù)。源數(shù)據(jù)可能是xml、平面文件,oracle,foxbase等,沒(méi)有遇不到只有想不到。這個(gè)數(shù)據(jù)轉(zhuǎn)換、清洗、加載、抽取的過(guò)程就叫ETL。
可是問(wèn)題又出現(xiàn)了,在業(yè)務(wù)系統(tǒng)關(guān)心的是細(xì)節(jié)數(shù)據(jù),如某人當(dāng)月每次通話記錄,在數(shù)據(jù)倉(cāng)庫(kù)關(guān)心的匯總數(shù)據(jù),如某類人當(dāng)月通話次數(shù)。不能按照正常的數(shù)據(jù)庫(kù)設(shè)計(jì)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì),因?yàn)楹芏鄶?shù)據(jù)是決策層面的人不需要,而且數(shù)據(jù)量一大存儲(chǔ)就大,存儲(chǔ)大查詢就慢,查詢速度一慢數(shù)據(jù)倉(cāng)庫(kù)縱然有白好也一無(wú)是處了。于是就演變出來(lái)雪花模型和星型模型。星型模型是目前采用較多的模型。可以這樣理解星型模型的角就是group by的條件,中心的數(shù)據(jù)就是聚合的結(jié)果。將數(shù)據(jù)按照星型模型存儲(chǔ)起來(lái),作為數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)。
現(xiàn)在就差數(shù)據(jù)展現(xiàn)分析部分了,只要數(shù)據(jù)對(duì)客戶來(lái)說(shuō)沒(méi)有什么用。數(shù)據(jù)倉(cāng)庫(kù)有多種應(yīng)用如靜態(tài)報(bào)表、多維查詢、即席查詢、數(shù)據(jù)挖掘等等。可以簡(jiǎn)單的認(rèn)為我把多個(gè)維度一拼就是一個(gè)分析,比如我把聯(lián)通、北京、用戶數(shù)一組合就認(rèn)為聯(lián)通北京的用戶數(shù)是多少?當(dāng)然也可以一拆開聯(lián)通、用戶數(shù)認(rèn)為聯(lián)通的用戶數(shù)是多少?當(dāng)然你也許已經(jīng)知道了這就是數(shù)據(jù)立方,我只是從不同的角度看這個(gè)世界,看到的層面不一樣。
為了文章通俗,減少了數(shù)據(jù)倉(cāng)庫(kù)一些核心方面,比如數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理、數(shù)據(jù)安全、ODS、數(shù)據(jù)集市等介紹。 希望對(duì)大家有用。
數(shù)據(jù)倉(cāng)庫(kù)就是把不同數(shù)據(jù)庫(kù)的數(shù)據(jù)收集到一起,加以整理,主要用于做長(zhǎng)期趨勢(shì)分析 。也就是說(shuō)我們需要 從數(shù)據(jù)庫(kù)中把數(shù)據(jù)取過(guò)來(lái),加工下(規(guī)整下),存儲(chǔ)起來(lái),分析展現(xiàn)。下面就按這個(gè)過(guò)程亂彈下數(shù)據(jù)倉(cāng)庫(kù)。
首先要考慮我們需要什么數(shù)據(jù),換句話說(shuō)那些數(shù)據(jù)是值得集成的,那些數(shù)據(jù)是值得保留的。當(dāng)然這些需要客戶說(shuō)了算,看他們關(guān)心那些數(shù)據(jù),關(guān)心那些指標(biāo),關(guān)心數(shù)據(jù)的時(shí)間,希望以怎樣的方式展現(xiàn)。比如需要按月統(tǒng)計(jì)各類型手機(jī)用戶話費(fèi)類型比率。可以知道客戶需要有話費(fèi)類型、用戶類型、話費(fèi)金額、時(shí)間這些數(shù)據(jù)及數(shù)據(jù)的關(guān)系。這樣就有了簡(jiǎn)單的數(shù)據(jù)模型,知道我們需要什么數(shù)據(jù),數(shù)據(jù)之間的簡(jiǎn)單關(guān)系了。當(dāng)然也有人叫它企業(yè)數(shù)據(jù)模型,這個(gè)模型是有數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)的模型即面向主題的、與時(shí)間相關(guān)的。為了不落下不嚴(yán)密的口舌暫叫“簡(jiǎn)單企業(yè)模型”。
有了簡(jiǎn)單企業(yè)模型,我們就按圖索驥從業(yè)務(wù)系統(tǒng)中獲取數(shù)據(jù)了,可是你在A系統(tǒng)中叫張三、B系統(tǒng)中叫zhangsan、C系統(tǒng)中叫7。把這些數(shù)據(jù)整進(jìn)數(shù)據(jù)倉(cāng)庫(kù)也沒(méi)有辦法利用,沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),怎么查詢分析呀。這下應(yīng)該看出來(lái)了需要轉(zhuǎn)換數(shù)據(jù),按照統(tǒng)一的標(biāo)準(zhǔn)轉(zhuǎn)換。說(shuō)的通俗些需要統(tǒng)一的數(shù)據(jù)字典或編碼標(biāo)準(zhǔn),將各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換成為標(biāo)準(zhǔn)的數(shù)據(jù)。當(dāng)然實(shí)際情況復(fù)雜的多,需要將生數(shù)據(jù)進(jìn)行轉(zhuǎn)碼,轉(zhuǎn)類型甚至合并,補(bǔ)缺等等最終整成能用的數(shù)據(jù)或者叫熟數(shù)據(jù),加載入目的數(shù)據(jù)庫(kù)。源數(shù)據(jù)可能是xml、平面文件,oracle,foxbase等,沒(méi)有遇不到只有想不到。這個(gè)數(shù)據(jù)轉(zhuǎn)換、清洗、加載、抽取的過(guò)程就叫ETL。
可是問(wèn)題又出現(xiàn)了,在業(yè)務(wù)系統(tǒng)關(guān)心的是細(xì)節(jié)數(shù)據(jù),如某人當(dāng)月每次通話記錄,在數(shù)據(jù)倉(cāng)庫(kù)關(guān)心的匯總數(shù)據(jù),如某類人當(dāng)月通話次數(shù)。不能按照正常的數(shù)據(jù)庫(kù)設(shè)計(jì)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì),因?yàn)楹芏鄶?shù)據(jù)是決策層面的人不需要,而且數(shù)據(jù)量一大存儲(chǔ)就大,存儲(chǔ)大查詢就慢,查詢速度一慢數(shù)據(jù)倉(cāng)庫(kù)縱然有白好也一無(wú)是處了。于是就演變出來(lái)雪花模型和星型模型。星型模型是目前采用較多的模型。可以這樣理解星型模型的角就是group by的條件,中心的數(shù)據(jù)就是聚合的結(jié)果。將數(shù)據(jù)按照星型模型存儲(chǔ)起來(lái),作為數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)。
現(xiàn)在就差數(shù)據(jù)展現(xiàn)分析部分了,只要數(shù)據(jù)對(duì)客戶來(lái)說(shuō)沒(méi)有什么用。數(shù)據(jù)倉(cāng)庫(kù)有多種應(yīng)用如靜態(tài)報(bào)表、多維查詢、即席查詢、數(shù)據(jù)挖掘等等。可以簡(jiǎn)單的認(rèn)為我把多個(gè)維度一拼就是一個(gè)分析,比如我把聯(lián)通、北京、用戶數(shù)一組合就認(rèn)為聯(lián)通北京的用戶數(shù)是多少?當(dāng)然也可以一拆開聯(lián)通、用戶數(shù)認(rèn)為聯(lián)通的用戶數(shù)是多少?當(dāng)然你也許已經(jīng)知道了這就是數(shù)據(jù)立方,我只是從不同的角度看這個(gè)世界,看到的層面不一樣。
為了文章通俗,減少了數(shù)據(jù)倉(cāng)庫(kù)一些核心方面,比如數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理、數(shù)據(jù)安全、ODS、數(shù)據(jù)集市等介紹。 希望對(duì)大家有用。