數(shù)據(jù)倉庫很難寫清楚的,試試看能不能以亂彈的方式將它寫的通俗易懂,老少咸宜。
數(shù)據(jù)倉庫就是把不同數(shù)據(jù)庫的數(shù)據(jù)收集到一起,加以整理,主要用于做長期趨勢分析 。也就是說我們需要 從數(shù)據(jù)庫中把數(shù)據(jù)取過來,加工下(規(guī)整下),存儲起來,分析展現(xiàn)。下面就按這個(gè)過程亂彈下數(shù)據(jù)倉庫。
首先要考慮我們需要什么數(shù)據(jù),換句話說那些數(shù)據(jù)是值得集成的,那些數(shù)據(jù)是值得保留的。當(dāng)然這些需要客戶說了算,看他們關(guān)心那些數(shù)據(jù),關(guān)心那些指標(biāo),關(guān)心數(shù)據(jù)的時(shí)間,希望以怎樣的方式展現(xiàn)。比如需要按月統(tǒng)計(jì)各類型手機(jī)用戶話費(fèi)類型比率。可以知道客戶需要有話費(fèi)類型、用戶類型、話費(fèi)金額、時(shí)間這些數(shù)據(jù)及數(shù)據(jù)的關(guān)系。這樣就有了簡單的數(shù)據(jù)模型,知道我們需要什么數(shù)據(jù),數(shù)據(jù)之間的簡單關(guān)系了。當(dāng)然也有人叫它企業(yè)數(shù)據(jù)模型,這個(gè)模型是有數(shù)據(jù)倉庫特點(diǎn)的模型即面向主題的、與時(shí)間相關(guān)的。為了不落下不嚴(yán)密的口舌暫叫“簡單企業(yè)模型”。
有了簡單企業(yè)模型,我們就按圖索驥從業(yè)務(wù)系統(tǒng)中獲取數(shù)據(jù)了,可是你在A系統(tǒng)中叫張三、B系統(tǒng)中叫zhangsan、C系統(tǒng)中叫7。把這些數(shù)據(jù)整進(jìn)數(shù)據(jù)倉庫也沒有辦法利用,沒有統(tǒng)一的標(biāo)準(zhǔn),怎么查詢分析呀。這下應(yīng)該看出來了需要轉(zhuǎn)換數(shù)據(jù),按照統(tǒng)一的標(biāo)準(zhǔn)轉(zhuǎn)換。說的通俗些需要統(tǒng)一的數(shù)據(jù)字典或編碼標(biāo)準(zhǔn),將各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換成為標(biāo)準(zhǔn)的數(shù)據(jù)。當(dāng)然實(shí)際情況復(fù)雜的多,需要將生數(shù)據(jù)進(jìn)行轉(zhuǎn)碼,轉(zhuǎn)類型甚至合并,補(bǔ)缺等等最終整成能用的數(shù)據(jù)或者叫熟數(shù)據(jù),加載入目的數(shù)據(jù)庫。源數(shù)據(jù)可能是xml、平面文件,oracle,foxbase等,沒有遇不到只有想不到。這個(gè)數(shù)據(jù)轉(zhuǎn)換、清洗、加載、抽取的過程就叫ETL。
可是問題又出現(xiàn)了,在業(yè)務(wù)系統(tǒng)關(guān)心的是細(xì)節(jié)數(shù)據(jù),如某人當(dāng)月每次通話記錄,在數(shù)據(jù)倉庫關(guān)心的匯總數(shù)據(jù),如某類人當(dāng)月通話次數(shù)。不能按照正常的數(shù)據(jù)庫設(shè)計(jì)進(jìn)行數(shù)據(jù)倉庫的設(shè)計(jì),因?yàn)楹芏鄶?shù)據(jù)是決策層面的人不需要,而且數(shù)據(jù)量一大存儲就大,存儲大查詢就慢,查詢速度一慢數(shù)據(jù)倉庫縱然有白好也一無是處了。于是就演變出來雪花模型和星型模型。星型模型是目前采用較多的模型。可以這樣理解星型模型的角就是group by的條件,中心的數(shù)據(jù)就是聚合的結(jié)果。將數(shù)據(jù)按照星型模型存儲起來,作為數(shù)據(jù)倉庫的數(shù)據(jù)。
現(xiàn)在就差數(shù)據(jù)展現(xiàn)分析部分了,只要數(shù)據(jù)對客戶來說沒有什么用。數(shù)據(jù)倉庫有多種應(yīng)用如靜態(tài)報(bào)表、多維查詢、即席查詢、數(shù)據(jù)挖掘等等。可以簡單的認(rèn)為我把多個(gè)維度一拼就是一個(gè)分析,比如我把聯(lián)通、北京、用戶數(shù)一組合就認(rèn)為聯(lián)通北京的用戶數(shù)是多少?當(dāng)然也可以一拆開聯(lián)通、用戶數(shù)認(rèn)為聯(lián)通的用戶數(shù)是多少?當(dāng)然你也許已經(jīng)知道了這就是數(shù)據(jù)立方,我只是從不同的角度看這個(gè)世界,看到的層面不一樣。
為了文章通俗,減少了數(shù)據(jù)倉庫一些核心方面,比如數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理、數(shù)據(jù)安全、ODS、數(shù)據(jù)集市等介紹。 希望對大家有用。
數(shù)據(jù)倉庫就是把不同數(shù)據(jù)庫的數(shù)據(jù)收集到一起,加以整理,主要用于做長期趨勢分析 。也就是說我們需要 從數(shù)據(jù)庫中把數(shù)據(jù)取過來,加工下(規(guī)整下),存儲起來,分析展現(xiàn)。下面就按這個(gè)過程亂彈下數(shù)據(jù)倉庫。
首先要考慮我們需要什么數(shù)據(jù),換句話說那些數(shù)據(jù)是值得集成的,那些數(shù)據(jù)是值得保留的。當(dāng)然這些需要客戶說了算,看他們關(guān)心那些數(shù)據(jù),關(guān)心那些指標(biāo),關(guān)心數(shù)據(jù)的時(shí)間,希望以怎樣的方式展現(xiàn)。比如需要按月統(tǒng)計(jì)各類型手機(jī)用戶話費(fèi)類型比率。可以知道客戶需要有話費(fèi)類型、用戶類型、話費(fèi)金額、時(shí)間這些數(shù)據(jù)及數(shù)據(jù)的關(guān)系。這樣就有了簡單的數(shù)據(jù)模型,知道我們需要什么數(shù)據(jù),數(shù)據(jù)之間的簡單關(guān)系了。當(dāng)然也有人叫它企業(yè)數(shù)據(jù)模型,這個(gè)模型是有數(shù)據(jù)倉庫特點(diǎn)的模型即面向主題的、與時(shí)間相關(guān)的。為了不落下不嚴(yán)密的口舌暫叫“簡單企業(yè)模型”。
有了簡單企業(yè)模型,我們就按圖索驥從業(yè)務(wù)系統(tǒng)中獲取數(shù)據(jù)了,可是你在A系統(tǒng)中叫張三、B系統(tǒng)中叫zhangsan、C系統(tǒng)中叫7。把這些數(shù)據(jù)整進(jìn)數(shù)據(jù)倉庫也沒有辦法利用,沒有統(tǒng)一的標(biāo)準(zhǔn),怎么查詢分析呀。這下應(yīng)該看出來了需要轉(zhuǎn)換數(shù)據(jù),按照統(tǒng)一的標(biāo)準(zhǔn)轉(zhuǎn)換。說的通俗些需要統(tǒng)一的數(shù)據(jù)字典或編碼標(biāo)準(zhǔn),將各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換成為標(biāo)準(zhǔn)的數(shù)據(jù)。當(dāng)然實(shí)際情況復(fù)雜的多,需要將生數(shù)據(jù)進(jìn)行轉(zhuǎn)碼,轉(zhuǎn)類型甚至合并,補(bǔ)缺等等最終整成能用的數(shù)據(jù)或者叫熟數(shù)據(jù),加載入目的數(shù)據(jù)庫。源數(shù)據(jù)可能是xml、平面文件,oracle,foxbase等,沒有遇不到只有想不到。這個(gè)數(shù)據(jù)轉(zhuǎn)換、清洗、加載、抽取的過程就叫ETL。
可是問題又出現(xiàn)了,在業(yè)務(wù)系統(tǒng)關(guān)心的是細(xì)節(jié)數(shù)據(jù),如某人當(dāng)月每次通話記錄,在數(shù)據(jù)倉庫關(guān)心的匯總數(shù)據(jù),如某類人當(dāng)月通話次數(shù)。不能按照正常的數(shù)據(jù)庫設(shè)計(jì)進(jìn)行數(shù)據(jù)倉庫的設(shè)計(jì),因?yàn)楹芏鄶?shù)據(jù)是決策層面的人不需要,而且數(shù)據(jù)量一大存儲就大,存儲大查詢就慢,查詢速度一慢數(shù)據(jù)倉庫縱然有白好也一無是處了。于是就演變出來雪花模型和星型模型。星型模型是目前采用較多的模型。可以這樣理解星型模型的角就是group by的條件,中心的數(shù)據(jù)就是聚合的結(jié)果。將數(shù)據(jù)按照星型模型存儲起來,作為數(shù)據(jù)倉庫的數(shù)據(jù)。
現(xiàn)在就差數(shù)據(jù)展現(xiàn)分析部分了,只要數(shù)據(jù)對客戶來說沒有什么用。數(shù)據(jù)倉庫有多種應(yīng)用如靜態(tài)報(bào)表、多維查詢、即席查詢、數(shù)據(jù)挖掘等等。可以簡單的認(rèn)為我把多個(gè)維度一拼就是一個(gè)分析,比如我把聯(lián)通、北京、用戶數(shù)一組合就認(rèn)為聯(lián)通北京的用戶數(shù)是多少?當(dāng)然也可以一拆開聯(lián)通、用戶數(shù)認(rèn)為聯(lián)通的用戶數(shù)是多少?當(dāng)然你也許已經(jīng)知道了這就是數(shù)據(jù)立方,我只是從不同的角度看這個(gè)世界,看到的層面不一樣。
為了文章通俗,減少了數(shù)據(jù)倉庫一些核心方面,比如數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理、數(shù)據(jù)安全、ODS、數(shù)據(jù)集市等介紹。 希望對大家有用。