數(shù)據(jù)倉(cāng)庫(kù)初探
數(shù)據(jù)倉(cāng)庫(kù)的概念
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。
1.面向主題:不同于操作型數(shù)據(jù)庫(kù),主題是個(gè)抽象概念,是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面。涉及業(yè)務(wù)流程的方方面面,而不像操作型數(shù)據(jù)庫(kù)一樣相互隔離。
2.集成的:操作型數(shù)據(jù)庫(kù)通常與某些特定的應(yīng)用相關(guān),而數(shù)據(jù)庫(kù)往往相互獨(dú)立,他們是異構(gòu)的。數(shù)據(jù)倉(cāng)庫(kù)是對(duì)原有的分散數(shù)據(jù)進(jìn)行了整合,進(jìn)行了數(shù)據(jù)類型轉(zhuǎn)化,消除了數(shù)據(jù)中的不一致性。
3.相對(duì)穩(wěn)定:數(shù)據(jù)倉(cāng)庫(kù)是穩(wěn)定的,由于要做企業(yè)分析決策之用,一般情況下將被長(zhǎng)期保留,以備日后參考查詢。而說(shuō)他是相對(duì)穩(wěn)定的是因?yàn)?,?shù)據(jù)倉(cāng)庫(kù)要保存歷史信息,以便反映某一事物的變化情況,作為分析決策的原始資料,所以數(shù)據(jù)倉(cāng)庫(kù)必須維護(hù)歷史信息,所以他是相對(duì)穩(wěn)定的。Write once, read many times.
4.反映歷史變化:以支持分析決策,由過(guò)去的發(fā)展歷程總結(jié)出規(guī)律,從而對(duì)未來(lái)作出合理的預(yù)測(cè)。
數(shù)據(jù)倉(cāng)庫(kù)環(huán)境
1.ETL:數(shù)據(jù)抽取、轉(zhuǎn)化和載入
2.OLAP:OnLine Analytical Processing Engine
3.DSS:決策支持系統(tǒng)
4.客戶分析與報(bào)表工具
5.其他數(shù)據(jù)收集和數(shù)據(jù)輸出工具
數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)架
數(shù)據(jù)倉(cāng)庫(kù)大體可以分為四個(gè)層次:
數(shù)據(jù)源、數(shù)據(jù)管理與存儲(chǔ)層、OLAP服務(wù)器和前端工具。
1.數(shù)據(jù)源:他是數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ),位于數(shù)據(jù)倉(cāng)庫(kù)構(gòu)架的最底層,是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)源泉。包括各個(gè)業(yè)務(wù)處理子系統(tǒng)的信息。
2.數(shù)據(jù)管理與存儲(chǔ)層:是數(shù)據(jù)倉(cāng)庫(kù)的核心。數(shù)據(jù)倉(cāng)庫(kù)如何高效管理數(shù)據(jù)是區(qū)別與面向操作數(shù)據(jù)庫(kù)的主要標(biāo)準(zhǔn)。完成按照主題管理數(shù)據(jù),聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫(kù)中。
3.OLAP服務(wù)器:對(duì)數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織。
4.前端工具:主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)挖掘工具等。
有關(guān)ETL
數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程一般都要經(jīng)過(guò)抽?。╡xtracted)、轉(zhuǎn)化(transformed)和載入(loaded)三個(gè)過(guò)程,這個(gè)過(guò)程被簡(jiǎn)稱為ETL。一般使用現(xiàn)有工具來(lái)實(shí)現(xiàn)ETL的過(guò)程。
1.E:數(shù)據(jù)抽取。在數(shù)據(jù)抽取的同時(shí),數(shù)據(jù)不能被修改。可以抽取的文件格式為:數(shù)據(jù)庫(kù)對(duì)象,比如表可以整個(gè)地從源系統(tǒng)中導(dǎo)出。比如,MS SQL Server 2000的bcp "select * from Northwind..customers" queryout "D:temp.txt"? -c -p -U"sa" -P"sa"。抽取過(guò)程為動(dòng)態(tài)抽取,即目標(biāo)有變化才抽取,不做無(wú)謂的工作而影響效率。一種實(shí)現(xiàn)的辦法就是加時(shí)間戳;另一種方法就是分別在不同的表中進(jìn)行描述。
2.T:數(shù)據(jù)轉(zhuǎn)化。即將數(shù)據(jù)從一個(gè)系統(tǒng)轉(zhuǎn)移到另外一個(gè)系統(tǒng)中。順序?yàn)椋涸聪到y(tǒng) -> staging database -> 數(shù)據(jù)倉(cāng)庫(kù) -> data mart。有三種方式:a.flat files(無(wú)范式) b.區(qū)分操作 c.使用交換分區(qū)。
3.L:數(shù)據(jù)輸入
其他
數(shù)據(jù)倉(cāng)庫(kù)不一定要用數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)
數(shù)據(jù)倉(cāng)庫(kù)不滿足第三范式,并且不滿足范式,他只含有“鍵(key)”。(第一范式:有主鍵,主觀上形象的看,是符合常理的分類或組織;第二范式:滿足第一范式,并且所有除主鍵之外的列都與所有的主鍵有關(guān)系;第三范式:滿足第二范式,并且所有除主鍵之外的列相互之間沒(méi)有關(guān)系)
posted on 2007-06-26 13:11 常言笑 閱讀(253) 評(píng)論(0) 編輯 收藏 所屬分類: 數(shù)據(jù)庫(kù)