數(shù)據(jù)倉庫常見名詞淺釋 選擇自 foxnet2003 的 Blog
數(shù)據(jù)倉庫常見名詞淺釋Data Warehouse本世紀(jì)80年代中期,"數(shù)據(jù)倉庫之父"William H.Inmon先生在其《建立數(shù)據(jù)倉庫》一書中定義了數(shù)據(jù)倉庫的概念,隨后又給出了更為精確的定義:數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合。與其他數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫更像一種過程,對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程。而不是一種可以購買的產(chǎn)品。
Data mart數(shù)據(jù)集市,或者叫做"小數(shù)據(jù)倉庫"。如果說數(shù)據(jù)倉庫是建立在企業(yè)級(jí)的數(shù)據(jù)模型之上的話。那么數(shù)據(jù)集市就是企業(yè)級(jí)數(shù)據(jù)倉庫的一個(gè)子集,他主要面向部門級(jí)業(yè)務(wù),并且只是面向某個(gè)特定的主題。數(shù)據(jù)集市可以在一定程度上緩解訪問數(shù)據(jù)倉庫的瓶頸。
OLAP聯(lián)機(jī)分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。當(dāng)時(shí),Codd認(rèn)為聯(lián)機(jī)事務(wù)處理(OLTP)已不能滿足終端用戶對(duì)數(shù)據(jù)庫查詢分析的需要,SQL對(duì)大數(shù)據(jù)庫進(jìn)行的簡(jiǎn)單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。Codd提出OLAP的12條準(zhǔn)則來描述OLAP系統(tǒng):
準(zhǔn)則1 OLAP模型必須提供多維概念視圖
準(zhǔn)則2 透明性準(zhǔn)則
準(zhǔn)則3 存取能力推測(cè)
準(zhǔn)則4 穩(wěn)定的報(bào)表能力
準(zhǔn)則5 客戶/服務(wù)器體系結(jié)構(gòu)
準(zhǔn)則6 維的等同性準(zhǔn)則
準(zhǔn)則7 動(dòng)態(tài)的稀疏矩陣處理準(zhǔn)則
準(zhǔn)則8 多用戶支持能力準(zhǔn)則
準(zhǔn)則9 非受限的跨維操作
準(zhǔn)則10 直觀的數(shù)據(jù)操縱
準(zhǔn)則11 靈活的報(bào)表生成
準(zhǔn)則12 不受限的維與聚集層次
基于Codd的12條準(zhǔn)則,各個(gè)軟件開發(fā)廠家見仁見智,其中一個(gè)流派,認(rèn)為可以沿用關(guān)系型數(shù)據(jù)庫來存儲(chǔ)多維數(shù)據(jù),于是,基于稀疏矩陣表示方法的星型結(jié)構(gòu)(star schema)就出現(xiàn)了。后來又演化出雪花結(jié)構(gòu)。為了與多維數(shù)據(jù)庫相區(qū)別,則把基于關(guān)系型數(shù)據(jù)庫的OLAP稱為Relational OLAP,簡(jiǎn)稱ROLAP。代表產(chǎn)品有Informix Metacube、Microsoft SQL Server OLAP Services。MOLAPArbor Software嚴(yán)格遵照Codd的定義,自行建立了多維數(shù)據(jù)庫,來存放聯(lián)機(jī)分析系統(tǒng)數(shù)據(jù),開創(chuàng)了多維數(shù)據(jù)存儲(chǔ)的先河,后來的很多家公司紛紛采用多維數(shù)據(jù)存儲(chǔ)。被人們稱為Muiltdimension OLAP,簡(jiǎn)稱MOLAP,代表產(chǎn)品有Hyperion(原Arbor Software) Essbase、Showcase Strategy等。Client OLAP相對(duì)于Server OLAP而言。部分分析工具廠家建議把部分?jǐn)?shù)據(jù)下載到本地,為用戶提供本地的多維分析。代表產(chǎn)品有Brio Designer,Business Object。
DSS:決策支持系統(tǒng)(Decision Support System),相當(dāng)于基于數(shù)據(jù)倉庫的應(yīng)用。決策支持就是在收集所有有關(guān)數(shù)據(jù)和信息,經(jīng)過加工整理,來為企業(yè)決策管理層提供信息,為決策者的決策提供依據(jù)。
ETL:數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)的過程。構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。
Ad hoc query:即席查詢,數(shù)據(jù)庫應(yīng)用最普遍的一種查詢,利用數(shù)據(jù)倉庫技術(shù),可以讓用戶隨時(shí)可以面對(duì)數(shù)據(jù)庫,獲取所希望的數(shù)據(jù)。
EIS:領(lǐng)導(dǎo)信息系統(tǒng)(Executive Information System),指為了滿足無法專注于計(jì)算機(jī)技術(shù)的領(lǐng)導(dǎo)人員的信息查詢需求,而特意制定的以簡(jiǎn)單的圖形界面訪問數(shù)據(jù)倉庫的一種應(yīng)用。
BPR:業(yè)務(wù)流程重整(Business Process Reengineering),指利用數(shù)據(jù)倉庫技術(shù),發(fā)現(xiàn)并糾正企業(yè)業(yè)務(wù)流程中的弊端的一項(xiàng)工作,數(shù)據(jù)倉庫的重要作用之一。
BI:商業(yè)智能(Business Intelligence),指數(shù)據(jù)倉庫相關(guān)技術(shù)與應(yīng)用的通稱。指利用各種智能技術(shù),來提升企業(yè)的商業(yè)競(jìng)爭(zhēng)力。
Data Mining:數(shù)據(jù)挖掘,Data Mining是一種決策支持過程,它主要基于AI、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,預(yù)測(cè)客戶的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策
CRM:客戶關(guān)系管理(Customer Relationship Management),數(shù)據(jù)倉庫是以數(shù)據(jù)庫技術(shù)為基礎(chǔ)但又與傳統(tǒng)的數(shù)據(jù)庫應(yīng)用有著本質(zhì)區(qū)別的新技術(shù),CRM就是基于數(shù)據(jù)倉庫技術(shù)的一種新應(yīng)用。但是,從商業(yè)運(yùn)作的角度來講,CRM其實(shí)應(yīng)該算是一個(gè)古老的"應(yīng)用"了。比如,酒店對(duì)客人信息的管理,如果某個(gè)客人是某酒店的老主顧,那么該酒店很自然地會(huì)知道這位客人的某些習(xí)慣和喜好,如是否喜歡靠路邊,是否吸煙,是否喜歡大床,喜歡什么樣的早餐,等等。當(dāng)客人再次光臨時(shí),不用客人自己提出來,酒店就會(huì)提供客人所喜歡的房間和服務(wù)。這就是一種CRM。
Meta Data:元數(shù)據(jù),關(guān)于數(shù)據(jù)倉庫的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義,目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時(shí)元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息,所有這些信息都應(yīng)當(dāng)妥善保存,并很好地管理。為數(shù)據(jù)倉庫的發(fā)展和使用提供方便。
posted on 2005-06-03 09:11 Victor 閱讀(325) 評(píng)論(0) 編輯 收藏 所屬分類: 數(shù)據(jù)庫/倉庫