數據倉庫的重點與要求是能夠準確、安全、可靠地從數據庫中取出數據,經過加工轉換成有規律信息之后,再供管理人員進行分析使用。數據倉庫主要是應用于決策支持系統,其主要目的是“提取”信息并加以擴展,用來進行處理基于數據倉庫的決策支持系統(DSS)的應用。
2 基于數據倉庫的決策支持系統(DSS)由三個部件組成:數據倉庫技術(Data warehousing),聯機分析處理技術(OLAP,On—Line Analytical Pro—cessing),數據挖掘技術(Data Mining)。
聯機分析處理(OLAP,On—Analytical Pro—cessing)是使分析人員、管理人員或執行人員能夠從多種角度對從原始數據中轉化出來的、能夠真正為用戶所理解的、并真實反映企業給特性的信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟件技術。OLAP的目標是滿足決策支持或多維環境特定的查詢和報表需求。數據倉庫側重于存儲和管理面向決策主題的數據;而OLAP側重于數據倉庫的數據分析,并將其轉換成輔助決策信息。OLA P的一個主要特點是多維數據分析,這與數據倉庫的多維數據組織正好形成相互結合、相互補充的關系。問此,利用OLAP技術與數據倉庫的結合可以較好地解決傳統決策支持系統既需要處理大量數據又需要進行大量數值計算的問題。
OLAP的多維數據分析主要通過對多維數據的維進行剖切、鉆取和旋轉來實現對數據庫所提供的數據進行深入分析,為決策者提供決策支持。多維結構是決策支持的支柱,也是OLAP的核心。
數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的。模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘可以看成是一種數據搜尋過程,它不必預先假設或提出問題,但是仍能找到那些非預期的卻令人關注的信息,這些信息表示了數據元素的關系和模式。它能挖掘出數據鍵潛在的模式(pattern),找出最有價值的信息和知識(knowledge)。指導商業行為或輔助科學研究。研究對象是大規模和超大規模的數據集合。
所謂主題,是指用戶使用數據倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數據倉庫內的信息是按主題進行組織的,而不是像業務支撐系統那樣是按照業務功能進行組織的。
所謂集成,是指數據倉庫中的信息不是從各個業務系統中簡單抽取出來的,而是經過一系列加工、整理和匯總的過程,因此數據倉庫中的信息是關于整個企業的一致的全局信息。
所謂隨時間變化,是指數據倉庫內的信息并不只是反映企業當前的狀態,而是記錄了從過去某一時點到當前各個階段的信息。通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
而信息本身相對穩定,是指一旦某個數據進入數據倉庫以后,一般很少進行修改,更多的是對信息進行查詢操作。
依據上面的定義,有人可能會把數據倉庫簡單地理解為僅僅是一個大型的數據存儲機制,是一個靜態的概念。實際上,數據倉庫更像一個過程,這個過程涉及數據的收集、整理和加工,生成決策所需要的信息,并且最終把這些信息提供給需要這些信息的使用者,供他們做出改善業務經營的正確決策。數據倉庫的重點與要求就是能夠準確、安全、可靠地從業務系統中取出數據,經過加工轉換成有規律信息之后,供管理人員進行分析使用。因此數據倉庫是一個動態的概念,應該稱為數據倉庫工程(Data Warehousing)。