????
??? 數據源:是數據倉庫系統的基礎,是整個系統的數據源泉。通常包括企業內部信息和外部信息。內部信息包括存放于企業操作型數據庫中(通常存放在
RDBMS
中)的各種業務數據和辦公自動化(
OA
)系統包含的各類文檔數據。外部信息包括各類法律法規、市場信息、競爭對手的信息以及各類外部統計數據及各類文檔等;
????數據的存儲與管理:是整個數據倉庫系統的核心。在現有各業務系統的基礎上,對數據進行抽取、清理,并有效集成,按照主題進行重新組織,最終確定數據倉庫的物理存儲結構,同時組織存儲數據倉庫元數據(具體包括數據倉庫的數據字典、記錄系統定義、數據轉換規則、數據加載頻率以及業務規則等信息)。按照數據的覆蓋范圍,數據倉庫存儲可以分為企業級數據倉庫和部門級數據倉庫(通常稱為“數據集市”,Data Mart)。數據倉庫的管理包括數據的安全、歸檔、備份、維護、恢復等工作。這些功能與目前的DBMS基本一致。
????OLAP服務器:對分析需要的數據按照多維數據模型進行再次重組,以支持用戶多角度、多層次的分析,發現數據趨勢。其具體實現可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數據和聚合數據均存放在RDBMS之中;MOLAP基本數據和聚合數據均存放于多維數據庫中;而HOLAP是ROLAP與MOLAP的綜合,基本數據存放于RDBMS之中,聚合數據存放于多維數據庫中。
??
?
前端工具與應用:前端工具主要包括各種數據分析工具、報表工具、查詢工具、數據挖掘工具以及各種基于數據倉庫或數據集市開發的應用。其中數據分析工具主要針對
OLAP
服務器,報表工具、數據挖掘工具既針對數據倉庫,同時也針對
OLAP
服務器。
集線器與車輪狀結構的企業級數據倉庫
????這種結構也稱為“Hub and Spoke”,這是因為中央數據庫匯集了來自各業務處理系統的數據,同時也負責向各從屬數據集市提供信息,看上去像一個Hub (集線器);而業務人員在進行數據分析與信息訪問時將根據需要連接到不同的數據集市,這種交叉復雜的連接看上去就像Spoke(車輪輻條)一樣。?
?? ?“Hub and Spoke”結構解決了企業內統一數據存儲模型的問題,但從實際使用的角度來看仍有比較嚴重的缺陷:一是業務人員對信息的訪問非常不方便,很難進行跨數據集市或跨部門的信息分析;另一個問題是每個數據集市都需要相應的軟硬件投入,當數據集市增加時,系統整體投資迅速增加,同時管理的復雜性也隨之增加。這些都意味著巨大的整體擁有成本TCO(Total Cost of Ownership)。
????為什么不直接訪問中央數據倉庫而非要設計一個數據集市層呢?主要原因在于當中央數據庫保存越來越多的數據、并發用戶越來越多時,一般的數據庫引擎無法承擔這樣的負載,只好把它們分解到不同的數據集市。對于“Hub and Spoke”結構的數據倉庫, Gartner Group也認為,“數據倉庫的 Hub and Spoke結構,回避了DBMS技術中的弱點,無法提供適當的業務價值來平衡投資成本的顯著增加”,“之所以產生這種趨勢,是由于對大多數DBMS產品而言,支持復雜的數據模型和并發查詢負載都是極大的挑戰”。
????集中式企業級數據倉庫
????第二種企業級數據倉庫的架構是集中式的,這解決了“Hub and Spoke”結構中存在的諸多問題,是一種比較理想的企業級數據倉庫系統架構,能夠為企業帶來真正的業務價值與回報。但由于把詳細數據分析、部分的數據轉換與清洗等復雜處理均集中在中央數據倉庫,從而給作為數據倉庫引擎的RDBMS和相應的服務器帶來了極大的挑戰。選擇這種數據倉庫基礎平臺的基本要求是:
????1、線性擴展能力。原始數據對任何一個數據倉庫來說,都是最主要的負載之一。隨著數據量的增長,系統性能會逐漸下降。維持合理的業務查詢響應時間,要求數據倉庫引擎和相應的數據庫服務器具有優良的線性擴展能力。一些系統的擴展能力非常有限,當數據量增長到一定規模時(比如TB級以上),就很難滿足日常的業務分析要求了,因而不得不把數據分離到多個小規模的數據集市,形成所謂的“Hub and Spoke”結構。
????2、并行處理能力。許多業務查詢與分析都是動態的,數據庫傳統的索引技術對動態分析和模糊查詢的幫助不大。系統只有具有非常好的并行處理能力,才能滿足復雜的、動態的分析需求,并且承擔比較復雜的數據轉換與清洗工作。
????3、簡單的系統管理。對于大型的數據倉庫應用系統而言,如何能有效而簡單地進行系統管理是非常重要的。特別是當數據量不斷擴大時,如果沒有一種有效而且簡單的系統管理措施,那么系統的運行費用將會很高。
???
數據倉庫的實施是一個長期的過程,在基礎設施建立完成后,隨著應用的逐步開展和深入,其投資回報也逐步增加。在建立數據倉庫過程中需要一定的時間來建立數據倉庫基礎設施,并在建置的過程中逐步完善數據質量。這個打基礎的過程是無法省略的。更為重要的是,在建立數據倉庫的過程當中,還可以培養一批既懂數據倉庫技術、又精通該領域業務的高級分析人才,這對于更好地發揮數據倉庫價值是非常重要的
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。