Decode360's Blog

          業精于勤而荒于嬉 QQ:150355677 MSN:decode360@hotmail.com

            BlogJava :: 首頁 :: 新隨筆 :: 聯系 ::  :: 管理 ::
            397 隨筆 :: 33 文章 :: 29 評論 :: 0 Trackbacks
          主流數據倉庫架構簡析[轉]
          ?
          作者:Jerome?? 文章來源: http://www.chinabi.net/blog/user1/lastwood/index.html
          ?
          ?
          ??? 目前來說,數據倉庫架構比較成熟并已經形成理論的主要有兩個,一個是Corporate Information Factory,簡稱CIF,中文一般翻譯為企業信息工廠,代表人物是Bill Inmon。另一個是Mutildimensional Architecture,簡稱MD,中文一般翻譯為多維體系結構,代表人物是Ralph Kimball。
          ?
          ??? 企業信息工廠主要包括集成轉換層(Integrated and Transformation Layer)、操作數據存儲(Operational Data Store)、數據倉庫(Enterprise Data Warehouse)、數據集市(Data Mart)、探索倉庫(Exploration Warehouse)等部件。
          ?
          ??? 多維體系結構分為后臺(Back Room)和前臺(Front Room)兩部分。后臺主要負責數據準備工作,稱為數據準備區(Staging Area),前臺主要負責數據展示工作,稱為數據集市(Data Mart)。而數據倉庫是一個虛擬的部件,它指的是全部數據集市的集合。
          ?
          ??? 兩個數據倉庫架構各有優缺點,一種比較流行的做法是合用兩種架構,即建立CIF的數據倉庫和MD的數據集市。
          ?

          淺析企業信息工廠?
          ?
          ??? 數據倉庫領域里,有一種構建數據倉庫的架構,叫Corporate Information Factory,中文一般翻譯為“企業信息工廠”。企業信息工廠的創始人是數據倉庫之父Inmon。
          ?
          ??? 企業信息工廠主要包括集成轉換層(I&T)、操作數據存儲(ODS)、數據倉庫(EDW)、數據集市(DM)、探索倉庫(EW)等部件。這些部件有機的結合在一起,為企業提供信息服務。
          ?
          ??? 集成轉換層(I&T)的目的是將來自操作型源系統的數據集成轉換到數據倉庫中,它通常由一組程序組成,而其它部件如數據倉庫和數據集市等則主要由數據組成。 當業務數據來源多,業務復雜時,集成轉換層會建立一些臨時表,為數據處理提供方便。這時,集成轉換層包括程序和數據,也稱數據準備區(Data Staging Area)。通常中等規模及以上的數據倉庫系統都會建立數據準備區。
          ?
          ??? 操作數據存儲(ODS)是建立在數據準備區和數據倉庫之間的一個部件。用來滿足企業集成的、綜合的操作型處理需要。例如,出盡可能實時的集成的操作報表等需求。一般,也稱操作數據存儲是用來滿足企業戰術決策的需要。操作數據存儲是個可選的部件。
          ?
          ??? 數據倉庫(EDW)是企業信息工廠的核心部件,用來保存整個企業的數據。一般,也稱數據倉庫是用來滿足企業戰略決策的需要。數據倉庫的數據來自數據準備區和操作數據存儲。
          ?
          ??? 數據集市(DM)是為了滿足企業特定部門的分析需求而專門建立的數據的集合。數據集市的數據來源是數據倉庫。企業信息工廠中的數據集市一般來說是非規范化的、定制的和匯總的。而多維體系架構中的數據集市分為兩種,分別是原子數據集市和聚集數據集市。一般來說,企業信息工廠中的數據集市相當于多維體系架構中的聚集數據集市。
          ?
          ??? 探索倉庫(EW)或數據挖掘倉庫的建立主要是為了解決大型查詢,提高數據倉庫的效率。當有探索或挖掘需求時,會從數據倉庫導出一部分數據提供給他們操作。
          ?
          ??? 企業信息工廠中的數據流向一般是從源系統到數據準備區到操作數據存儲到數據倉庫到數據集市。當分析人員在數據倉庫或數據集市中得出分析結論后,會有信息的回流。這種信息回流有可能是物理數據的回流,也可能是直接改變業務部門的策略,總之,要將分析的結果應用起來。通過這種信息的回流,企業信息工廠的不同部件可以不斷的相互調整,最終找到一種平衡。這也是稱為企業信息工廠的原因。
          ?
          ?
          淺析多維體系結構

          ??? 數據倉庫領域里,有一種構建數據倉庫的架構,叫Multidimensional Architecture(MD),中文一般翻譯為“多維體系結構”,也稱為“總線架構”(Bus Architecture)。多維體系結構的創始人是數據倉庫領域中最有實踐經驗的Kimball博士。
          ?
          ??? 多維體系結構主要包括后臺(Back Room)和前臺(Front Room)兩部分。后臺也稱為數據準備區(Staging Area),是MD架構的最為核心的部件。在后臺,是一致性維度的產生、保存和分發的場所。同時,代理鍵也在后臺產生。
          ?
          ??? 前臺是MD架構對外的接口,包括兩種主要的數據集市,一種是原子數據集市,另一種是聚集數據集市。原子數據集市保存著最低粒度的細節數據,數據以星型結構來進行數據存儲。聚集數據集市的粒度通常比原子數據集市要高,和原子數據集市一樣,聚集數據集市也是以星型結構來進行數據存儲。前臺還包括像查詢管理、活動監控等為了提供數據倉庫的性能和質量的服務。
          ?
          ??? 在多維體系結構中,所有的這些基于星型機構來建立的數據集市可以在物理上存在于一個數據庫實例中,也可以分散在不同的機器上,而所有這些數據集市的集合組成的分布式的數據倉庫。
          ?
          ?
          ?
          posted on 2008-10-05 21:15 decode360 閱讀(255) 評論(0)  編輯  收藏 所屬分類: 11.BI
          主站蜘蛛池模板: 泾源县| 曲麻莱县| 正阳县| 清水县| 灌阳县| 昌江| 文安县| 班戈县| 宜川县| 南通市| 百色市| 通许县| 尉氏县| 宜阳县| 盖州市| 密云县| 湟源县| 泾源县| 江孜县| 新泰市| 阿鲁科尔沁旗| 肥东县| 沙田区| 思南县| 同江市| 铜梁县| 兰溪市| 万宁市| 河北省| 嘉祥县| 阿坝| 东台市| 同心县| 巴林右旗| 林州市| 南溪县| 东兴市| 盐亭县| 安顺市| 禄丰县| 石门县|