我的一畝三分地

            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
            7 隨筆 :: 0 文章 :: 17 評論 :: 0 Trackbacks
               先來說說ODS和數據倉庫的定義。ODS(Operate Data Store)是一個面向主題的、近實時的、可變的、當前的細節數據集合。數據倉庫(DW)是面向主題的、集成的、穩定的、隨時間變化的。從定義可以看出數據倉庫和ODS的異同。ODS和DW數據模型都是面向主題的,或者說兩者的數據模型是趨于一致,DW有輕度性匯總數據,當然也有提出DW是不存儲細節性數據的,這個不能一概而論,具體情況具體分析,在初期階段傾向于數據結構的一致。DW的數據是穩定的,歷史的(隨時間變化的),ODS的數據是近實時的,變化的(肯定的呀,越是實時的數據變化的可能性越大)。以前ODS陪太子讀書的地位正在發生變化,越來越傾向于建立ODS,而不是作為數據倉庫的可選部件。
            從下面可以看出ODS的重要性,由于ODS從功能上提供了數據緩沖區和企業數據統一視圖。
            1、數據緩沖區:緩沖區是為了降低從業務系統ETL數據的復雜度,比如當ODS某張表需要從多個業務系統抽取數據,可能需要現將數據抽取出來放在緩沖區里,在進行清洗、轉換等操作。緩沖區是個概念區域,由于ETL過程的復雜性可能一步到位不需要緩沖區也可能需要多個緩沖區。所以緩沖區是必須的。
            2、企業統一視圖區:在ODS里的數據除了為數據中心服務外,也為企業業務系統提供了數據共享接口(或者說為業務系統提供了共享的數據交換接口)。沒有數據中心的情況下如果獲取其他系統數據,我們需要專門做接口。有了數據中心就可以從數據中心的統一視圖區中獲取數據,相當對數據倉庫做了隔離。當然隔離或者緩沖不僅是從業務系統ETL的過程,還包括多級數據倉庫交換的視圖和隔離,為BI展現提供的數據庫的共享和隔離。
            3、其他功能:由于ODS提供的數據是近實時的,數據倉庫的數據是歷史的,ODS為數據分析提供了近實時的分析接口。數據倉庫的數據是相對滯后的可能是一個月以前的或者一年以前的。
            從ODS建設看,主要是兩個部分的建設
            1、統一編碼標準:各業務系統數據字典的編碼都各不相同,例如對于電壓等級,A系統是01,02,B系統是220,110,C系統是220kV,110kV等。顯然統一的編碼才是各個業務系統能夠共享數據的前提,也是數據倉庫能夠集成數據的前提,對于統一編碼的管理,是數據倉庫的核心,最好能有一個編碼系統,將編碼系統作為業務系統進行抽取是一個可行的方式。
            2、統一企業模型:這幾乎是數據倉庫或者ODS最為復雜的一塊,也是評價實施廠商成熟的關鍵指標。只有對行業業務有很深的積累才能提供成熟的、穩定的模型,ods模型的穩定也就是數據倉庫的穩定。顯然數據模型的建設不是一步到位的,是不斷積累的過程,成熟的數據模型能夠減少迭代的時間。
           
               
          posted on 2007-07-29 14:01 西北狼 閱讀(2197) 評論(2)  編輯  收藏 所屬分類: 開發技術

          評論

          # re: 亂彈數據倉庫(二)-ODS 2007-08-24 23:27 紫貓
          支持,堅持繼續啊~  回復  更多評論
            

          # re: 亂彈數據倉庫(二)-ODS 2007-12-24 16:20 xiangeliuATgmail.com
          關于統一企業模型,樓主有沒有相關的信息可以介紹下啊。  回復  更多評論
            

          主站蜘蛛池模板: 应城市| 米易县| 壶关县| 凉城县| 凌海市| 如东县| 永善县| 麦盖提县| 临清市| 梅州市| 宜宾县| 惠州市| 赣州市| 福清市| 乌兰察布市| 临邑县| 永年县| 文水县| 都安| 高唐县| 阿拉善左旗| 乌鲁木齐县| 攀枝花市| 宁国市| 印江| 竹山县| 长阳| 渝北区| 景东| 黎川县| 呈贡县| 鸡泽县| 江源县| 尤溪县| 胶州市| 遂川县| 大足县| 九江县| 林州市| 赣榆县| 淅川县|