無為

          無為則可為,無為則至深!

            BlogJava :: 首頁 :: 聯系 :: 聚合  :: 管理
            190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks
          多數 BI 解決方案的好壞僅取決于用來提取、轉換數據以及將數據裝載到關系數據存儲中的方法。 ETL (數據的提取、轉換和加載)過程的設計和實現是數據倉庫解決方案中極其重要的一部分。 ETL 過程用于從多個源提取業(yè)務數據,清理數據,然后集成這些數據,并將它們裝入數據倉庫數據庫中,為數據分析做好準備。下面對 SQL SERVER DB2 數據倉庫設計中的 ETL 環(huán)節(jié)做個簡要的分析和對比:

          ?

          SQL Server 2000 DTS 數據轉換服務

          數據轉換服務是數據倉庫框架的一部分,可以與數據倉庫框架的所有元素進行交互。作為用于從 OLEDB ODBC 兼容數據源中完全提取異類數據(通過轉換操作數據并將其裝載到可分析的多維數據存儲中)的服務提供程序, DTS 在成功實現這些解決方案的過程中扮演了重要角色。 DTS 提供了以下功能,即提取異類數據、自動轉換數據以及支持將數據從 OLTP 架構裝載到采用維度模型的數據存儲的端到端進程。

          ?

          ?

          ?

          DB2 ETL 轉換過程

          ?

          DB2 中的 ETL 數據轉換操作大致可以分為 6 個模塊:數據的提取、驗證、清理、集成、聚集和裝入

          ?

          ?

          ?

          ETL 模塊

          ?

          ?

          數據提取

          數據提取是捕獲源數據的過程。有兩種捕獲數據的主要方法:

          1 )完全刷新:對移入中間數據庫的數據進行完全復制。該復制可能替換數據倉庫中的內容,及時在新的時間點上添加完整的新副本,或者與目標數據進行比較,以便在目標中生成一條修改記錄。

          2 )增量更新:只捕獲源數據中修改的數據,如何捕獲數據修改與數據源本身是密切相關的,實際上是逐個實現的問題。

          ?

          數據驗證

          在項目的業(yè)務數據分析階段,您產生了一組數據質量假設。這些假設將指定客戶和解決方案提供者雙方在數據質量問題上的職責。解決方案提供者通常關心數據清理和增強問題。客戶至少要關注僅僅可以在數據源本身中解決的問題,以及與解釋數據含義相關的數據質量問題。例如:

          (1)????????????? 丟失的數據恢復。

          (2)????????????? 模糊的數據轉換。

          (3)????????????? 業(yè)務操作應用程序相關的數據問題 —— 只能從應用程序本身解決的數據質量問題。

          您應該在項目合同文檔中包含 數據質量假設 ,因為如果沒有用正確的方法及時解決業(yè)務數據的質量問題,它可能嚴重影響項目時間表。數據質量假設可能是與客戶進行時間表協商的一個好基礎。數據驗證包含許多檢查,其中包括:

          (1)????????????? 屬性的有效值(域檢查)。

          (2)????????????? 屬性在剩余行的環(huán)境中是有效的。

          (3)????????????? 屬性在該表或其他表中相關行的環(huán)境中是有效的。

          (4)????????????? 關系在該表和其他表中的行間是有效的(外鍵檢查)。

          ?

          數據清理

          數據清理是清理有效數據,使之更精確更有意義的過程。數據清理包括下列等任務:

          (1)????????????? 從數據源的數據合并。

          (2)????????????? 域轉換和同步。

          (3)????????????? 數據類型和格式的轉換。

          (4)????????????? 用于不同目標表的數據分離。

          ?

          數據集成

          數據集成是將多個數據源聯合成一個統一數據接口來進行數據分析的過程 。數據集成是倉庫數據轉換過程中最重要的步驟,也是數據倉庫設計中的關鍵概念。

          數據集成可能極其復雜。在該模塊中,可以應用數據集成業(yè)務規(guī)則以及數據轉換邏輯和算法。集成過程的源數據可以來自兩個或更多數據源;它通常包含不同的連接操作。源數據還可能來自單個數據源;該類型的數據集成通常包含域值的合并和轉換。集成結果通常生成新的數據實體或屬性,易于終端用戶進行訪問和理解。

          ?

          ?

          ?

          數據聚集

          數據聚集是收集并以總結形式表達信息的過程。數據聚集通常是數據倉庫需求的一部分,它通常是以業(yè)務報表的形式出現的。

          在多維模型中,數據聚集路徑是維度表設計中的重要部分。在數據存儲庫或數據倉庫中,數據聚集的級別是逐個( case-by-case )確定的。因為數據倉庫幾乎仍然都是關系數據模型類型的,所以最好是建議您的客戶從數據集市構建業(yè)務報表。

          ?

          ?

          ?

          ?

          數據裝載

          將數據移至中心數據倉庫中的目標表通常是 ETL 過程的最后步驟。 裝入數據的最佳方法取決于所執(zhí)行操作的類型以及需要裝入多少數據。 您可以通過兩種基本方法在數據庫表中插入和修改數據:

          (1)????????????? SQL insert/update/delete

          (2)????????????? 成批 load 實用程序

          大多數應用程序使用 SQL IUD 操作,因為它們進行了日志記錄并且是可恢復的。但是,成批加載操作易于使用,并且在裝入大量數據時速度極快。使用哪種數據裝入方法取決于業(yè)務環(huán)境。



          凡是有該標志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
          、轉載請注明來處和原文作者。非常感謝。

          posted on 2006-05-25 21:39 草兒 閱讀(199) 評論(0)  編輯  收藏 所屬分類: BI and DM
          主站蜘蛛池模板: 苏尼特右旗| 靖江市| 理塘县| 梨树县| 明星| 鹤峰县| 丽江市| 侯马市| 莱州市| 新和县| 邮箱| 巩留县| 班戈县| 清原| 定州市| 凌海市| 宁蒗| 康保县| 华坪县| 双峰县| 滨海县| 保定市| 区。| 延安市| 浏阳市| 珲春市| 女性| 钟山县| 玉龙| 青州市| 墨竹工卡县| 临朐县| 水富县| 涿州市| 周宁县| 浦县| 宁南县| 黎平县| 介休市| 铁力市| 衡东县|