無為

          無為則可為,無為則至深!

            BlogJava :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
            190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks
          1. 前言
            在事務處理系統(tǒng)中的數(shù)據(jù),主要用于記錄和查詢業(yè)務情況。隨著數(shù)據(jù)倉庫(DW)技術(shù)的不斷成熟,企業(yè)的數(shù)據(jù)逐漸變成了決策的主要依據(jù)。數(shù)據(jù)倉庫是一種面向決策主題、由多數(shù)據(jù)源集成、擁有當前及歷史總結(jié)數(shù)據(jù)、以讀為主的數(shù)據(jù)庫系統(tǒng),其目的是支持決策。數(shù)據(jù)倉庫要根據(jù)決策的需要收集來自企業(yè)內(nèi)外的有關(guān)數(shù)據(jù),并加以適當?shù)慕M織處理,使其能有效地為決策過程提供信息。數(shù)據(jù)倉庫中的數(shù)據(jù)是從許多業(yè)務處理系統(tǒng)中抽取、轉(zhuǎn)換而來,對于這樣一個復雜的企業(yè)數(shù)據(jù)環(huán)境,如何以安全、高效的方式來對它們進行管理和訪問就變得尤為重要。解決這一問題的關(guān)鍵是對元數(shù)據(jù)進行科學有效的管理。元數(shù)據(jù)是關(guān)于數(shù)據(jù)、操縱數(shù)據(jù)的進程和應用程序的結(jié)構(gòu)和意義的描述信息,其主要目標是提供數(shù)據(jù)資源的全面指南。元數(shù)據(jù)不僅定義了數(shù)據(jù)倉庫中數(shù)據(jù)的模式、來源以及抽取和轉(zhuǎn)換規(guī)則等,而且整個數(shù)據(jù)倉庫系統(tǒng)的運行都是基于元數(shù)據(jù)的,是元數(shù)據(jù)把數(shù)據(jù)倉庫系統(tǒng)中的各個松散的組件聯(lián)系起來,組成了一個有機的整體。
            本文首先介紹了元數(shù)據(jù)的定義、作用和意義;然后討論了數(shù)據(jù)倉庫系統(tǒng)中元數(shù)據(jù)管理的現(xiàn)狀和關(guān)于元數(shù)據(jù)的標準化情況;最后提出了建立元數(shù)據(jù)管理系統(tǒng)的步驟和實施方法。
            
            2. 元數(shù)據(jù)
            2.1 元數(shù)據(jù)的概念
            按照傳統(tǒng)的定義,元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫管理員和數(shù)據(jù)倉庫的開發(fā)人員非常方便地找到他們所關(guān)心的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),可將其按用途的不同分為兩類:技術(shù)元數(shù)據(jù)(Technical Metadata)和業(yè)務元數(shù)據(jù)(Business Metadata)。
            技術(shù)元數(shù)據(jù)是存儲關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它主要包括以下信息:
            ? 數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)和導出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;
            ? 業(yè)務系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式;
            ? 匯總用的算法,包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚集、匯總、預定義的查詢與報告;
            ? 由操作環(huán)境到數(shù)據(jù)倉庫環(huán)境的映射,包括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清理、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則、安全(用戶授權(quán)和存取控制)。
            業(yè)務元數(shù)據(jù)從業(yè)務角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實際系統(tǒng)之間的語義層,使得不懂計算機技術(shù)的業(yè)務人員也能夠“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。業(yè)務元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務術(shù)語所表達的數(shù)據(jù)模型、對象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;系統(tǒng)所提供的分析方法以及公式和報表的信息;具體包括以下信息:
            ? 企業(yè)概念模型:這是業(yè)務元數(shù)據(jù)所應提供的重要的信息,它表示企業(yè)數(shù)據(jù)模型的高層信息、整個企業(yè)的業(yè)務概念和相互關(guān)系。以這個企業(yè)模型為基礎,不懂數(shù)據(jù)庫技術(shù)和SQL語句的業(yè)務人員對數(shù)據(jù)倉庫中的數(shù)據(jù)也能做到心中有數(shù)。
            ? 多維數(shù)據(jù)模型:這是企業(yè)概念模型的重要組成部分,它告訴業(yè)務分析人員在數(shù)據(jù)集市當中有哪些維、維的類別、數(shù)據(jù)立方體以及數(shù)據(jù)集市中的聚合規(guī)則。這里的數(shù)據(jù)立方體表示某主題領(lǐng)域業(yè)務事實表和維表的多維組織形式。
            ? 業(yè)務概念模型和物理數(shù)據(jù)之間的依賴:以上提到的業(yè)務元數(shù)據(jù)只是表示出了數(shù)據(jù)的業(yè)務視圖,這些業(yè)務視圖與實際的數(shù)據(jù)倉庫或數(shù)據(jù)庫、多維數(shù)據(jù)庫中的表、字段、維、層次等之間的對應關(guān)系也應該在元數(shù)據(jù)知識庫中有所體現(xiàn)。
            
            2.2 元數(shù)據(jù)的作用
            在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)機制主要支持以下五類系統(tǒng)管理功能:(1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;(2)定義要進入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù);(3)記錄根據(jù)業(yè)務事件發(fā)生而隨之進行的數(shù)據(jù)抽取工作時間安排;(4)記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;(5)衡量數(shù)據(jù)質(zhì)量。
            與其說數(shù)據(jù)倉庫是軟件開發(fā)項目,還不如說是系統(tǒng)集成項目[1],因為它的主要工作是把所需的數(shù)據(jù)倉庫工具集成在一起,完成數(shù)據(jù)的抽取、轉(zhuǎn)換和加載,OLAP分析和數(shù)據(jù)挖掘等。如圖1所示,它的典型結(jié)構(gòu)由操作環(huán)境層、數(shù)據(jù)倉庫層和業(yè)務層等組成。
            
            其中,第一層(操作環(huán)境層)是指整個企業(yè)內(nèi)有關(guān)業(yè)務的OLTP系統(tǒng)和一些外部數(shù)據(jù)源;第二層是通過把第一層的相關(guān)數(shù)據(jù)抽取到一個中心區(qū)而組成的數(shù)據(jù)倉庫層;第三層是為了完成對業(yè)務數(shù)據(jù)的分析而由各種工具組成的業(yè)務層。圖中左邊的部分是元數(shù)據(jù)管理,它起到了承上啟下的作用,具體體現(xiàn)在以下幾個方面:
            ? 便于集成
            ? 提高系統(tǒng)的靈活性
            ? 保證數(shù)據(jù)的質(zhì)量
            ? 幫助用戶理解數(shù)據(jù)的意義
            
            3. 數(shù)據(jù)倉庫元數(shù)據(jù)管理現(xiàn)狀
            元數(shù)據(jù)管理的主要任務有兩個方面:一是負責存儲和維護元數(shù)據(jù)庫中的元數(shù)據(jù);二是負責數(shù)據(jù)倉庫建模工具、數(shù)據(jù)獲取工具、前端工具等之間的消息傳遞,協(xié)調(diào)各模塊和工具之間的工作。
            由以上幾節(jié)我們了解到元數(shù)據(jù)幾乎可以被稱為是數(shù)據(jù)倉庫乃至商業(yè)智能(BI)系統(tǒng)的“靈魂”,正是由于元數(shù)據(jù)在整個數(shù)據(jù)倉庫生命周期中有著重要的地位,各個廠商的數(shù)據(jù)倉庫解決方案都提到了關(guān)于對元數(shù)據(jù)的管理。但遺憾的是對于元數(shù)據(jù)的管理,各個解決方案都沒有明確提出一個完整的管理模式;它們提供的僅僅是對特定的局部元數(shù)據(jù)的管理。當前市場上與元數(shù)據(jù)有關(guān)的主要工具見圖2。
            
            如圖2所示,與元數(shù)據(jù)相關(guān)的數(shù)據(jù)倉庫工具大致可分為四類:
            1. 數(shù)據(jù)抽取工具:把業(yè)務系統(tǒng)中的數(shù)據(jù)抽取、轉(zhuǎn)換、集成到數(shù)據(jù)倉庫中,如Ardent的DataStage、CA(原Platinum)的Decision Base和ETI的Extract等。這些工具僅提供了技術(shù)元數(shù)據(jù),幾乎沒有提供對業(yè)務元數(shù)據(jù)的支持。
            2. 前端展現(xiàn)工具:包括OLAP分析、報表和商業(yè)智能工具等,如MicroStrategy的DSS Agent、Cognos的PowerPlay、Business Objects的BO,以及Brio等。它們通過把關(guān)系表映射成與業(yè)務相關(guān)的事實表和維表來支持多維業(yè)務視圖,進而對數(shù)據(jù)倉庫中的數(shù)據(jù)進行多維分析。這些工具都提供了業(yè)務元數(shù)據(jù)與技術(shù)元數(shù)據(jù)相對應的語義層。
            3. 建模工具:為非技術(shù)人員準備的業(yè)務建模工具,這些工具可以提供更高層的與特定業(yè)務相關(guān)的語義。如CA的ERwin、Sysbase的PowerDesigner以及Rational的Rose等。
            4. 元數(shù)據(jù)存儲工具:元數(shù)據(jù)通常存儲在專用的數(shù)據(jù)庫中,該數(shù)據(jù)庫就如同一個“黑盒子”,外部無法知道這些工具所用到和產(chǎn)生的元數(shù)據(jù)是如何存儲的。還有一類被稱為元數(shù)據(jù)知識庫(Metadata Repository)的工具,它們獨立于其它工具,為元數(shù)據(jù)提供一個集中的存儲空間。包括微軟的Repository,CA的Repository,Ardent的MetaStage和Sybase的WCC等。
            
            4. 元數(shù)據(jù)管理的標準化
            沒有規(guī)矩不成方圓。元數(shù)據(jù)管理之所以困難,一個很重要的原因就是缺乏統(tǒng)一的標準。在這種情況下,各公司的元數(shù)據(jù)管理解決方案各不相同。近幾年,隨著元數(shù)據(jù)聯(lián)盟MDC(Meta Data Coalition)的開放信息模型OIM(Open Information Model)和OMG組織的公共倉庫模型CWM(Common Warehouse Model)標準的逐漸完善,以及MDC和OMG組織的合并,為數(shù)據(jù)倉庫廠商提供了統(tǒng)一的標準,從而為元數(shù)據(jù)管理鋪平了道路。
            從元數(shù)據(jù)的發(fā)展歷史不難看出,元數(shù)據(jù)管理主要有兩種方法:
            (1) 對于相對簡單的環(huán)境,按照通用的元數(shù)據(jù)管理標準建立一個集中式的元數(shù)據(jù)知識庫。
            (2) 對于比較復雜的環(huán)境,分別建立各部分的元數(shù)據(jù)管理系統(tǒng),形成分布式元數(shù)據(jù)知識庫,然后,通過建立標準的元數(shù)據(jù)交換格式,實現(xiàn)元數(shù)據(jù)的集成管理。

          凡是有該標志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
          、轉(zhuǎn)載請注明來處和原文作者。非常感謝。

          posted on 2006-08-14 16:07 草兒 閱讀(523) 評論(0)  編輯  收藏 所屬分類: 軟件構(gòu)架
          主站蜘蛛池模板: 视频| 深州市| 阆中市| 班戈县| 青冈县| 乌兰察布市| 湟源县| 柯坪县| 长泰县| 元氏县| 宜都市| 长阳| 巧家县| 满洲里市| 琼结县| 都安| 斗六市| 荣成市| 梓潼县| 沧源| 江孜县| 华坪县| 于田县| 奉贤区| 百色市| 大关县| 邛崃市| 定陶县| 哈尔滨市| 曲沃县| 句容市| 柳林县| 攀枝花市| 昌吉市| 沂源县| 桓台县| 鹤庆县| 扬中市| 兰考县| 永胜县| 五台县|