我的一畝三分地

            BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
            7 隨筆 :: 0 文章 :: 17 評論 :: 0 Trackbacks

          2007年7月2日 #

          不少朋友抱怨我的博客晦澀難懂,實(shí)際元數(shù)據(jù)、主數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)分析已經(jīng)非常小眾了,小眾的以至于在ITPUB發(fā)博都找不到分類,實(shí)際這也是我看好它的原因。隨著未來智慧地球、物聯(lián)網(wǎng)的建設(shè),信息化進(jìn)程大大加快,需要虛擬化云計算)、IT資源監(jiān)管(數(shù)據(jù)資產(chǎn)、軟硬件資產(chǎn))、移動應(yīng)用。我們的小眾是屬于數(shù)據(jù)資產(chǎn)監(jiān)管中的一部分。

          上周挖了不少坑,本周先填一個坑,填元數(shù)據(jù)模型的坑。元數(shù)據(jù)模型簡稱元模型。元數(shù)據(jù)有哪幾類元數(shù)據(jù)模型就有幾類,粗分下分為數(shù)據(jù)移動(ETL)元數(shù)據(jù)、數(shù)據(jù)分析(BI)元數(shù)據(jù)、數(shù)據(jù)存儲元數(shù)據(jù),數(shù)據(jù)質(zhì)量元數(shù)據(jù)、數(shù)據(jù)管控元數(shù)據(jù)等。下面逐一介紹下這幾類元數(shù)據(jù):

          數(shù)據(jù)存儲元數(shù)據(jù)模型:要分結(jié)構(gòu)化和非結(jié)構(gòu)化兩種介紹,先說大家常見的結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)模型。我們知道描述數(shù)據(jù)庫信息需要Catalog、Schema、Table、View、Trigger和storage process,當(dāng)然一般把Trigger和SP理解為數(shù)據(jù)移動,這些元數(shù)據(jù)都有哪些屬性你可以看看power designer。對于非結(jié)構(gòu)化數(shù)據(jù)解決方案不多,因?yàn)閷τ诜墙Y(jié)構(gòu)化數(shù)據(jù)與查詢息息相關(guān),一般針對索引條件建立元數(shù)據(jù)模型。

          數(shù)據(jù)移動元數(shù)據(jù)模型:這一直是我思考的問題,參照主流ETL工具我們可以定義Workflow、Task、mapping、source、target等,記得source與target與數(shù)據(jù)存儲元數(shù)據(jù)模型可以互聯(lián)。Mapping要記錄source至target間的轉(zhuǎn)換過程。

          數(shù)據(jù)應(yīng)用元數(shù)據(jù)模型:主要考慮帶OLAP引擎的CUBE模型,主要有:Cube、Dimension、member Of、Hierarchy、Fact等。

          講到這里,基本解決了的元數(shù)據(jù)管理中元數(shù)據(jù)存儲和展示的問題。但這并是問題的本質(zhì),實(shí)質(zhì)是元數(shù)據(jù)模型與CWM之間的關(guān)系,但為了避免文章晦澀難懂,我跳過這些。

          posted @ 2010-09-12 23:15 西北狼 閱讀(197) | 評論 (0)編輯 收藏

          元數(shù)據(jù)的定義就五字-數(shù)據(jù)的數(shù)據(jù),這種極度抽象的定義直接導(dǎo)致我們對元數(shù)據(jù)的認(rèn)知是極度抽象的,這種極度抽象就造成了元數(shù)據(jù)的神化,我想接下來要做的就是將元數(shù)據(jù)拉下神壇。
              元數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù),我們一般采用數(shù)據(jù)模型對抽象定義數(shù)據(jù)及數(shù)據(jù)的關(guān)系,那么元數(shù)據(jù)一定也能被數(shù)據(jù)模型表述。那元數(shù)據(jù)的數(shù)據(jù)模型是什么樣的?它與數(shù)據(jù)的數(shù)據(jù)模型有哪些異同。目前元數(shù)據(jù)建模標(biāo)準(zhǔn)體系,我們一般采用OMG(請記住這個國際知名的標(biāo)準(zhǔn)化組織,因?yàn)槌嗽獢?shù)據(jù)模型標(biāo)準(zhǔn)外,它們還制定了MDA、UML、XMI等)的CWM標(biāo)準(zhǔn)。那么一個標(biāo)準(zhǔn)的元數(shù)據(jù)模型體系由什么組成呢,除了包外,每個元模型由管理、分析、資源、基礎(chǔ)和對象。管理是指數(shù)據(jù)倉庫操作和過程;分析是指OLAP、數(shù)據(jù)挖掘、信息可視化、ETL;資源是指對象、關(guān)系、記錄、多維、XML;基礎(chǔ)是指業(yè)務(wù)信息、數(shù)據(jù)類型、表達(dá)式、鍵和索引、軟件部署、類型映射。介紹了這么如果你搞過業(yè)務(wù)智能你會明白CWM描述了整個數(shù)據(jù)倉庫的全部,如果你參與過我們的項(xiàng)目會知道,這是我們數(shù)據(jù)管控平臺的理論依據(jù)。那么數(shù)據(jù)倉儲的元數(shù)據(jù)如何定義?數(shù)據(jù)移動的元數(shù)據(jù)如何定義?數(shù)據(jù)分析的元數(shù)據(jù)如何定義?先挖坑以后慢慢填。
               下面說說元數(shù)據(jù)如何管理如何應(yīng)用:首先是元數(shù)據(jù)獲取,元數(shù)據(jù)獲取的內(nèi)容包括分析元數(shù)據(jù)、數(shù)據(jù)倉儲元數(shù)據(jù)、數(shù)據(jù)轉(zhuǎn)換元數(shù)據(jù)等等,元數(shù)據(jù)獲取方式方式包括自動獲取或手工獲取,當(dāng)然元數(shù)據(jù)獲取最難的是非結(jié)構(gòu)化元數(shù)據(jù)的獲取,但是也有解決的辦法只是這里存在獲取準(zhǔn)確度的問題,為了保證文檔的純潔性,我再次挖坑。其次是元數(shù)據(jù)倉儲,簡單的說包括數(shù)據(jù)庫表結(jié)構(gòu)如何存儲,CUBE的結(jié)構(gòu)如何存儲,ETL過程如何存儲等等,實(shí)際這是個模型的問題,但這純粹存儲模型的問題。同上,我再次挖坑。最后是元數(shù)據(jù)應(yīng)用,包括血緣分析、重要度分析、相似度分析等等。
               最后說下元數(shù)據(jù)管理的衍生業(yè)務(wù):一是元數(shù)據(jù)的質(zhì)量管理,這是個雞和蛋的問題,為了保證數(shù)據(jù)質(zhì)量我們引入元數(shù)據(jù)定義數(shù)據(jù)的質(zhì)量,但引入元數(shù)據(jù)后又要保證元數(shù)據(jù)的質(zhì)量;二是基于元數(shù)據(jù)的數(shù)據(jù)倉庫開發(fā),同志們baidu都有,我不說了;三是基于元數(shù)據(jù)的安全管理,引入元數(shù)據(jù)除解決質(zhì)量問題外,就是密級問題;四是基于元數(shù)據(jù)的指標(biāo)體系管理。
                挖了很多坑,終于理出元數(shù)據(jù)的脈絡(luò),當(dāng)然元數(shù)據(jù)管理系統(tǒng)也初見輪廓。
          posted @ 2010-09-11 21:09 西北狼 閱讀(248) | 評論 (0)編輯 收藏

               摘要: 亂彈數(shù)據(jù)倉庫的第二彈,ODS的功能和作用。希望對大家有用  閱讀全文
          posted @ 2007-07-29 14:01 西北狼 閱讀(2197) | 評論 (2)編輯 收藏

               摘要: 關(guān)于客戶方面對軟件項(xiàng)目影響,最近也是遇到了幾個類似的項(xiàng)目,有感而發(fā)寫下來,希望對大家有用。  閱讀全文
          posted @ 2007-07-02 22:12 西北狼 閱讀(1034) | 評論 (1)編輯 收藏

          主站蜘蛛池模板: 芦山县| 陆良县| 阳城县| 布尔津县| 丁青县| 绥棱县| 全椒县| 镇坪县| 石家庄市| 博野县| 新昌县| 辽源市| 正定县| 辰溪县| 陈巴尔虎旗| 天峻县| 汝阳县| 大化| 武隆县| 孙吴县| 绵阳市| 海晏县| 桓台县| 乌鲁木齐县| 隆安县| 盐亭县| 阿图什市| 桂平市| 阳山县| 冷水江市| 邵阳县| 日喀则市| 从江县| 略阳县| 南木林县| 静安区| 容城县| 安塞县| 屯昌县| 临泉县| 博湖县|