元數(shù)據(jù)的定義就五字-數(shù)據(jù)的數(shù)據(jù),這種極度抽象的定義直接導(dǎo)致我們對(duì)元數(shù)據(jù)的認(rèn)知是極度抽象的,這種極度抽象就造成了元數(shù)據(jù)的神化,我想接下來(lái)要做的就是將元數(shù)據(jù)拉下神壇。
元數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù),我們一般采用數(shù)據(jù)模型對(duì)抽象定義數(shù)據(jù)及數(shù)據(jù)的關(guān)系,那么元數(shù)據(jù)一定也能被數(shù)據(jù)模型表述。那元數(shù)據(jù)的數(shù)據(jù)模型是什么樣的?它與數(shù)據(jù)的數(shù)據(jù)模型有哪些異同。目前元數(shù)據(jù)建模標(biāo)準(zhǔn)體系,我們一般采用OMG(請(qǐng)記住這個(gè)國(guó)際知名的標(biāo)準(zhǔn)化組織,因?yàn)槌嗽獢?shù)據(jù)模型標(biāo)準(zhǔn)外,它們還制定了MDA、UML、XMI等)的CWM標(biāo)準(zhǔn)。那么一個(gè)標(biāo)準(zhǔn)的元數(shù)據(jù)模型體系由什么組成呢,除了包外,每個(gè)元模型由管理、分析、資源、基礎(chǔ)和對(duì)象。管理是指數(shù)據(jù)倉(cāng)庫(kù)操作和過程;分析是指OLAP、數(shù)據(jù)挖掘、信息可視化、ETL;資源是指對(duì)象、關(guān)系、記錄、多維、XML;基礎(chǔ)是指業(yè)務(wù)信息、數(shù)據(jù)類型、表達(dá)式、鍵和索引、軟件部署、類型映射。介紹了這么如果你搞過業(yè)務(wù)智能你會(huì)明白CWM描述了整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的全部,如果你參與過我們的項(xiàng)目會(huì)知道,這是我們數(shù)據(jù)管控平臺(tái)的理論依據(jù)。那么數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)如何定義?數(shù)據(jù)移動(dòng)的元數(shù)據(jù)如何定義?數(shù)據(jù)分析的元數(shù)據(jù)如何定義?先挖坑以后慢慢填。
下面說(shuō)說(shuō)元數(shù)據(jù)如何管理如何應(yīng)用:首先是元數(shù)據(jù)獲取,元數(shù)據(jù)獲取的內(nèi)容包括分析元數(shù)據(jù)、數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)、數(shù)據(jù)轉(zhuǎn)換元數(shù)據(jù)等等,元數(shù)據(jù)獲取方式方式包括自動(dòng)獲取或手工獲取,當(dāng)然元數(shù)據(jù)獲取最難的是非結(jié)構(gòu)化元數(shù)據(jù)的獲取,但是也有解決的辦法只是這里存在獲取準(zhǔn)確度的問題,為了保證文檔的純潔性,我再次挖坑。其次是元數(shù)據(jù)倉(cāng)儲(chǔ),簡(jiǎn)單的說(shuō)包括數(shù)據(jù)庫(kù)表結(jié)構(gòu)如何存儲(chǔ),CUBE的結(jié)構(gòu)如何存儲(chǔ),ETL過程如何存儲(chǔ)等等,實(shí)際這是個(gè)模型的問題,但這純粹存儲(chǔ)模型的問題。同上,我再次挖坑。最后是元數(shù)據(jù)應(yīng)用,包括血緣分析、重要度分析、相似度分析等等。
最后說(shuō)下元數(shù)據(jù)管理的衍生業(yè)務(wù):一是元數(shù)據(jù)的質(zhì)量管理,這是個(gè)雞和蛋的問題,為了保證數(shù)據(jù)質(zhì)量我們引入元數(shù)據(jù)定義數(shù)據(jù)的質(zhì)量,但引入元數(shù)據(jù)后又要保證元數(shù)據(jù)的質(zhì)量;二是基于元數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)開發(fā),同志們baidu都有,我不說(shuō)了;三是基于元數(shù)據(jù)的安全管理,引入元數(shù)據(jù)除解決質(zhì)量問題外,就是密級(jí)問題;四是基于元數(shù)據(jù)的指標(biāo)體系管理。
挖了很多坑,終于理出元數(shù)據(jù)的脈絡(luò),當(dāng)然元數(shù)據(jù)管理系統(tǒng)也初見輪廓。
元數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù),我們一般采用數(shù)據(jù)模型對(duì)抽象定義數(shù)據(jù)及數(shù)據(jù)的關(guān)系,那么元數(shù)據(jù)一定也能被數(shù)據(jù)模型表述。那元數(shù)據(jù)的數(shù)據(jù)模型是什么樣的?它與數(shù)據(jù)的數(shù)據(jù)模型有哪些異同。目前元數(shù)據(jù)建模標(biāo)準(zhǔn)體系,我們一般采用OMG(請(qǐng)記住這個(gè)國(guó)際知名的標(biāo)準(zhǔn)化組織,因?yàn)槌嗽獢?shù)據(jù)模型標(biāo)準(zhǔn)外,它們還制定了MDA、UML、XMI等)的CWM標(biāo)準(zhǔn)。那么一個(gè)標(biāo)準(zhǔn)的元數(shù)據(jù)模型體系由什么組成呢,除了包外,每個(gè)元模型由管理、分析、資源、基礎(chǔ)和對(duì)象。管理是指數(shù)據(jù)倉(cāng)庫(kù)操作和過程;分析是指OLAP、數(shù)據(jù)挖掘、信息可視化、ETL;資源是指對(duì)象、關(guān)系、記錄、多維、XML;基礎(chǔ)是指業(yè)務(wù)信息、數(shù)據(jù)類型、表達(dá)式、鍵和索引、軟件部署、類型映射。介紹了這么如果你搞過業(yè)務(wù)智能你會(huì)明白CWM描述了整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的全部,如果你參與過我們的項(xiàng)目會(huì)知道,這是我們數(shù)據(jù)管控平臺(tái)的理論依據(jù)。那么數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)如何定義?數(shù)據(jù)移動(dòng)的元數(shù)據(jù)如何定義?數(shù)據(jù)分析的元數(shù)據(jù)如何定義?先挖坑以后慢慢填。
下面說(shuō)說(shuō)元數(shù)據(jù)如何管理如何應(yīng)用:首先是元數(shù)據(jù)獲取,元數(shù)據(jù)獲取的內(nèi)容包括分析元數(shù)據(jù)、數(shù)據(jù)倉(cāng)儲(chǔ)元數(shù)據(jù)、數(shù)據(jù)轉(zhuǎn)換元數(shù)據(jù)等等,元數(shù)據(jù)獲取方式方式包括自動(dòng)獲取或手工獲取,當(dāng)然元數(shù)據(jù)獲取最難的是非結(jié)構(gòu)化元數(shù)據(jù)的獲取,但是也有解決的辦法只是這里存在獲取準(zhǔn)確度的問題,為了保證文檔的純潔性,我再次挖坑。其次是元數(shù)據(jù)倉(cāng)儲(chǔ),簡(jiǎn)單的說(shuō)包括數(shù)據(jù)庫(kù)表結(jié)構(gòu)如何存儲(chǔ),CUBE的結(jié)構(gòu)如何存儲(chǔ),ETL過程如何存儲(chǔ)等等,實(shí)際這是個(gè)模型的問題,但這純粹存儲(chǔ)模型的問題。同上,我再次挖坑。最后是元數(shù)據(jù)應(yīng)用,包括血緣分析、重要度分析、相似度分析等等。
最后說(shuō)下元數(shù)據(jù)管理的衍生業(yè)務(wù):一是元數(shù)據(jù)的質(zhì)量管理,這是個(gè)雞和蛋的問題,為了保證數(shù)據(jù)質(zhì)量我們引入元數(shù)據(jù)定義數(shù)據(jù)的質(zhì)量,但引入元數(shù)據(jù)后又要保證元數(shù)據(jù)的質(zhì)量;二是基于元數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)開發(fā),同志們baidu都有,我不說(shuō)了;三是基于元數(shù)據(jù)的安全管理,引入元數(shù)據(jù)除解決質(zhì)量問題外,就是密級(jí)問題;四是基于元數(shù)據(jù)的指標(biāo)體系管理。
挖了很多坑,終于理出元數(shù)據(jù)的脈絡(luò),當(dāng)然元數(shù)據(jù)管理系統(tǒng)也初見輪廓。