
????? 什么叫數(shù)據(jù)挖掘(Data Mining)?關(guān)于定義,各人的說(shuō)法不一。基本上我們可以用一個(gè)例子講清楚:先給你一個(gè)大的數(shù)據(jù)集──假設(shè)你可以從中讀取數(shù)據(jù),下面的問(wèn)題是:從這里你可以得到什么?從某種角度來(lái)看,這是百分之百的統(tǒng)計(jì)分析工作,只是數(shù)據(jù)集太多的緣故罷了。但我們并不想忘記這些數(shù)據(jù)集是做 IT 的人這么多年來(lái)逐漸制造出來(lái)的,更何況他們對(duì)于如何有效而快速地存儲(chǔ)、選取和管理數(shù)據(jù),確是有一套真功夫。在 IT 的骨架上把統(tǒng)計(jì)的精髓放進(jìn)去,這的確是對(duì)現(xiàn)在這個(gè)信息時(shí)代的大挑戰(zhàn)。
時(shí)代變了,現(xiàn)在的數(shù)據(jù)來(lái)得既多又快還便宜,多到?jīng)]有人有時(shí)間去看的程度。這就如同我們的醫(yī)療體系。早先的醫(yī)生還要望聞問(wèn)切,在少量的數(shù)據(jù)中,設(shè)法提取、組合出最好的治療方案。現(xiàn)在則是一個(gè)名醫(yī),一上午要在門診醫(yī)治一百五十個(gè)病人以上。他只能憑某種算法、也就是經(jīng)驗(yàn)來(lái)看病:?jiǎn)栆粌蓚€(gè)問(wèn)題,聽(tīng)一兩個(gè)問(wèn)題,然后開(kāi)藥。這種對(duì)數(shù)據(jù)的不同的處理方式是數(shù)據(jù)挖掘和傳統(tǒng)的數(shù)據(jù)分析的主要區(qū)別。
說(shuō)實(shí)在的,我們已經(jīng)在某些方面具有相當(dāng)?shù)男畔⒒潭攘恕D闳ト魏我患裔t(yī)院看病,哪一個(gè)窗口沒(méi)放著一臺(tái)PC?醫(yī)生暗示你可以離開(kāi)的時(shí)候,值班的護(hù)士已經(jīng)在她的 PC 上鍵入了許多你的資料。于是你直接可以去劃價(jià)、取藥,連下一次的預(yù)約也有人安排好了。前天,我去醫(yī)院借了一張X光片,一位五十多歲的老職員用“一陽(yáng)指”在鍵盤上一步一個(gè)“腳印”地敲了不知多久,才輸入了該有的個(gè)人信息,然后大家就都松一口似地讓計(jì)算機(jī)去跑,最后當(dāng)然是拿到X光片。這時(shí)回顧身后,已排了一條長(zhǎng)龍。
這種情況,也暗示著目前信息社會(huì)的一類尷尬問(wèn)題:很多事情都還配不上如此快的計(jì)算機(jī)—老職員的手指速度固然配不上,我們做統(tǒng)計(jì)的人和現(xiàn)有的某些統(tǒng)計(jì)方法也配不上,甚至于很多統(tǒng)計(jì)觀念恐怕也都配不上。于是 IT 的人就跳進(jìn)來(lái)做了個(gè)項(xiàng)目:既然有了花大錢做出來(lái)的數(shù)據(jù)庫(kù),而且這么多年下來(lái)數(shù)據(jù)堆得滿坑滿谷,好歹要告訴出錢的老板“這有什么用”。于是,DM便應(yīng)運(yùn)而生了。
如何看待數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是先有了數(shù)據(jù)才興起的行業(yè)。我不想說(shuō)“學(xué)問(wèn)”,因?yàn)榈浆F(xiàn)在為止,我好像都看不到大學(xué)問(wèn)。數(shù)據(jù)挖掘能幫我做什么?不同的人有不同的看法,比較樂(lè)觀的是Berry and Linoff (1997) 的說(shuō)法:分析報(bào)告給你后見(jiàn)之明 (hindsight);統(tǒng)計(jì)分析給你先機(jī) (forESight);數(shù)據(jù)挖掘給你洞察力 (insight)。
這話說(shuō)得太強(qiáng),我不是那么地相信。因?yàn)檫@三者都是在既有的數(shù)據(jù)上做分析,在概念上應(yīng)該并無(wú)本質(zhì)區(qū)別,差別只是手上的數(shù)據(jù)集的大小和性質(zhì),因此,由方法的不同才有定義的不同。
較負(fù)面的理解來(lái)自Friedman (1997),他說(shuō):“Data mining is a commercial enterprise that seeks to mine the miners。(數(shù)據(jù)挖掘就是商業(yè)企業(yè)竭力去尋找挖掘者的過(guò)程。)”這句話有多少真實(shí)的成分,我并不清楚,但是酸味還是有一點(diǎn)的。在雅虎上鍵入“Data Mining”,立刻便找到一百五十多個(gè)網(wǎng)址。如果用GOOgle 搜尋,它在0.34秒內(nèi)就找到1,260,000項(xiàng)查詢結(jié)果。這是在方法論都還沒(méi)有成熟之前便已有大量商品充斥的情形。看起來(lái)真是商機(jī)無(wú)限。在另一方面,我卻在文獻(xiàn)上讀到:“…… while I apprECiate the importance of data mining, in practice the profit it brings hAS turned out to be surprisingly limited in many key businesses.(雖然我認(rèn)可數(shù)據(jù)挖掘重要性,事實(shí)上,在很多關(guān)鍵的業(yè)務(wù)中,它所帶來(lái)的利潤(rùn)已證明出奇有限。” (Kann 2000)
多半的數(shù)據(jù)庫(kù)在建造時(shí)都另有目的,并不是設(shè)計(jì)來(lái)給大家挖掘的。上帝給我們大海,也許只是想給我們鹽。現(xiàn)在鹽的利潤(rùn)有限,大家就拼命去提煉鈾,結(jié)果自然就不會(huì)十分理想。
我認(rèn)為,比較中肯的是 Hand et al. (2000) 的說(shuō)法:“Data mining is the process of seeking intereSTing or valuable infORMation in large data bases.(數(shù)據(jù)挖掘是一種在大型數(shù)據(jù)庫(kù)中尋找你感興趣或是有價(jià)值信息的過(guò)程。)”
挖掘需要“用心看”
DEMming (1943) 曾說(shuō)過(guò):“搜集數(shù)據(jù)的目的是為了行動(dòng)。”這是在數(shù)據(jù)的搜集并不便宜的時(shí)候所說(shuō)的話。現(xiàn)在要反過(guò)來(lái)看:已經(jīng)有了一大堆數(shù)據(jù),當(dāng)初只是為了搜集而搜集──因?yàn)榉凑毁F,而且說(shuō)不定某一天會(huì)有用─現(xiàn)在我們應(yīng)該問(wèn),這些數(shù)據(jù)可以提供怎樣的信息,能讓數(shù)據(jù)的所有者采取何種有效的行動(dòng)?我的意思是我們需要用心地去看這些數(shù)據(jù)。“用心看”有兩個(gè)角度:整體和局部。
從整體看: 模型
從整體的角度來(lái)看一個(gè)數(shù)據(jù)集,是靠統(tǒng)計(jì)學(xué)里面的抽樣方法就可以發(fā)揮得不錯(cuò)的。抽樣的要點(diǎn)是細(xì)化──用一組較小的、容易處理的精選的數(shù)據(jù)來(lái)反映整體。在這里我們可以做一大堆傳統(tǒng)的建模工作,但這里面最主要的觀念是抽樣。
例如 SAS 的Enterprise Miner軟件中所構(gòu)建出來(lái)的“表格”,就是全部數(shù)據(jù)的抽樣所得。從抽樣的觀點(diǎn)來(lái)看,數(shù)據(jù)量再多也不是問(wèn)題──它反而可使抽樣理論更加簡(jiǎn)單。在數(shù)據(jù)庫(kù)上抽樣,成本低,且沒(méi)有我們最頭痛的non-response(無(wú)反應(yīng))問(wèn)題。這一部分,可以說(shuō)是所有我們想做的理論和方法都十分成熟, 只要找一群還不錯(cuò)的人,將這些已知的事物組合包裝就好。在表格上做傳統(tǒng)分析,最后的結(jié)果當(dāng)然是一個(gè)可以用來(lái)描繪所有數(shù)據(jù)之間的關(guān)系的模型。
從局部看: 模式發(fā)現(xiàn)
從局部的角度來(lái)看數(shù)據(jù)挖掘,到目前為止,主要的目的是模式發(fā)現(xiàn)。這和我們常聽(tīng)到的模式識(shí)別頗有不同。用雷達(dá)找飛機(jī)的工作,算是后者──我們知道飛機(jī)是我們要找的對(duì)象。但是在數(shù)據(jù)挖掘中,我們?cè)谕ǔG闆r下并不知道我們要找的東西是什么。在技術(shù)上,這也不能通過(guò)抽樣的方法來(lái)做。模式是數(shù)據(jù)的局部結(jié)構(gòu),在這一部分,數(shù)據(jù)挖掘強(qiáng)調(diào)的方法是算法。數(shù)據(jù)一多,光憑人力是不能完全解決問(wèn)題的,我們只有靠明確的指令讓計(jì)算機(jī)一個(gè)一個(gè)幫我們找。那么在這里,我們就完全用不上統(tǒng)計(jì)方法嗎?也不盡然。在提取訓(xùn)練樣本(trAIning sAMple)的時(shí)候,我們是可以把實(shí)驗(yàn)設(shè)計(jì)的想法放進(jìn)去的。
編者按: 數(shù)據(jù)挖掘應(yīng)建立在聯(lián)機(jī)分析處理(On Line Analytical Processing,OLAP)的數(shù)據(jù)環(huán)境基礎(chǔ)之上,而數(shù)據(jù)倉(cāng)庫(kù)技術(shù)能夠滿足數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)環(huán)境的要求。它從OLTP系統(tǒng)、異構(gòu)分散的外部數(shù)據(jù)源、脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中獲取數(shù)據(jù)并進(jìn)行處理。
當(dāng)今數(shù)據(jù)容量規(guī)模已經(jīng)達(dá)到萬(wàn)億字節(jié)(TB)的水平。過(guò)量的數(shù)據(jù)被人們稱為信息爆炸,帶來(lái)的挑戰(zhàn)是:一方面規(guī)模龐大、紛繁復(fù)雜的數(shù)據(jù)體系讓使用者漫無(wú)頭緒、無(wú)從下手;另一方面在這些大量數(shù)據(jù)的背后卻隱藏著很多具有決策意義的有價(jià)值的信息。那么,如何發(fā)現(xiàn)這些有用的知識(shí),使之為管理決策和經(jīng)營(yíng)戰(zhàn)略發(fā)展服務(wù)?計(jì)算機(jī)科學(xué)給出的最新回答是:數(shù)據(jù)挖掘(Data Mining)。
一般說(shuō)來(lái),數(shù)據(jù)挖掘是一個(gè)利用各種分析方法和分析工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關(guān)系的過(guò)程,這些模型和關(guān)系可以用來(lái)做出決策和預(yù)測(cè)。支持大規(guī)模數(shù)據(jù)分析的方法和過(guò)程,選擇或者建立一種適合數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)環(huán)境是數(shù)據(jù)挖掘研究的重要課題之一。
建立適合的數(shù)據(jù)環(huán)境
數(shù)據(jù)挖掘應(yīng)建立在聯(lián)機(jī)分析處理(On Line Analytical Processing,OLAP)的數(shù)據(jù)環(huán)境基礎(chǔ)之上。數(shù)據(jù)挖掘?qū)Υ罅繑?shù)據(jù)的探索式分析的起點(diǎn)是OLAP。數(shù)據(jù)挖掘需要對(duì)大量數(shù)據(jù)進(jìn)行反復(fù)查詢操作,關(guān)心數(shù)據(jù)存取方式的方便性與可操作性。
聯(lián)機(jī)分析處理和傳統(tǒng)的聯(lián)機(jī)事務(wù)處理(On Line Transaction Processing, OLTP)是兩種性質(zhì)不同的數(shù)據(jù)處理方式。OLTP主要用來(lái)完成基礎(chǔ)業(yè)務(wù)數(shù)據(jù)的增、刪、改等操作,如民航訂票系統(tǒng)、銀行儲(chǔ)蓄系統(tǒng)等等,對(duì)響應(yīng)時(shí)間要求比較高,強(qiáng)調(diào)的是密集數(shù)據(jù)更新處理的性能和系統(tǒng)的可靠性及效率。而OLAP應(yīng)用是對(duì)用戶當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析、輔助領(lǐng)導(dǎo)決策,主要通過(guò)多維數(shù)據(jù)的查詢、旋轉(zhuǎn)、鉆取和切片等關(guān)鍵技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析和報(bào)表。
目前,多數(shù)企業(yè)內(nèi)部的數(shù)據(jù)狀況是分散的,業(yè)務(wù)數(shù)據(jù)往往被存放在缺乏統(tǒng)一設(shè)計(jì)和管理的異構(gòu)環(huán)境中,不易綜合查詢?cè)L問(wèn),而且還有大量的歷史數(shù)據(jù)處于脫機(jī)狀態(tài),不能在線集中存儲(chǔ)查詢。數(shù)據(jù)挖掘在對(duì)這些數(shù)據(jù)進(jìn)行分析前,必須對(duì)這些數(shù)據(jù)進(jìn)行不同程度的整合和清理,這是數(shù)據(jù)挖掘的首要環(huán)節(jié),但一般的OLTP系統(tǒng)的數(shù)據(jù)環(huán)境是不具備這種能力的。
因此,合理而科學(xué)的數(shù)據(jù)環(huán)境是確保數(shù)據(jù)挖掘有效和正確實(shí)施的基礎(chǔ)和關(guān)鍵。它需要支持OLAP數(shù)據(jù)系統(tǒng)與OLTP數(shù)據(jù)系統(tǒng)的分離,需要服務(wù)于數(shù)據(jù)挖掘總體目標(biāo)的數(shù)據(jù)再組織,需要有單獨(dú)的數(shù)據(jù)分析和數(shù)據(jù)處理環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)產(chǎn)品。
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的引入
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)能夠滿足數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)環(huán)境的要求。實(shí)際上,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)所要研究和解決的問(wèn)題就是從OLTP系統(tǒng)、異構(gòu)分散的外部數(shù)據(jù)源、脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中獲取數(shù)據(jù),處理后為數(shù)據(jù)分析和管理決策提供應(yīng)用服務(wù)。
公認(rèn)的數(shù)據(jù)倉(cāng)庫(kù)概念是W.H.Inmon在《建立數(shù)據(jù)倉(cāng)庫(kù)》一書(shū)中提出的:數(shù)據(jù)倉(cāng)庫(kù)就是面向主題的、集成的、不可更新的(穩(wěn)定性)隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程。
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向主題的,它與傳統(tǒng)數(shù)據(jù)庫(kù)中的面向應(yīng)用相對(duì)應(yīng)。數(shù)據(jù)倉(cāng)庫(kù)的主題是一個(gè)在較高層次上將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域;數(shù)據(jù)倉(cāng)庫(kù)的集成特性是指在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必須經(jīng)過(guò)數(shù)據(jù)加工和集成,這是建立數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵步驟。它能夠統(tǒng)一原始數(shù)據(jù)中的矛盾之處,還能夠?qū)⒃紨?shù)據(jù)結(jié)構(gòu)從面向應(yīng)用向面向主題轉(zhuǎn)變;數(shù)據(jù)倉(cāng)庫(kù)的穩(wěn)定性是指數(shù)據(jù)倉(cāng)庫(kù)反映的是歷史數(shù)據(jù)的內(nèi)容,而不是日常事務(wù)處理產(chǎn)生的數(shù)據(jù),數(shù)據(jù)經(jīng)加工和集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)后是極少或根本不修改的;數(shù)據(jù)倉(cāng)庫(kù)是不同時(shí)間的數(shù)據(jù)集合,它要求數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)保存時(shí)限能滿足進(jìn)行決策分析的需要,而且數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)都要標(biāo)明該數(shù)據(jù)的時(shí)間屬性。
需要指出的是,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)并不是最新的、專有的,而是來(lái)源于其它數(shù)據(jù)庫(kù)的。數(shù)據(jù)倉(cāng)庫(kù)的建立并不是要取代數(shù)據(jù)庫(kù),它要建立在一個(gè)較全面和完善的信息應(yīng)用的基礎(chǔ)上,用于支持高層決策分析,而原有的事務(wù)處理數(shù)據(jù)庫(kù)在總體數(shù)據(jù)環(huán)境中承擔(dān)的是日常基礎(chǔ)業(yè)務(wù)的處理任務(wù)。數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一種新的應(yīng)用,而且到目前為止,數(shù)據(jù)倉(cāng)庫(kù)大部分還是用關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)管理其中的數(shù)據(jù)。
與關(guān)系數(shù)據(jù)庫(kù)不同的是,數(shù)據(jù)倉(cāng)庫(kù)至今并沒(méi)有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),它更偏向于工程。由于數(shù)據(jù)倉(cāng)庫(kù)的這種工程特性,因而在技術(shù)上可以根據(jù)它的工作過(guò)程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。
◆ 數(shù)據(jù)的抽取
數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。在數(shù)據(jù)抽取方面,未來(lái)的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護(hù)。
◆ 數(shù)據(jù)的存儲(chǔ)和管理
數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉(cāng)庫(kù)管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而快速累積。在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫(kù)廠家提供的技術(shù)解決方案是擴(kuò)展關(guān)系型數(shù)據(jù)庫(kù)的功能,將普通關(guān)系數(shù)據(jù)庫(kù)改造成適合擔(dān)當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器。
◆數(shù)據(jù)的展現(xiàn)
在數(shù)據(jù)展現(xiàn)方面主要的方式有:
查詢:實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫(huà)技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的知識(shí)。
數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)融合發(fā)展
數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的協(xié)同工作,一方面,可以迎合和簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來(lái)源的廣泛性和完整性。另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中極為重要和相對(duì)獨(dú)立的方面和工具。
數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)是融合與互動(dòng)發(fā)展的,其學(xué)術(shù)研究?jī)r(jià)值和應(yīng)用研究前景將是令人振奮的。它是數(shù)據(jù)挖掘?qū)<摇?shù)據(jù)倉(cāng)庫(kù)技術(shù)人員和行業(yè)專家共同努力的成果,更是廣大渴望從數(shù)據(jù)庫(kù)“奴隸”到數(shù)據(jù)庫(kù)“主人”轉(zhuǎn)變的企業(yè)最終用戶的通途。