一、
時代的挑戰(zhàn)
檛犫虎鏈?d ?
近十幾年來
,
人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高
,
千萬萬個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等
,
這一勢頭仍將持續(xù)發(fā)展下去。于是
,
一個新的挑戰(zhàn)被提了出來
:
在這被稱之為信息爆炸的時代
,
信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒
,
從中及時發(fā)現(xiàn)有用的知識
,
提高信息利用率呢
?
要想使數(shù)據(jù)真正成為一個公司的資源
,
只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行
,
否則大量的數(shù)據(jù)可能成為包袱
,
甚至成為垃圾。因此
,
面對
"
人們被數(shù)據(jù)淹沒
,
人們卻饑餓于知識
"
的挑戰(zhàn)
,
數(shù)據(jù)挖掘和知識發(fā)現(xiàn)
(DMKD)
技術(shù)應(yīng)運而生
,
并得以蓬勃發(fā)展
,
越來越顯示出其強大的生命力。
學(xué)畑??y??
[[潚;w:??
數(shù)據(jù)挖掘
(Data Mining)
就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中
,
提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。還有很多和這一術(shù)語相近似的術(shù)語
,
如從數(shù)據(jù)庫中發(fā)現(xiàn)知識
(KDD)
、數(shù)據(jù)分析、數(shù)據(jù)融合
(Data Fusion)
以及決策支持等。人們把原始數(shù)據(jù)看作是形成知識的源泉
,
就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的
,
如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)
,
也可以是半結(jié)構(gòu)化的
,
如文本、圖形、圖像數(shù)據(jù)
,
甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的
,
也可以是非數(shù)學(xué)的
;
可以是演繹的
,
也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等
,
還可以用于數(shù)據(jù)自身的維護。因此
,
數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科
,
它匯聚了不同領(lǐng)域的研究者
,
尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員。
癅7景鞬L??
墐販!U;徫l ?
特別要指出的是
,
數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用
,
而且要對這些數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理
,
以指導(dǎo)實際問題的求解
,
企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián)
,
甚至利用已有的數(shù)據(jù)對未來的活動進行預(yù)測。
4i}y櫂w? ?
)蕊V吱膣I ?
二、
研究現(xiàn)狀
峻6&?琟 ?
+ P%閼???
KDD
一詞首次出現(xiàn)在
1989
年
8
月舉行的第
11
屆國際聯(lián)合人工智能學(xué)術(shù)會議上。迄今為止
,
由美國人工智能協(xié)會主辦的
KDD
國際研討會已經(jīng)召開了
7
次
,
規(guī)模由原來的專題討論會發(fā)展到國際學(xué)術(shù)大會
,
人數(shù)由二三十人到七八百人
,
論文收錄比例從
2X1
到
6X1,
研究重點也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用
,
并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成
,
以及多種學(xué)科之間的相互滲透。其他內(nèi)容的專題會議也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為議題之一
,
成為當(dāng)前計算機科學(xué)界的一大熱點。
此外
,
數(shù)據(jù)庫、人工智能、信息處理、知識工程等領(lǐng)域的國際學(xué)術(shù)刊物也紛紛開辟了
KDD
專題或?qū)??/span>
IEEE
的
Knowledge and Data Engineering
會刊領(lǐng)先在
1993
年出版了
KD D
技術(shù)???/span>
,
所發(fā)表的
5
篇論文代表了當(dāng)時
KDD
研究的最新成果和動態(tài)
,
較全面地論述了
KDD
系統(tǒng)方法論、發(fā)現(xiàn)結(jié)果的評價、
KDD
系統(tǒng)設(shè)計的邏輯方法
,
集中討論了鑒于數(shù)據(jù)庫的動態(tài)性冗余、高噪聲和不確定性、空值等問題
,KDD
系統(tǒng)與其它傳統(tǒng)的機器學(xué)習(xí)、專家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計分析系統(tǒng)的聯(lián)系和區(qū)別
,
以及相應(yīng)的基本對策。
6
篇論文摘要展示了
KDD
在從建立分子模型到設(shè)計制造業(yè)的具體應(yīng)用。
? 瑞奔身?靬 ?
?烪?餌[5 ?
不僅如此
,
在
Internet
上還有不少
KDD
電子出版物
,
其中以半月刊
Knowledge Discove ryNuggets
最為權(quán)威
,
另一份在線周刊為
DS*(DS
代表決策支持
),1997
年
10
月
7
日開始出版。在網(wǎng)上
,
還有一個自由論壇
DM Email Club,
人們通過電子郵件相互討論
DMKD
的熱點問題。而領(lǐng)導(dǎo)整個潮流的
DMKD
開發(fā)和研究中心
,
當(dāng)數(shù)設(shè)在美國
EMDEN
的
IBM
公司開發(fā)部。
至于
DMKD
書籍
,
可以在任何計算機書店找到十多本
,
但大多帶有商業(yè)色彩。
S*@%蠻0$2 ?
?V橛牶# ?
三、內(nèi)容和本質(zhì)
?RCKO葺 ?
橣鐲?墊p??
隨著
DMKD
研究逐步走向深入
,
人們越來越清楚地認識到
,DMKD
的研究主要有
3
個技術(shù)支柱
,
即數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計。
? {鮣珧 ?樗 ?
胥?L ? ?
數(shù)據(jù)庫技術(shù)在經(jīng)過了
80
年代的輝煌之后
,
已經(jīng)在各行各業(yè)成為一種數(shù)據(jù)庫文化或時尚
,
數(shù)據(jù)庫界目前除了關(guān)注萬維網(wǎng)數(shù)據(jù)庫、分布式數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、多媒體數(shù)據(jù)庫、查詢優(yōu)化和并行計算等技術(shù)外
,
已經(jīng)在開始反思。數(shù)據(jù)庫最實質(zhì)的應(yīng)用僅僅是查詢嗎
?
理論根基最深的關(guān)系數(shù)據(jù)庫最本質(zhì)的技術(shù)進步點
,
就是數(shù)據(jù)存放和數(shù)據(jù)使用之間的相互分離。查詢是數(shù)據(jù)庫的奴隸
,
發(fā)現(xiàn)才是數(shù)據(jù)庫的主人
;
數(shù)據(jù)只為職員服務(wù)
,
不為老板服務(wù)
!
這是很多單位的領(lǐng)導(dǎo)在熱心數(shù)據(jù)庫建設(shè)后發(fā)出的感嘆。
? F(?滽鑻 ?
篛}uX卐 ?
由于數(shù)據(jù)庫文化的迅速普及
,
用數(shù)據(jù)庫作為知識源具有堅實的基礎(chǔ)
;
另一方面
,
對于一個感興趣的特定領(lǐng)域——客觀世界
,
先用數(shù)據(jù)庫技術(shù)將其形式化并組織起來
,
就會大大提高知識獲取起點
,
以后從中發(fā)掘或發(fā)現(xiàn)的所有知識都是針對該數(shù)據(jù)庫而言的。因此
,
在需求的驅(qū)動下
,
很多數(shù)據(jù)庫學(xué)者轉(zhuǎn)向?qū)?shù)據(jù)倉庫和數(shù)據(jù)挖掘的研究
,
從對演繹數(shù)據(jù)庫的研究轉(zhuǎn)向?qū)w納數(shù)據(jù)庫的研究。
? Q8 嗶> ?
牽餖bh熟?= ?
專家系統(tǒng)曾經(jīng)是人工智能研究工作者的驕傲。專家系統(tǒng)實質(zhì)上是一個問題求解系統(tǒng)
,
目前的主要理論工具是基于謂詞演算的機器定理證明技術(shù)——二階演繹系統(tǒng)。領(lǐng)域?qū)<议L期以來面向一個特定領(lǐng)域的經(jīng)驗世界
,
通過人腦的思維活動積累了大量有用信息。
在研制一個專家系統(tǒng)時
,
知識工程師首先要從領(lǐng)域?qū)<夷抢铽@取知識
,
這一過程實質(zhì)上是歸納過程
,
是非常復(fù)雜的個人到個人之間的交互過程
,
有很強的個性和隨機性。因此
,
知識獲取成為專家系統(tǒng)研究中公認的瓶頸問題。
字z:棅畝 ?
u藖?lt;奩q? ?
其次
,
知識工程師在整理表達從領(lǐng)域?qū)<夷抢铽@得的知識時
,
用
if-then
等類的規(guī)則表達
,
約束性太大
,
用常規(guī)數(shù)理邏輯來表達社會現(xiàn)象和人的思維活動局限性太大
,
也太困難
,
勉強抽象出來的規(guī)則有很強的工藝色彩
,
差異性極大
,
知識表示又成為一大難題。
?躷,菚h ?
j?l譓t. ?
此外
,
即使某個領(lǐng)域的知識通過一定手段獲取并表達了
,
但這樣做成的專家系統(tǒng)對常識和百科知識出奇地貧乏
,
而人類專家的知識是以擁有大量常識為基礎(chǔ)的。人工智能學(xué)家
Feigenbaum
估計
,
一般人擁有的常識存入計算機大約有
100
萬條事實和抽象經(jīng)驗法則
,
離開常識的專家系統(tǒng)有時會比傻子還傻。例如戰(zhàn)場指揮員會根據(jù)
"
在某地發(fā)現(xiàn)一只剛死的波斯貓
"
的情報很快斷定敵高級指揮所的位置
,
而再好的軍事專家系統(tǒng)也難以顧全到如此的信息。
m?-喒j#??
撀緳葎 ?
以上這
3
大難題大大限制了專家系統(tǒng)的應(yīng)用
,
使得專家系統(tǒng)目前還停留在構(gòu)造諸如發(fā)動機故障論斷一類的水平上。人工智能學(xué)者開始著手基于案例的推理
,
尤其是從事機器學(xué)習(xí)的科學(xué)家們
,
不再滿足自己構(gòu)造的小樣本學(xué)習(xí)模式的象牙塔
,
開始正視現(xiàn)實生活中大量的、不完全的、有噪聲的、模糊的、隨機的大數(shù)據(jù)樣本
,
也走上了數(shù)據(jù)挖掘的道路。
倀"殮0 ?
5+?"銎??
數(shù)理統(tǒng)計是應(yīng)用數(shù)學(xué)中最重要、最活躍的學(xué)科之一
,
它在計算機發(fā)明之前就誕生了
,
迄今已有幾百年的發(fā)展歷史。如今相當(dāng)強大有效的數(shù)理統(tǒng)計方法和工具
,
已成為信息咨詢業(yè)的基礎(chǔ)。信息時代
,
咨詢業(yè)更為發(fā)達。然而
,
數(shù)理統(tǒng)計和數(shù)據(jù)庫技術(shù)結(jié)合得并不算快
,
數(shù)據(jù)庫查詢語言
SQL
中的聚合函數(shù)功能極其簡單
,
就是一個證明。咨詢業(yè)用數(shù)據(jù)庫查詢數(shù)據(jù)還遠遠不夠。一旦人們有了從數(shù)據(jù)查詢到知識發(fā)現(xiàn)、從數(shù)據(jù)演繹到數(shù)據(jù)歸納的要求
,
概率論和數(shù)理統(tǒng)計就獲得了新的生命力
,
所以才會在
DMKD
這個結(jié)合點上
,
立即呈現(xiàn)出
"
忽如一夜春風(fēng)來
,
千樹萬樹梨花開
"
的繁榮景象。一向以數(shù)理統(tǒng)計工具和可視化計算聞名的美國
SA S
公司
,
領(lǐng)先宣布進入
DMKD
行列。
郋僤救搹1} ?
?緐yv?%- ?
數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識有如下幾種
:
廣義型知識
,
反映同類事物共同性質(zhì)的知識
;
特征型知識
,
反映事物各方面的特征知識
;
差異型知識
,
反映不同事物之間屬性差別的知識
;
關(guān)聯(lián)型知識
,
反映事物之間依賴或關(guān)聯(lián)的知識
;
預(yù)測型知識
,
根據(jù)歷史的和當(dāng)前的數(shù)據(jù)推測未來數(shù)據(jù)
;
偏離型知識
,
揭示事物偏離常規(guī)的異?,F(xiàn)象。所有這些知識都可以在不同的概念層次上被發(fā)現(xiàn)
,
隨著概念樹的提升
,
從微觀到中觀再到宏觀
,
以滿足不同用戶、不同層次決策的需要。
擄?儈巸 O ?
n鳩?q??
四、發(fā)展方向
#t罉\ ?
橕€?/騳 ?
當(dāng)前
,DMKD
研究正方興未艾
,
預(yù)計在
21
世紀還會形成更大的高潮
,
研究焦點可能會集中到以下幾個方面
:
研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言
,
也許會像
SQL
語言一樣走向形式化和標(biāo)準(zhǔn)化
;
尋求數(shù)據(jù)挖掘過程中的可視化方法
,
使得知識發(fā)現(xiàn)的過程能夠被用戶理解
,
也便于在知識發(fā)現(xiàn)過程中的人機交互
;
研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)
,
特別是在
Int ernet
上建立
DMKD
服務(wù)器
,
與數(shù)據(jù)庫服務(wù)器配合
,
實現(xiàn)數(shù)據(jù)挖掘
;
加強對各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘
,
如文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)。但是
,
無論怎樣
,
需求牽引
,
市場驅(qū)動是永恒的
,DMKD
將首先滿足信息時代用戶的急需
,
大量基于
DMKD
的決策支持軟件工具產(chǎn)品將會問世
凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
、轉(zhuǎn)載請注明來處和原文作者。非常感謝。