1.?????????? 數(shù)據(jù)挖掘技術的由來
1.1網(wǎng)絡之后的下一個技術熱點
我們現(xiàn)在已經(jīng)生活在一個網(wǎng)絡化的時代,通信、計算機和網(wǎng)絡技術正改變著整個人類和社會。如果用芯片集成度來衡量微電子技術,用 CPU 處理速度來衡量計算機技術,用信道傳輸速率來衡量通信技術,那么摩爾定律告訴我們,它們都是以每 18 個月翻一番的速度在增長,這一勢頭已經(jīng)維持了十多年。在美國,廣播達到 5000 萬戶用了 38 年;電視用了 13 年; Internet 撥號上網(wǎng)達到 5000 萬戶僅用了 4 年。全球 IP 網(wǎng)發(fā)展速度達到每 6 個月翻一番,國內(nèi)情況亦然。 1999 年初,中國上網(wǎng)用戶為 210 萬,現(xiàn)在已經(jīng)達到 600 萬。網(wǎng)絡的發(fā)展導致經(jīng)濟全球化,在 1998 年全球產(chǎn)值排序前 100 名中,跨國企業(yè)占了 51 個,國家只占 49 個。有人提出,對待一個跨國企業(yè)也許比對待一個國家還要重要。在新世紀鐘聲剛剛敲響的時候,回顧往昔,人們不僅要問:就推動人類社會進步而言,歷史上能與網(wǎng)絡技術相比擬的是什么技術呢 ? 有人甚至提出要把網(wǎng)絡技術與火的發(fā)明相比擬。火的發(fā)明區(qū)別了動物和人,種種科學技術的重大發(fā)現(xiàn)擴展了自然人的體能、技能和智能,而網(wǎng)絡技術則大大提高了人的生存質量和人的素質,使人成為社會人、全球人。
現(xiàn)在的問題是:網(wǎng)絡之后的下一個技術熱點是什么?讓我們來看一些身邊俯拾即是的現(xiàn)象:《紐約時報》由 60 年代的 10 ~ 20 版擴張至現(xiàn)在的 100 ~ 200 版,最高曾達 1572 版;《北京青年報》也已是 16 ~ 40 版;市場營銷報已達 100 版。然而在現(xiàn)實社會中,人均日閱讀時間通常為 30 ~ 45 分鐘,只能瀏覽一份 24 版的報紙。大量信息在給人們帶來方便的同時也帶來了一大堆問題:第一是信息過量,難以消化;第二是信息真假難以辨識;第三是信息安全難以保證;第四是信息形式不一致,難以統(tǒng)一處理。人們開始提出一個新的口號: “ 要學會拋棄信息 ” 。人們開始考慮: “ 如何才能不被信息淹沒,而是從中及時發(fā)現(xiàn)有用的知識、提高信息利用率? ”
面對這一挑戰(zhàn),數(shù)據(jù)開采和知識發(fā)現(xiàn)( DMKD )技術應運而生,并顯示出強大的生命力。
1.2 數(shù)據(jù)爆炸但知識貧乏
另一方面,隨著數(shù)據(jù)庫技術的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應用,人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠對其進行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導致了
“
數(shù)據(jù)爆炸但知識貧乏
”
的現(xiàn)象。
1.3 支持數(shù)據(jù)挖掘技術的基礎
數(shù)據(jù)挖掘技術是人們長期對數(shù)據(jù)庫技術進行研究和開發(fā)的結果。起初各種商業(yè)數(shù)據(jù)是存儲在計算機的數(shù)據(jù)庫中的,然后發(fā)展到可對數(shù)據(jù)庫進行查詢和訪問,進而發(fā)展到對數(shù)據(jù)庫的即時遍歷。數(shù)據(jù)挖掘使數(shù)據(jù)庫技術進入了一個更高級的階段,它不僅能對過去的數(shù)據(jù)進行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,從而促進信息的傳遞。現(xiàn)在數(shù)據(jù)挖掘技術在商業(yè)應用中已經(jīng)可以馬上投入使用,因為對這種技術進行支持的三種基礎技術已經(jīng)發(fā)展成熟,他們是:
-????????? 海量數(shù)據(jù)搜集
-????????? 強大的多處理器計算機
-????????? 數(shù)據(jù)挖掘算法
Friedman[1997] 列舉了四個主要的技術理由激發(fā)了數(shù)據(jù)挖掘的開發(fā)、應用和研究的興趣:
-????????? 超大規(guī)模數(shù)據(jù)庫的出現(xiàn),例如商業(yè)數(shù)據(jù)倉庫和計算機自動收集的數(shù)據(jù)記錄;
-????????? 先進的計算機技術,例如更快和更大的計算能力和并行體系結構;
-????????? 對巨大量數(shù)據(jù)的快速訪問;
-????????? 對這些數(shù)據(jù)應用精深的統(tǒng)計方法計算的能力。
?
商業(yè)數(shù)據(jù)庫現(xiàn)在正在以一個空前的速度增長,并且數(shù)據(jù)倉庫正在廣泛地應用于各種行業(yè);對計算機硬件性能越來越高的要求,也可以用現(xiàn)在已經(jīng)成熟的并行多處理機的技術來滿足;另外數(shù)據(jù)挖掘算法經(jīng)過了這
10
多年的發(fā)展也已經(jīng)成為一種成熟,穩(wěn)定,且易于理解和操作的技術。
1.4
從商業(yè)數(shù)據(jù)到商業(yè)信息的進化
從商業(yè)數(shù)據(jù)到商業(yè)信息的進化過程中,每一步前進都是建立在上一步的基礎上的。見下表。表中我們可以看到,第四步進化是革命性的,因為從用戶的角度來看,這一階段的數(shù)據(jù)庫技術已經(jīng)可以快速地回答商業(yè)上的很多問題了。
進化階段
|
商業(yè)問題
|
支持技術
|
產(chǎn)品廠家
|
產(chǎn)品特點
|
數(shù)據(jù)搜集
?z<#C掞x ? |
“
過去五年中我的總收入是多少?
”
|
計算機、磁帶和磁盤
|
IBM,CDC
|
提供歷史性的、靜態(tài)的數(shù)據(jù)信息
|
數(shù)據(jù)訪問
湭l6卲級? ? |
“
在新英格蘭的分部去年三月的銷售額是多少?
”
|
關系數(shù)據(jù)庫(
RDBMS
),結構化查詢語言(
SQL
),
ODBC
|
Oracle
、
Sybase
、
Informix
、
IBM
、
Microsoft
|
在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息
|
數(shù)據(jù)倉庫;決策支持
? 胚/艇: ? |
“
在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結論?
”
|
聯(lián)機分析處理(
OLAP
)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫
|
Pilot
、
Comshare
、
Arbor
、
Cognos
、
Microstrategy
|
在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息
|
數(shù)據(jù)挖掘
?\灣盷蠫 ? |
“
下個月波士頓的銷售會怎么樣?為什么?
”
|
高級算法、多處理器計算機、海量數(shù)據(jù)庫
|
Pilot
、
Lockheed
、
IBM
、
SGI
、其他初創(chuàng)公司
|
提供預測性的信息
|
貱邍T?什??
表一、數(shù)據(jù)挖掘的進化歷程。
數(shù)據(jù)挖掘的核心模塊技術歷經(jīng)了數(shù)十年的發(fā)展,其中包括數(shù)理統(tǒng)計、人工智能、機器學習。今天,這些成熟的技術,加上高性能的關系數(shù)據(jù)庫引擎以及廣泛的數(shù)據(jù)集成,讓數(shù)據(jù)挖掘技術在當前的數(shù)據(jù)倉庫環(huán)境中進入了實用的階段。
1.5 數(shù)據(jù)挖掘逐漸演變的過程
數(shù)據(jù)挖掘其實是一個逐漸演變的過程,電子數(shù)據(jù)處理的初期,人們就試圖通過某些方法來實現(xiàn)自動決策支持,當時機器學習成為人們關心的焦點.機器學習的過程就是將一些已知的并已被成功解決的問題作為范例輸入計算機,機器通過學習這些范例總結并生成相應的規(guī)則,這些規(guī)則具有通用性,使用它們可以解決某一類的問題.隨后,隨著神經(jīng)網(wǎng)絡技術的形成和發(fā)展,人們的注意力轉向知識工程,知識工程不同于機器學習那樣給計算機輸入范例,讓它生成出規(guī)則,而是直接給計算機輸入已被代碼化的規(guī)則,而計算機是通過使用這些規(guī)則來解決某些問題。專家系統(tǒng)就是這種方法所得到的成果,但它有投資大、效果不甚理想等不足。80年代人們又在新的神經(jīng)網(wǎng)絡理論的指導下,重新回到機器學習的方法上,并將其成果應用于處理大型商業(yè)數(shù)據(jù)庫。隨著在80年代末一個新的術語,它就是數(shù)據(jù)庫中的知識發(fā)現(xiàn),簡稱KDD(Knowledge discovery in database).它泛指所有從源數(shù)據(jù)中發(fā)掘模式或聯(lián)系的方法,人們接受了這個術語,并用KDD來描述整個數(shù)據(jù)發(fā)掘的過程,包括最開始的制定業(yè)務目標到最終的結果分析,而用數(shù)據(jù)挖掘(data mining)來描述使用挖掘算法進行數(shù)據(jù)挖掘的子過程。但最近人們卻逐漸開始使用數(shù)據(jù)挖掘中有許多工作可以由統(tǒng)計方法來完成,并認為最好的策略是將統(tǒng)計方法與數(shù)據(jù)挖掘有機的結合起來。
數(shù)據(jù)倉庫技術的發(fā)展與數(shù)據(jù)挖掘有著密切的關系。數(shù)據(jù)倉庫的發(fā)展是促進數(shù)據(jù)挖掘越來越熱的原因之一。但是,數(shù)據(jù)倉庫并不是數(shù)據(jù)挖掘的先決條件,因為有很多數(shù)據(jù)挖掘可直接從操作數(shù)據(jù)源中挖掘信息
2數(shù)據(jù)挖掘的定義
2.1 技術上的定義及含義
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。這個定義包括好幾層含義:數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題。
----
何為知識?從廣義上理解,數(shù)據(jù)、信息也是知識的表現(xiàn)形式,但是人們更把概念、規(guī)則、模式、規(guī)律和約束等看作知識。人們把數(shù)據(jù)看作是形成知識的源泉,好像從礦石中采礦或淘金一樣。原始數(shù)據(jù)可以是結構化的,如關系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半結構化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡上的異構型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)的知識可以被用于信息管理,查詢優(yōu)化,決策支持和過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一門交叉學科,它把人們對數(shù)據(jù)的應用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持。在這種需求牽引下,匯聚了不同領域的研究者,尤其是數(shù)據(jù)庫技術、人工智能技術、數(shù)理統(tǒng)計、可視化技術、并行計算等方面的學者和工程技術人員,投身到數(shù)據(jù)挖掘這一新興的研究領域,形成新的技術熱點。
這里所說的知識發(fā)現(xiàn),不是要求發(fā)現(xiàn)放之四海而皆準的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學定理和純數(shù)學公式,更不是什么機器定理證明。實際上,所有發(fā)現(xiàn)的知識都是相對的,是有特定前提和約束條件,面向特定領域的,同時還要能夠易于被用戶理解。最好能用自然語言表達所發(fā)現(xiàn)的結果。
2.2 商業(yè)角度的定義
數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術,其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關鍵性數(shù)據(jù)。
簡而言之,數(shù)據(jù)挖掘其實是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,只不過在過去數(shù)據(jù)收集和分析的目的是用于科學研究,另外,由于當時計算能力的限制,對大數(shù)據(jù)量進行分析的復雜數(shù)據(jù)分析方法受到很大限制。現(xiàn)在,由于各行業(yè)業(yè)務自動化的實現(xiàn),商業(yè)領域產(chǎn)生了大量的業(yè)務數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于純機會的(Opportunistic)商業(yè)運作而產(chǎn)生。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰饕菫樯虡I(yè)決策提供真正有價值的信息,進而獲得利潤。但所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。
因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。
2.3???? 數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別
數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報表、聯(lián)機應用分析)的本質區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識.數(shù)據(jù)挖掘所得到的信息應具有先未知,有效和可實用三個特征.
先前未知的信息是指該信息是預先未曾預料到的 , 既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識 , 甚至是違背直覺的信息或知識 , 挖掘出的信息越是出乎意料 , 就可能越有價值 . 在商業(yè)應用中最典型的例子就是一家連鎖店通過數(shù)據(jù)挖掘發(fā)現(xiàn)了小孩尿布和啤酒之間有著驚人的聯(lián)系 .
3數(shù)據(jù)挖掘的研究歷史和現(xiàn)狀
3.1???? 研究歷史
從數(shù)據(jù)庫中發(fā)現(xiàn)知識( KDD )一詞首次出現(xiàn)在 1989 年舉行的第十一屆國際聯(lián)合人工智能學術會議上。到目前為止,由美國人工智能協(xié)會主辦的 KDD 國際研討會已經(jīng)召開了 8 次,規(guī)模由原來的專題討論會發(fā)展到國際學術大會(見表 1 ),研究重點也逐漸從發(fā)現(xiàn)方法轉向系統(tǒng)應用,注重多種發(fā)現(xiàn)策略和技術的集成,以及多種學科之間的相互滲透。 1999 年,亞太地區(qū)在北京召開的第三屆 PAKDD 會議收到 158 篇論文,空前熱烈。 IEEE 的 Knowledge and Data Engineering 會刊率先在 1993 年出版了 KDD 技術專刊。并行計算、計算機網(wǎng)絡和信息工程等其他領域的國際學會、學刊也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為專題和專刊討論,甚至到了膾炙人口的程度。
3.2???? 出版物及工具
此外,在Internet上還有不少KDD電子出版物,其中以半月刊Knowledge Discovery Nuggets最為權威(http://www.kdnuggets.com/subscribe.html)。在網(wǎng)上還有許多自由論壇,如DM Email Club等。至于DMKD書籍,可以在任意一家計算機書店找到十多本。目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)有:SAS公司的Enterprise Miner、IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、還有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。讀者可以訪問http://www.datamininglab.com.網(wǎng)站,該網(wǎng)站提供了許多數(shù)據(jù)挖掘系統(tǒng)和工具的性能測試報告。
3.3???? 國內(nèi)現(xiàn)狀
與國外相比,國內(nèi)對DMKD的研究稍晚,沒有形成整體力量。1993年國家自然科學基金首次支持我們對該領域的研究項目。目前,國內(nèi)的許多科研單位和高等院校競相開展知識發(fā)現(xiàn)的基礎理論及其應用研究,這些單位包括清華大學、中科院計算技術研究所、空軍第三研究所、海軍裝備論證中心等。其中,北京系統(tǒng)工程研究所對模糊方法在知識發(fā)現(xiàn)中的應用進行了較深入的研究,北京大學也在開展對數(shù)據(jù)立方體代數(shù)的研究,華中理工大學、復旦大學、浙江大學、中國科技大學、中科院數(shù)學研究所、吉林大學等單位開展了對關聯(lián)規(guī)則開采算法的優(yōu)化和改造;南京大學、四川聯(lián)合大學和上海交通大學等單位探討、研究了非結構化數(shù)據(jù)的知識發(fā)現(xiàn)以及Web數(shù)據(jù)挖掘。
3.4???? 業(yè)界觀點
最近, Gartner Group 的一次高級技術調查將數(shù)據(jù)挖掘和人工智能列為 “ 未來三到五年內(nèi)將對工業(yè)產(chǎn)生深遠影響的五大關鍵技術 ” 之首,并且還將并行處理體系和數(shù)據(jù)挖掘列為未來五年內(nèi)投資焦點的十大新興技術前兩位。根據(jù)最近 Gartner 的 HPC 研究表明, “ 隨著數(shù)據(jù)捕獲、傳輸和存儲技術的快速發(fā)展,大型系統(tǒng)用戶將更多地需要采用新技術來挖掘市場以外的價值,采用更為廣闊的并行處理系統(tǒng)來創(chuàng)建新的商業(yè)增長點。 ”
4數(shù)據(jù)挖掘研究內(nèi)容和本質
---- 隨著 DMKD 研究逐步走向深入,數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的研究已經(jīng)形成了三根強大的技術支柱:數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計。因此, KDD 大會程序委員會曾經(jīng)由這三個學科的權威人物同時來任主席。目前 DMKD 的主要研究內(nèi)容包括基礎理論、發(fā)現(xiàn)算法、數(shù)據(jù)倉庫、可視化技術、定性定量互換模型、知識表示方法、發(fā)現(xiàn)知識的維護和再利用、半結構化和非結構化數(shù)據(jù)中的知識發(fā)現(xiàn)以及網(wǎng)上數(shù)據(jù)挖掘等。
----
數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識最常見的有以下四類:
4.1?? 廣義知識(Generalization)
----
廣義知識指類別特征的概括性描述知識。根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質,是對數(shù)據(jù)的概括、精煉和抽象。
----
廣義知識的發(fā)現(xiàn)方法和實現(xiàn)技術有很多,如數(shù)據(jù)立方體、面向屬性的歸約等。數(shù)據(jù)立方體還有其他一些別名,如“多維數(shù)據(jù)庫”、“實現(xiàn)視圖”、“OLAP"等。該方法的基本思想是實現(xiàn)某些常用的代價較高的聚集函數(shù)的計算,諸如計數(shù)、求和、平均、最大值等,并將這些實現(xiàn)視圖儲存在多維數(shù)據(jù)庫中。既然很多聚集函數(shù)需經(jīng)常重復計算,那么在多維數(shù)據(jù)立方體中存放預先計算好的結果將能保證快速響應,并可靈活地提供不同角度和不同抽象層次上的數(shù)據(jù)視圖。另一種廣義知識發(fā)現(xiàn)方法是加拿大SimonFraser大學提出的面向屬性的歸約方法。這種方法以類SQL語言表示數(shù)據(jù)挖掘查詢,收集數(shù)據(jù)庫中的相關數(shù)據(jù)集,然后在相關數(shù)據(jù)集上應用一系列數(shù)據(jù)推廣技術進行數(shù)據(jù)推廣,包括屬性刪除、概念樹提升、屬性閾值控制、計數(shù)及其他聚集函數(shù)傳播等。
4.2 關聯(lián)知識(Association)
----
它反映一個事件和其他事件之間依賴或關聯(lián)的知識。如果兩項或多項屬性之間存在關聯(lián),那么其中一項的屬性值就可以依據(jù)其他屬性值進行預測。最為著名的關聯(lián)規(guī)則發(fā)現(xiàn)方法是R.Agrawal提出的Apriori算法。關聯(lián)規(guī)則的發(fā)現(xiàn)可分為兩步。第一步是迭代識別所有的頻繁項目集,要求頻繁項目集的支持率不低于用戶設定的最低值;第二步是從頻繁項目集中構造可信度不低于用戶設定的最低值的規(guī)則。識別或發(fā)現(xiàn)所有頻繁項目集是關聯(lián)規(guī)則發(fā)現(xiàn)算法的核心,也是計算量最大的部分。
4.3 分類知識(Classification&Clustering)
----
它反映同類事物共同性質的特征型知識和不同事物之間的差異型特征知識。最為典型的分類方法是基于決策樹的分類方法。它是從實例集中構造決策樹,是一種有指導的學習方法。該方法先根據(jù)訓練子集(又稱為窗口)形成決策樹。如果該樹不能對所有對象給出正確的分類,那么選擇一些例外加入到窗口中,重復該過程一直到形成正確的決策集。最終結果是一棵樹,其葉結點是類名,中間結點是帶有分枝的屬性,該分枝對應該屬性的某一可能值。最為典型的決策樹學習系統(tǒng)是ID3,它采用自頂向下不回溯策略,能保證找到一個簡單的樹。算法C4.5和C5.0都是ID3的擴展,它們將分類領域從類別屬性擴展到數(shù)值型屬性。
----
數(shù)據(jù)分類還有統(tǒng)計、粗糙集(RoughSet)等方法。線性回歸和線性辨別分析是典型的統(tǒng)計模型。為降低決策樹生成代價,人們還提出了一種區(qū)間分類器。最近也有人研究使用神經(jīng)網(wǎng)絡方法在數(shù)據(jù)庫中進行分類和規(guī)則提取。
4.4 預測型知識(Prediction)
----
它根據(jù)時間序列型數(shù)據(jù),由歷史的和當前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認為是以時間為關鍵屬性的關聯(lián)知識。
---- 目前,時間序列預測方法有經(jīng)典的統(tǒng)計方法、神經(jīng)網(wǎng)絡和機器學習等。 1968 年 Box 和 Jenkins 提出了一套比較完善的時間序列建模理論和分析方法,這些經(jīng)典的數(shù)學方法通過建立隨機模型,如自回歸模型、自回歸滑動平均模型、求和自回歸滑動平均模型和季節(jié)調整模型等,進行時間序列的預測。由于大量的時間序列是非平穩(wěn)的,其特征參數(shù)和數(shù)據(jù)分布隨著時間的推移而發(fā)生變化。因此,僅僅通過對某段歷史數(shù)據(jù)的訓練,建立單一的神經(jīng)網(wǎng)絡預測模型,還無法完成準確的預測任務。為此,人們提出了基于統(tǒng)計學和基于精確性的再訓練方法,當發(fā)現(xiàn)現(xiàn)存預測模型不再適用于當前數(shù)據(jù)時,對模型重新訓練,獲得新的權重參數(shù),建立新的模型。也有許多系統(tǒng)借助并行算法的計算優(yōu)勢進行時間序列預測。
4.5偏差型知識(Deviation)
---- 此外,還可以發(fā)現(xiàn)其他類型的知識,如偏差型知識 (Deviation) ,它是對差異和極端特例的描述,揭示事物偏離常規(guī)的異常現(xiàn)象,如標準類外的特例,數(shù)據(jù)聚類外的離群值等。所有這些知識都可以在不同的概念層次上被發(fā)現(xiàn),并隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。
5數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下五類功能。
5.1?? 自動預測趨勢和行為
數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結論。一個典型的例子是市場預測問題,數(shù)據(jù)挖掘使用過去有關促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產(chǎn)以及認定對指定事件最可能作出反應的群體。
5.2?? 關聯(lián)分析
數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關聯(lián)函數(shù),即使知道也是不確定的,因此關聯(lián)分析生成的規(guī)則帶有可信度。
5.3?? 聚類
數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統(tǒng)的模式識別方法和數(shù)學分類學。
80
年代初,
Mchalski
提出了概念聚類技術牞其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術的某些片面性。
5.4 概念描述
概念描述就是對某類對象的內(nèi)涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。
5.5 偏差檢測
?SPAN style="FONT-SIZE: 10.5pt; COLOR: black; mso-bidi-font-size: 11.0pt; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana">數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。
6數(shù)據(jù)挖掘常用技術
6.1 人工神經(jīng)網(wǎng)絡
仿照生理神經(jīng)網(wǎng)絡結構的非線形預測模型,通過學習進行模式識別。
6.2決策樹
代表著決策集的樹形結構。
6.3遺傳算法
基于進化理論,并采用遺傳結合、遺傳變異、以及自然選擇等設計方法的優(yōu)化技術。
6.4近鄰算法
將數(shù)據(jù)集合中每一個記錄進行分類的方法。
6.5規(guī)則推導
從統(tǒng)計意義上對數(shù)據(jù)中的 “ 如果 - 那么 ” 規(guī)則進行尋找和推導。
?
采用上述技術的某些專門的分析工具已經(jīng)發(fā)展了大約十年的歷史,不過這些工具所面對的數(shù)據(jù)量通常較小。而現(xiàn)在這些技術已經(jīng)被直接集成到許多大型的工業(yè)標準的數(shù)據(jù)倉庫和聯(lián)機分析系統(tǒng)中去了。
7數(shù)據(jù)挖掘工具
7.1
基于神經(jīng)網(wǎng)絡的工具
由于對非線性數(shù)據(jù)的快速建模能力,基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘工具現(xiàn)在越來越流行。其開采過程基本上是將數(shù)據(jù)聚類,然后分類計算權值。神經(jīng)網(wǎng)絡很適合非線性數(shù)據(jù)和含噪聲數(shù)據(jù),所以在市場數(shù)據(jù)庫的分析和建模方面應用廣泛。
7.2
基于規(guī)則和決策樹的工具
大部分數(shù)據(jù)挖掘工具采用規(guī)則發(fā)現(xiàn)或決策樹分類技術來發(fā)現(xiàn)數(shù)據(jù)模式和規(guī)則,其核心是某種歸納算法。這類工具通常是對數(shù)據(jù)庫的數(shù)據(jù)進行開采,生產(chǎn)規(guī)則和決策樹,然后對新數(shù)據(jù)進行分析和預測。這類工具的主要優(yōu)點是,規(guī)則和決策樹都是可讀的。
7.3
基于模糊邏輯的工具
其發(fā)現(xiàn)方法是應用模糊邏輯進行數(shù)據(jù)查詢、排序等。該工具使用模糊概念和“最近”搜索技術的數(shù)據(jù)查詢工具,它可以讓用戶指定目標,然后對數(shù)據(jù)庫進行搜索,找出接近目標的所有記錄,并對結果進行評估。
7.4
綜合多方法工具
不少數(shù)據(jù)挖掘工具采用了多種開采方法,這類工具一般規(guī)模較大,適于大型數(shù)據(jù)庫牗包括并行數(shù)據(jù)庫牘。這類工具開采能力很強,但價格昂貴,并要花很長時間進行學習。
8數(shù)據(jù)挖掘的流程
8.1
數(shù)據(jù)挖掘環(huán)境
數(shù)據(jù)挖掘是指一個完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的,有效的,可實用的信息,并使用這些信息做出決策或豐富知識.
數(shù)據(jù)挖掘環(huán)境可示意如下圖:
?
數(shù)據(jù)庫
可視化工具
數(shù)據(jù)挖掘工具
?
?
?
??????????????????? 數(shù)據(jù)挖掘環(huán)境框圖
8.2
數(shù)據(jù)挖掘過程圖
下圖描述了數(shù)據(jù)挖掘的基本過程和主要步驟
?
?
?
邏輯數(shù)據(jù)庫
被選擇的數(shù)據(jù)
據(jù)
預處理后的數(shù)據(jù)
被轉換的數(shù)據(jù)
據(jù)據(jù)
被抽取的信息
息
被同化的知識
識
選擇
??
善而從
??
擇擇擇
預處理
轉換
挖掘
分析和同化
?
?
?
?
?
?
?
?
??????????????????????? 數(shù)據(jù)挖掘過程的步驟
?
8.3
數(shù)據(jù)挖掘過程工作量
在數(shù)據(jù)挖掘中被研究的業(yè)務對象是整個過程的基礎,它驅動了整個數(shù)據(jù)挖掘過程,也是檢驗最后結果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問.圖2各步驟是按一定順序完成的,當然整個過程中還會存在步驟間的反饋.數(shù)據(jù)挖掘的過程并不是自動的,絕大多數(shù)的工作需要人工完成.圖3給出了各步驟在整個過程中的工作量之比.可以看到,60%的時間用在數(shù)據(jù)準備上,這說明了數(shù)據(jù)挖掘對數(shù)據(jù)的嚴格要求,而后挖掘工作僅占總工作量的10%.
?
確定業(yè)務對象數(shù)據(jù)準備數(shù)據(jù)處理結果分析和知識的同化
?
?
8.4
數(shù)據(jù)挖掘過程簡介
過程中各步驟的大體內(nèi)容如下:
1.??
確定業(yè)務對象
清晰地定義出業(yè)務問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的.
2.??
數(shù)據(jù)準備
1)
數(shù)據(jù)的選擇
搜索所有與業(yè)務對象有關的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應用的數(shù)據(jù).
2)
數(shù)據(jù)的預處理
研究數(shù)據(jù)的質量,為進一步的分析作準備.并確定將要進行的挖掘操作的類型.
3)
數(shù)據(jù)的轉換
將數(shù)據(jù)轉換成一個分析模型.這個分析模型是針對挖掘算法建立的.建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關鍵.
3.??
數(shù)據(jù)挖掘
對所得到的經(jīng)過轉換的數(shù)據(jù)進行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成.
4.??
結果分析
解釋并評估結果.其使用的分析方法一般應作數(shù)據(jù)挖掘操作而定,通常會用到可視化技術.
5.??
知識的同化
將分析所得到的知識集成到業(yè)務信息系統(tǒng)的組織結構中去.
8.5
數(shù)據(jù)挖掘需要的人員
數(shù)據(jù)挖掘過程的分步實現(xiàn),不同的步會需要是有不同專長的人員,他們大體可以分為三類.
業(yè)務分析人員:要求精通業(yè)務,能夠解釋業(yè)務對象,并根據(jù)各業(yè)務對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務需求.
數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術,并對統(tǒng)計學有較熟練的掌握,有能力把業(yè)務需求轉化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術.
數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術,并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù).
?
從上可見,數(shù)據(jù)挖掘是一個多種專家合作的過程,也是一個在資金上和技術上高投入的過程.這一過程要反復進行牞在反復過程中,不斷地趨近事物的本質,不斷地優(yōu)先問題的解決方案。數(shù)據(jù)重組和細分添加和拆分記錄選取數(shù)據(jù)樣本可視化數(shù)據(jù)探索聚類分析神經(jīng)網(wǎng)絡、決策樹數(shù)理統(tǒng)計、時間序列結論綜合解釋評價數(shù)據(jù)知識數(shù)據(jù)取樣數(shù)據(jù)探索數(shù)據(jù)調整模型化評價。
9數(shù)據(jù)挖掘未來研究方向
---- 當前, DMKD 研究方興未艾,其研究與開發(fā)的總體水平相當于數(shù)據(jù)庫技術在 70 年代所處的地位,迫切需要類似于關系模式、 DBMS 系統(tǒng)和 SQL 查詢語言等理論和方法的指導,才能使 DMKD 的應用得以普遍推廣。預計在本世紀, DMKD 的研究還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:
- 發(fā)現(xiàn)語言的形式化描述,即研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會像 SQL 語言一樣走向形式化和標準化;
- 尋求數(shù)據(jù)挖掘過程中的可視化方法,使知識發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識發(fā)現(xiàn)的過程中進行人機交互;
- 研究在網(wǎng)絡環(huán)境下的數(shù)據(jù)挖掘技術( WebMining ),特別是在因特網(wǎng)上建立 DMKD 服務器,并且與數(shù)據(jù)庫服務器配合,實現(xiàn) WebMining ;
- 加強對各種非結構化數(shù)據(jù)的開采( DataMiningforAudio & Video ),如對文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采;
處理的數(shù)據(jù)將會涉及到更多的數(shù)據(jù)類型,這些數(shù)據(jù)類型或者比較復雜,或者是結構比較獨特。為了處理這些復雜的數(shù)據(jù),就需要一些新的和更好的分析和建立模型的方法,同時還會涉及到為處理這些復雜或獨特數(shù)據(jù)所做的費時和復雜數(shù)據(jù)準備的一些工具和軟件。
- 交互式發(fā)現(xiàn);
- 知識的維護更新。
但是,不管怎樣,需求牽引與市場推動是永恒的,
DMKD
將首先滿足信息時代用戶的急需,大量的基于
DMKD
的決策支持軟件產(chǎn)品將會問世。只有從數(shù)據(jù)中有效地提取信息,從信息中及時地發(fā)現(xiàn)知識,才能為人類的思維決策和戰(zhàn)略發(fā)展服務。也只有到那時,數(shù)據(jù)才能夠真正成為與物質、能源相媲美的資源,信息時代才會真正到來。
10數(shù)據(jù)挖掘熱點
就目前來看,將來的幾個熱點包括網(wǎng)站的數(shù)據(jù)挖掘(Web site data mining)、生物信息或基因(Bioinformatics/genomics)的數(shù)據(jù)挖掘及其文本的數(shù)據(jù)挖掘(Textual mining)。下面就這幾個方面加以簡單介紹。
10.1 網(wǎng)站的數(shù)據(jù)挖掘(Web site data mining)
需求
隨著Web技術的發(fā)展,各類電子商務網(wǎng)站風起云涌,建立起一個電子商務網(wǎng)站并不困難,困難的是如何讓您的電子商務網(wǎng)站有效益。要想有效益就必須吸引客戶,增加能帶來效益的客戶忠誠度。電子商務業(yè)務的競爭比傳統(tǒng)的業(yè)務競爭更加激烈,原因有很多方面,其中一個因素是客戶從一個電子商務網(wǎng)站轉換到競爭對手那邊,只需點擊幾下鼠標即可。網(wǎng)站的內(nèi)容和層次、用詞、標題、獎勵方案、服務等任何一個地方都有可能成為吸引客戶、同時也可能成為失去客戶的因素。而同時電子商務網(wǎng)站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對這些數(shù)據(jù)進行分析和挖掘,充分了解客戶的喜好、購買模式,甚至是客戶一時的沖動,設計出滿足于不同客戶群體需要的個性化網(wǎng)站,進而增加其競爭力,幾乎變得勢在必行。若想在競爭中生存進而獲勝,就要比您的競爭對手更了解客戶。
電子商務網(wǎng)站數(shù)據(jù)挖掘
在對網(wǎng)站進行數(shù)據(jù)挖掘時,所需要的數(shù)據(jù)主要來自于兩個方面:一方面是客戶的背景信息,此部分信息主要來自于客戶的登記表;而另外一部分數(shù)據(jù)主要來自瀏覽者的點擊流(Click-stream),此部分數(shù)據(jù)主要用于考察客戶的行為表現(xiàn)。但有的時候,客戶對自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會給數(shù)據(jù)分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中來推測客戶的背景信息,進而再加以利用。
就分析和建立模型的技術和算法而言,網(wǎng)站的數(shù)據(jù)挖掘和原來的數(shù)據(jù)挖掘差別并不是特別大,很多方法和分析思想都可以運用。所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來自于點擊流,和傳統(tǒng)的數(shù)據(jù)庫格式有區(qū)別。因而對電子商務網(wǎng)站進行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準備。目前,有很多廠商正在致力于開發(fā)專門用于網(wǎng)站挖掘的軟件。
10.2
生物信息或基因的數(shù)據(jù)挖掘
生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個領域,在商業(yè)上很難講有多大的價值,但對于人類卻受益非淺。例如,基因的組合千變?nèi)f化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要數(shù)據(jù)挖掘技術的支持。
對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復雜得多。從分析算法上講,更需要一些新的和好的算法。現(xiàn)在很多廠商正在致力于這方面的研究。但就技術和軟件而言,還遠沒有達到成熟的地步。
10.3
文本的數(shù)據(jù)挖掘(
Textualmining
)
人們很關心的另外一個話題是文本數(shù)據(jù)挖掘。舉個例子,在客戶服務中心,把同客戶的談話轉化為文本數(shù)據(jù),再對這些數(shù)據(jù)進行挖掘,進而了解客戶對服務的滿意程度和客戶的需求以及客戶之間的相互關系等信息。從這個例子可以看出,無論是在數(shù)據(jù)結構還是在分析處理方法方面,文本數(shù)據(jù)挖掘和前面談到的數(shù)據(jù)挖掘相差很大。文本數(shù)據(jù)挖掘并不是一件容易的事情,尤其是在分析方法方面,還有很多需要研究的專題。目前市場上有一些類似的軟件,但大部分方法只是把文本移來移去,或簡單地計算一下某些詞匯的出現(xiàn)頻率,并沒有真正的分析功能。
隨著計算機計算能力的發(fā)展和業(yè)務復雜性的提高,數(shù)據(jù)的類型會越來越多、越來越復雜,數(shù)據(jù)挖掘將發(fā)揮出越來越大的作用。
11Web數(shù)據(jù)挖掘與XML
11.1 Web
數(shù)據(jù)挖掘的難點
Web上有海量的數(shù)據(jù)信息,怎樣對這些數(shù)據(jù)進行復雜的應用成了現(xiàn)今數(shù)據(jù)庫技術的研究熱點。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應用質量問題。充分利用有用的數(shù)據(jù),廢棄虛偽無用的數(shù)據(jù),是數(shù)據(jù)挖掘技術的最重要的應用。相對于Web的數(shù)據(jù)而言,傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)結構性很強,即其中的數(shù)據(jù)為完全結構化的數(shù)據(jù),而Web上的數(shù)據(jù)最大特點就是半結構化。所謂半結構化是相對于完全結構化的傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)而言。顯然,面向Web的數(shù)據(jù)挖掘比面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復雜得多。
1.異構數(shù)據(jù)庫環(huán)境
從數(shù)據(jù)庫研究的角度出發(fā),Web網(wǎng)站上的信息也可以看作一個數(shù)據(jù)庫,一個更大、更復雜的數(shù)據(jù)庫。Web上的每一個站點就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構的,因而每一站點之間的信息和組織都不一樣,這就構成了一個巨大的異構數(shù)據(jù)庫環(huán)境。如果想要利用這些數(shù)據(jù)進行數(shù)據(jù)挖掘,首先,必須要研究站點之間異構數(shù)據(jù)的集成問題,只有將這些站點的數(shù)據(jù)都集成起來,提供給用戶一個統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。其次,還要解決Web上的數(shù)據(jù)查詢問題,因為如果所需的數(shù)據(jù)不能很有效地得到,對這些數(shù)據(jù)進行分析、集成、處理就無從談起。
2.半結構化的數(shù)據(jù)結構
Web上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)不同,傳統(tǒng)的數(shù)據(jù)庫都有一定的數(shù)據(jù)模型,可以根據(jù)模型來具體描述特定的數(shù)據(jù)。而Web上的數(shù)據(jù)非常復雜,沒有特定的模型描述,每一站點的數(shù)據(jù)都各自獨立設計,并且數(shù)據(jù)本身具有自述性和動態(tài)可變性。因而,Web上的數(shù)據(jù)具有一定的結構性,但因自述層次的存在,從而是一種非完全結構化的數(shù)據(jù),這也被稱之為半結構化數(shù)據(jù)。半結構化是Web上數(shù)據(jù)的最大特點。
3.解決半結構化的數(shù)據(jù)源問題
Web數(shù)據(jù)挖掘技術首要解決半結構化數(shù)據(jù)源模型和半結構化數(shù)據(jù)模型的查詢與集成問題。解決Web上的異構數(shù)據(jù)的集成與查詢問題,就必須要有一個模型來清晰地描述Web上的數(shù)據(jù)。針對Web上的數(shù)據(jù)半結構化的特點,尋找一個半結構化的數(shù)據(jù)模型是解決問題的關鍵所在。除了要定義一個半結構化數(shù)據(jù)模型外,還需要一種半結構化模型抽取技術,即自動地從現(xiàn)有數(shù)據(jù)中抽取半結構化模型的技術。面向Web的數(shù)據(jù)挖掘必須以半結構化模型和半結構化數(shù)據(jù)模型抽取技術為前提。
11.2 XML與Web數(shù)據(jù)挖掘技術
以XML為基礎的新一代WWW環(huán)境是直接面對Web數(shù)據(jù)的,不僅可以很好地兼容原有的Web應用,而且可以更好地實現(xiàn)Web中的信息共享與交換。XML可看作一種半結構化的數(shù)據(jù)模型,可以很容易地將XML的文檔描述與關系數(shù)據(jù)庫中的屬性一對應起來,實施精確地查詢與模型抽取。
1.XML的產(chǎn)生與發(fā)展
XML(extensible Markup Language)是由萬維網(wǎng)協(xié)會(W3C)設計,特別為Web應用服務的SGML(Standard General Markup Language)的一個重要分支。總的來說,XML是一種中介標示語言(Meta-markup Language),可提供描述結構化資料的格式,詳細來說,XML是一種類似于HTML,被設計用來描述數(shù)據(jù)的語言。XML提供了一種獨立的運行程序的方法來共享數(shù)據(jù),它是用來自動描述信息的一種新的標準語言,它能使計算機通信把Internet的功能由信息傳遞擴大到人類其他多種多樣的活動中去。XML由若干規(guī)則組成,這些規(guī)則可用于創(chuàng)建標記語言,并能用一種被稱作分析程序的簡明程序處理所有新創(chuàng)建的標記語言,正如HTML為第一個計算機用戶閱讀Internet文檔提供一種顯示方式一樣,XML也創(chuàng)建了一種任何人都能讀出和寫入的世界語。XML解決了HTML不能解決的兩個Web問題,即Internet發(fā)展速度快而接入速度慢的問題,以及可利用的信息多,但難以找到自己需要的那部分信息的問題。XML能增加結構和語義信息,可使計算機和服務器即時處理多種形式的信息。因此,運用XML的擴展功能不僅能從Web服務器下載大量的信息,還能大大減少網(wǎng)絡業(yè)務量。
XML中的標志(TAG)是沒有預先定義的,使用者必須要自定義需要的標志,XML是能夠進行自解釋(Self Describing)的語言。XML使用DTD(Document Type Definition文檔類型定義)來顯示這些數(shù)據(jù),XSL(eXtensible Style Sheet Language)是一種來描述這些文檔如何顯示的機制,它是XML的樣式表描述語言。XSL的歷史比HTML用的CSS(層疊式樣式表Cascading Style Sheets)還要悠久,XSL包括兩部分:一個用來轉換XML文檔的方法;一個用來格式化XML文檔的方法。XLL(eXtensible Link Language)是XML連接語言,它提供XML中的連接,與HTML中的類似,但功能更強大。使用XLL,可以多方向連接,且連接可以存在于對象層級,而不僅僅是頁面層級。由于XML能夠標記更多的信息,所以它就能使用戶很輕松地找到他們需要的信息。利用XML,Web設計人員不僅能創(chuàng)建文字和圖形,而且還能構建文檔類型定義的多層次、相互依存的系統(tǒng)、數(shù)據(jù)樹、元數(shù)據(jù)、超鏈接結構和樣式表。
2.XML的主要特點
正是XML的特點決定了其卓越的性能表現(xiàn)。XML作為一種標記語言,有許多特點:
(1)簡單。XML經(jīng)過精心設計,整個規(guī)范簡單明了,它由若干規(guī)則組成,這些規(guī)則可用于創(chuàng)建標記語言,并能用一種常常稱作分析程序的簡明程序處理所有新創(chuàng)建的標記語言。XML能創(chuàng)建一種任何人都能讀出和寫入的世界語,這種創(chuàng)建世界語的功能叫做統(tǒng)一性功能。如XML創(chuàng)建的標記總是成對出現(xiàn),以及依靠稱作統(tǒng)一代碼的新的編碼標準。
(2)開放。XML是SGML在市場上有許多成熟的軟件可用來幫助編寫、管理等,開放式標準XML的基礎是經(jīng)過驗證的標準技術,并針對網(wǎng)絡做最佳化。眾多業(yè)界頂尖公司,與W3C的工作群組并肩合作,協(xié)助確保交互作業(yè)性,支持各式系統(tǒng)和瀏覽器上的開發(fā)人員、作者和使用者,以及改進XML標準。XML解釋器可以使用編程的方法來載入一個XML的文檔,當這個文檔被載入以后,用戶就可以通過XML文件對象模型來獲取和操縱整個文檔的信息,加快了網(wǎng)絡運行速度。
(3)高效且可擴充。支持復用文檔片斷,使用者可以發(fā)明和使用自己的標簽,也可與他人共享,可延伸性大,在XML中,可以定義無限量的一組標注。XML提供了一個標示結構化資料的架構。一個XML組件可以宣告與其相關的資料為零售價、營業(yè)稅、書名、數(shù)量或其它任何數(shù)據(jù)元素。隨著世界范圍內(nèi)的許多機構逐漸采用XML標準,將會有更多的相關功能出現(xiàn):一旦鎖定資料,便可以使用任何方式透過電纜線傳遞,并在瀏覽器中呈現(xiàn),或者轉交到其他應用程序做進一步的處理。XML提供了一個獨立的運用程序的方法來共享數(shù)據(jù),使用DTD,不同的組中的人就能夠使用共同的DTD來交換數(shù)據(jù)。你的應用程序可以使用這個標準的DTD來驗證你接受到的數(shù)據(jù)是否有效,你也可以使用一個DTD來驗證你自己的數(shù)據(jù)。
(4)國際化。標準國際化,且支持世界上大多數(shù)文字。這源于依靠它的統(tǒng)一代碼的新的編碼標準,這種編碼標準支持世界上所有以主要語言編寫的混合文本。在HTML中,就大多數(shù)字處理而言,一個文檔一般是用一種特殊語言寫成的,不管是英語,還是日語或阿拉伯語,如果用戶的軟件不能閱讀特殊語言的字符,那么他就不能使用該文檔。但是能閱讀XML語言的軟件就能順利處理這些不同語言字符的任意組合。因此,XML不僅能在不同的計算機系統(tǒng)之間交換信息,而且能跨國界和超越不同文化疆界交換信息。
3.XML在Web數(shù)據(jù)挖掘中的應用
XML已經(jīng)成為正式的規(guī)范,開發(fā)人員能夠用XML的格式標記和交換數(shù)據(jù)。XML在三層架構上為數(shù)據(jù)處理提供了很好的方法。使用可升級的三層模型,XML可以從存在的數(shù)據(jù)中產(chǎn)生出來,使用XML結構化的數(shù)據(jù)可以從商業(yè)規(guī)范和表現(xiàn)形式中分離出來。
促進XML應用的是那些用標準的HTML無法完成的Web應用。這些應用從大的方面講可以被分成以下四類:需要Web客戶端在兩個或更多異質數(shù)據(jù)庫之間進行通信的應用;試圖將大部分處理負載從Web服務器轉到Web客戶端的應用;需要Web客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶的應用;需要智能Web代理根據(jù)個人用戶的需要裁減信息內(nèi)容的應用。顯而易見,這些應用和Web的數(shù)據(jù)挖掘技術有著重要的聯(lián)系,基于Web的數(shù)據(jù)挖掘必須依靠它們來實現(xiàn)。
XML給基于Web的應用軟件賦予了強大的功能和靈活性,因此它給開發(fā)者和用戶帶來了許多好處。比如進行更有意義的搜索,并且Web數(shù)據(jù)可被XML唯一地標識。沒有XML,搜索軟件必須了解每個數(shù)據(jù)庫是如何構建的,但這實際上是不可能的,因為每個數(shù)據(jù)庫描述數(shù)據(jù)的格式幾乎都是不同的。由于不同來源數(shù)據(jù)的集成問題的存在,現(xiàn)在搜索多樣的不兼容的數(shù)據(jù)庫實際上是不可能的。XML能夠使不同來源的結構化的數(shù)據(jù)很容易地結合在一起。軟件代理商可以在中間層的服務器上對從后端數(shù)據(jù)庫和其它應用處來的數(shù)據(jù)進行集成。然后,數(shù)據(jù)就能被發(fā)送到客戶或其他服務器做進一步的集合、處理和分發(fā)。XML的擴展性和靈活性允許它描述不同種類應用軟件中的數(shù)據(jù),從描述搜集的Web頁到數(shù)據(jù)記錄,從而通過多種應用得到數(shù)據(jù)。同時,由于基于XML的數(shù)據(jù)是自我描述的,數(shù)據(jù)不需要有內(nèi)部描述就能被交換和處理。利用XML,用戶可以方便地進行本地計算和處理,XML格式的數(shù)據(jù)發(fā)送給客戶后,客戶可以用應用軟件解析數(shù)據(jù)并對數(shù)據(jù)進行編輯和處理。使用者可以用不同的方法處理數(shù)據(jù),而不僅僅是顯示它。XML文檔對象模式(DOM)允許用腳本或其他編程語言處理數(shù)據(jù),數(shù)據(jù)計算不需要回到服務器就能進行。XML可以被利用來分離使用者觀看數(shù)據(jù)的界面,使用簡單靈活開放的格式,可以給Web創(chuàng)建功能強大的應用軟件,而原來這些軟件只能建立在高端數(shù)據(jù)庫上。另外,數(shù)據(jù)發(fā)到桌面后,能夠用多種方式顯示。
XML還可以通過以簡單開放擴展的方式描述結構化的數(shù)據(jù),XML補充了HTML,被廣泛地用來描述使用者界面。HTML描述數(shù)據(jù)的外觀,而XML描述數(shù)據(jù)本身。由于數(shù)據(jù)顯示與內(nèi)容分開,XML定義的數(shù)據(jù)允許指定不同的顯示方式,使數(shù)據(jù)更合理地表現(xiàn)出來。本地的數(shù)據(jù)能夠以客戶配置、使用者選擇或其他標準決定的方式動態(tài)地表現(xiàn)出來。CSS和XSL為數(shù)據(jù)的顯示提供了公布的機制。通過XML,數(shù)據(jù)可以粒狀地更新。每當一部分數(shù)據(jù)變化后,不需要重發(fā)整個結構化的數(shù)據(jù)。變化的元素必須從服務器發(fā)送給客戶,變化的數(shù)據(jù)不需要刷新整個使用者的界面就能夠顯示出來。但在目前,只要一條數(shù)據(jù)變化了,整一頁都必須重建。這嚴重限制了服務器的升級性能。XML也允許加進其他數(shù)據(jù),比如預測的溫度。加入的信息能夠進入存在的頁面,不需要瀏覽器重新發(fā)一個新的頁面。XML應用于客戶需要與不同的數(shù)據(jù)源進行交互時,數(shù)據(jù)可能來自不同的數(shù)據(jù)庫,它們都有各自不同的復雜格式。但客戶與這些數(shù)據(jù)庫間只通過一種標準語言進行交互,那就是XML。由于XML的自定義性及可擴展性,它足以表達各種類型的數(shù)據(jù)。客戶收到數(shù)據(jù)后可以進行處理,也可以在不同數(shù)據(jù)庫間進行傳遞。總之,在這類應用中,XML解決了數(shù)據(jù)的統(tǒng)一接口問題。但是,與其他的數(shù)據(jù)傳遞標準不同的是,XML并沒有定義數(shù)據(jù)文件中數(shù)據(jù)出現(xiàn)的具體規(guī)范,而是在數(shù)據(jù)中附加TAG來表達數(shù)據(jù)的邏輯結構和含義。這使XML成為一種程序能自動理解的規(guī)范。
XML應用于將大量運算負荷分布在客戶端,即客戶可根據(jù)自己的需求選擇和制作不同的應用程序以處理數(shù)據(jù),而服務器只須發(fā)出同一個XML文件。如按傳統(tǒng)的“Client/Server”工作方式,客戶向服務器發(fā)出不同的請求,服務器分別予以響應,這不僅加重服務器本身的負荷,而且網(wǎng)絡管理者還須事先調查各種不同的用戶需求以做出相應不同的程序,但假如用戶的需求繁雜而多變,則仍然將所有業(yè)務邏輯集中在服務器端是不合適的,因為服務器端的編程人員可能來不及滿足眾多的應用需求,也來不及跟上需求的變化,雙方都很被動。應用XML則將處理數(shù)據(jù)的主動權交給了客戶,服務器所作的只是盡可能完善、準確地將數(shù)據(jù)封裝進XML文件中,正是各取所需、各司其職。XML的自解釋性使客戶端在收到數(shù)據(jù)的同時也理解數(shù)據(jù)的邏輯結構與含義,從而使廣泛、通用的分布式計算成為可能。
XML還被應用于網(wǎng)絡代理,以便對所取得的信息進行編輯、增減以適應個人用戶的需要。有些客戶取得數(shù)據(jù)并不是為了直接使用而是為了根據(jù)需要組織自己的數(shù)據(jù)庫。比方說,教育部門要建立一個龐大的題庫,考試時將題庫中的題目取出若干組成試卷,再將試卷封裝進XML文件,接下來在各個學校讓其通過一個過濾器,濾掉所有的答案,再發(fā)送到各個考生面前,未經(jīng)過濾的內(nèi)容則可直接送到老師手中,當然考試過后還可以再傳送一份答案匯編。此外,XML文件中還可以包含進諸如難度系數(shù)、往年錯誤率等其他相關信息,這樣只需幾個小程序,同一個XML文件便可變成多個文件傳送到不同的用戶手中。
面向 Web 的數(shù)據(jù)挖掘是一項復雜的技術,由于 Web 數(shù)據(jù)挖掘比單個數(shù)據(jù)倉庫的挖掘要復雜的多,因而面向 Web 的數(shù)據(jù)挖掘成了一個難以解決的問題。而 XML 的出現(xiàn)為解決 Web 數(shù)據(jù)挖掘的難題帶來了機會。由于 XML 能夠使不同來源的結構化的數(shù)據(jù)很容易地結合在一起,因而使搜索多樣的不兼容的數(shù)據(jù)庫能夠成為可能,從而為解決 Web 數(shù)據(jù)挖掘難題帶來了希望。 XML 的擴展性和靈活性允許 XML 描述不同種類應用軟件中的數(shù)據(jù),從而能描述搜集的 Web 頁中的數(shù)據(jù)記錄。同時,由于基于 XML 的數(shù)據(jù)是自我描述的,數(shù)據(jù)不需要有內(nèi)部描述就能被交換和處理。作為表示結構化數(shù)據(jù)的一個工業(yè)標準, XML 為組織、軟件開發(fā)者、 Web 站點和終端使用者提供了許多有利條件。相信在以后,隨著 XML 作為在 Web 上交換數(shù)據(jù)的一種標準方式的出現(xiàn),面向 Web 的數(shù)據(jù)挖掘將會變得非常輕松。
12數(shù)據(jù)挖掘應用
12. 1 數(shù)據(jù)挖掘解決的典型商業(yè)問題
需要強調的是,數(shù)據(jù)挖掘技術從一開始就是面向應用的。
目前,在很多領域,數(shù)據(jù)挖掘(data mining)都是一個很時髦的詞,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業(yè)領域。數(shù)據(jù)挖掘所能解決的典型商業(yè)問題包括:數(shù)據(jù)庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等。
12. 2
數(shù)據(jù)挖掘在市場營銷的應用
數(shù)據(jù)挖掘技術在企業(yè)市場營銷中得到了比較普遍的應用,它是以市場營銷學的市場細分原理為基礎,其基本假定是“消費者過去的行為是其今后消費傾向的最好說明”。 f'偉)狃0蕨 ?
通過收集、加工和處理涉及消費者消費行為的大量信息,確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體下一步的消費行為,然后以此為基礎,對所識別出來的消費群體進行特定內(nèi)容的定向營銷,這與傳統(tǒng)的不區(qū)分消費者對象特征的大規(guī)模營銷手段相比,大大節(jié)省了營銷成本,提高了營銷效果,從而為企業(yè)帶來更多的利潤。
商業(yè)消費信息來自市場中的各種渠道。例如,每當我們用信用卡消費時,商業(yè)企業(yè)就可以在信用卡結算過程收集商業(yè)消費信息,記錄下我們進行消費的時間、地點、感興趣的商品或服務、愿意接收的價格水平和支付能力等數(shù)據(jù);當我們在申辦信用卡、辦理汽車駕駛執(zhí)照、填寫商品保修單等其他需要填寫表格的場合時,我們的個人信息就存入了相應的業(yè)務數(shù)據(jù)庫;企業(yè)除了自行收集相關業(yè)務信息之外,甚至可以從其他公司或機構購買此類信息為自己所用。 |<???蚉b ?
這些來自各種渠道的數(shù)據(jù)信息被組合,應用超級計算機、并行處理、神經(jīng)元網(wǎng)絡、模型化算法和其他信息處理技術手段進行處理,從中得到商家用于向特定消費群體或個體進行定向營銷的決策信息。這種數(shù)據(jù)信息是如何應用的呢?舉一個簡單的例子,當銀行通過對業(yè)務數(shù)據(jù)進行挖掘后,發(fā)現(xiàn)一個銀行帳戶持有者突然要求申請雙人聯(lián)合帳戶時,并且確認該消費者是第一次申請聯(lián)合帳戶,銀行會推斷該用戶可能要結婚了,它就會向該用戶定向推銷用于購買房屋、支付子女學費等長期投資業(yè)務,銀行甚至可能將該信息賣給專營婚慶商品和服務的公司。數(shù)據(jù)挖掘構筑競爭優(yōu)勢。 設Z Q?埤2 ?
在市場經(jīng)濟比較發(fā)達的國家和地區(qū),許多公司都開始在原有信息系統(tǒng)的基礎上通過數(shù)據(jù)挖掘對業(yè)務信息進行深加工,以構筑自己的競爭優(yōu)勢,擴大自己的營業(yè)額。美國運通公司(American Express)有一個用于記錄信用卡業(yè)務的數(shù)據(jù)庫,數(shù)據(jù)量達到54億字符,并仍在隨著業(yè)務進展不斷更新。運通公司通過對這些數(shù)據(jù)進行挖掘,制定了“關聯(lián)結算(Relation ship Billing)優(yōu)惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運通卡在該商店的使用率。再如,居住在倫敦的持卡消費者如果最近剛剛乘英國航空公司的航班去過巴黎,那么他可能會得到一個周末前往紐約的機票打折優(yōu)惠卡。
基于數(shù)據(jù)挖掘的營銷,常常可以向消費者發(fā)出與其以前的消費行為相關的推銷材料。卡夫(Kraft)食品公司建立了一個擁有3000萬客戶資料的數(shù)據(jù)庫,數(shù)據(jù)庫是通過收集對公司發(fā)出的優(yōu)惠券等其他促銷手段作出積極反應的客戶和銷售記錄而建立起來的,卡夫公司通過數(shù)據(jù)挖掘了解特定客戶的興趣和口味,并以此為基礎向他們發(fā)送特定產(chǎn)品的優(yōu)惠券,并為他們推薦符合客戶口味和健康狀況的卡夫產(chǎn)品食譜。美國的讀者文摘(Reader's Digest)出版公司運行著一個積累了40年的業(yè)務數(shù)據(jù)庫,其中容納有遍布全球的一億多個訂戶的資料,數(shù)據(jù)庫每天24小時連續(xù)運行,保證數(shù)據(jù)不斷得到實時的更新,正是基于對客戶資料數(shù)據(jù)庫進行數(shù)據(jù)挖掘的優(yōu)勢,使讀者文摘出版公司能夠從通俗雜志擴展到專業(yè)雜志、書刊和聲像制品的出版和發(fā)行業(yè)務,極大地擴展了自己的業(yè)務。
基于數(shù)據(jù)挖掘的營銷對我國當前的市場競爭中也很具有啟發(fā)意義,我們經(jīng)常可以看到繁華商業(yè)街上一些廠商對來往行人不分對象地散發(fā)大量商品宣傳廣告,其結果是不需要的人隨手丟棄資料,而需要的人并不一定能夠得到。如果搞家電維修服務的公司向在商店中剛剛購買家電的消費者郵寄維修服務廣告,賣特效藥品的廠商向醫(yī)院特定門診就醫(yī)的病人郵寄廣告,肯定會比漫無目的的營銷效果要好得多。
12. 3
成功案例
1 電話收費和管理辦法
加拿大BC省電話公司要求加拿大Simon Fraser大學KDD研究組根據(jù)其擁有的十多年的客戶數(shù)據(jù),總結、分析并提出新的電話收費和管理辦法,制定既有利于公司又有利于客戶的優(yōu)惠政策。
2 競技運動中的數(shù)據(jù)挖掘
美國著名的國家籃球隊NBA的教練,利用IBM公司提供的數(shù)據(jù)挖掘工具臨場決定替換隊員。想象你是NBA的教練,你靠什么帶領你的球隊取得勝利呢?當然,最容易想到的是全場緊逼、交叉扯動和快速搶斷等具體的戰(zhàn)術和技術。但是今天,NBA的教練又有了他們的新式武器:數(shù)據(jù)挖掘。大約20個NBA球隊使用了IBM公司開發(fā)的數(shù)據(jù)挖掘應用軟件Advanced Scout系統(tǒng)來優(yōu)化他們的戰(zhàn)術組合。例如Scout就因為研究了魔術隊隊員不同的布陣安排,在與邁阿密熱隊的比賽中找到了獲勝的機會。
----
系統(tǒng)分析顯示魔術隊先發(fā)陣容中的兩個后衛(wèi)安佛尼.哈德衛(wèi)(Anfernee Hardaway)和伯蘭.紹(Brian Shaw)在前兩場中被評為-17分,這意味著他倆在場上,本隊輸?shù)舻姆謹?shù)比得到的分數(shù)多17分。然而,當哈德衛(wèi)與替補后衛(wèi)達利爾.阿姆斯創(chuàng)(Darrell Armstrong)組合時,魔術隊得分為正14分。
----
在下一場中,魔術隊增加了阿姆斯創(chuàng)的上場時間。此著果然見效:阿姆斯創(chuàng)得了21分,哈德衛(wèi)得了42分,魔術隊以88比79獲勝。魔術隊在第四場讓阿姆斯創(chuàng)進入先發(fā)陣容,再一次打敗了熱隊。在第五場比賽中,這個靠數(shù)據(jù)挖掘支持的陣容沒能拖住熱隊,但Advanced Scout畢竟幫助了魔術隊贏得了打滿5場,直到最后才決出勝負的機會。
----
Advanced Scout是一個數(shù)據(jù)分析工具,教練可以用便攜式電腦在家里或在路上挖掘存儲在NBA中心的服務器上的數(shù)據(jù)。每一場比賽的事件都被統(tǒng)計分類,按得分、助攻、失誤等等。時間標記讓教練非常容易地通過搜索NBA比賽的錄像來理解統(tǒng)計發(fā)現(xiàn)的含義。例如:教練通過Advanced Scout發(fā)現(xiàn)本隊的球員在與對方一個球星對抗時有犯規(guī)紀錄,他可以在對方球星與這個隊員“頭碰頭”的瞬間分解雙方接觸的動作,進而設計合理的防守策略。
----
Advanced Scout的開發(fā)人,因德帕爾.布罕德瑞,開發(fā)該應用時他正在IBM的ThomasJ.Watson研究中心當研究員,他演示了一個技術新手應該如何使用數(shù)據(jù)挖掘。布罕德瑞說:“教練們可以完全沒有統(tǒng)計學的培訓,但他們可以利用數(shù)據(jù)挖掘制定策略”。與此同時,另一個正式的體育聯(lián)盟,國家曲棍球聯(lián)盟,正在開發(fā)自己的數(shù)據(jù)挖掘應用NHL-ICE,聯(lián)盟與IBM建立了一個技術型的合資公司,去年11月推出一個電子實時的比賽計分和統(tǒng)計系統(tǒng)。在原理上是一個與Advanced Scout相似的數(shù)據(jù)挖掘應用,可以讓教練、廣播員、新聞記者及球迷挖掘NHL的統(tǒng)計。當他們訪問NHL的Web站點時,球迷能夠使用該系統(tǒng)循環(huán)看聯(lián)盟的比賽,同時廣播員和新聞記者可以挖掘統(tǒng)計數(shù)據(jù),找花邊新聞為他們的實況評述添油加醋。
----
當然,所有系統(tǒng)都有其局限性。所以不要期望這樣的數(shù)據(jù)挖掘可以幫助一支球隊找到贏得足球世界杯的策略。
3
數(shù)據(jù)挖掘技術在商業(yè)銀行中的應用
金融事務需要搜集和處理大量的數(shù)據(jù),由于銀行在金融領域的地位、工作性質、業(yè)務特點以及激烈的市場競爭決定了它對信息化、電子化比其它領域有更迫切的要求。利用數(shù)據(jù)挖掘技術可以幫助銀行產(chǎn)品開發(fā)部門描述客戶以往的需求趨勢,并預測未來。美國商業(yè)銀行是發(fā)達國家商業(yè)銀行的典范,許多地方值得我國學習和借鑒。
數(shù)據(jù)挖掘技術在美國銀行金融領域應用廣泛。金融事務需要搜集和處理大量數(shù)據(jù),對這些數(shù)據(jù)進行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個客戶、消費群體或組織的金融和商業(yè)興趣,并可觀察金融市場的變化趨勢。商業(yè)銀行業(yè)務的利潤和風險是共存的。為了保證最大的利潤和最小的風險,必須對帳戶進行科學的分析和歸類,并進行信用評估。
Mellon
銀行使用
Intelligent Agent
數(shù)據(jù)挖掘軟件提高銷售和定價金融產(chǎn)品的精確度,如家庭普通貸款。零售信貸客戶主要有兩類,一類很少使用信貸限額(低循環(huán)者),另一類能夠保持較高的未清余額(高循環(huán)者)。每一類都代表著銷售的挑戰(zhàn)。低循環(huán)者代表缺省和支出注銷費用的危險性較低,但會帶來極少的凈收入或負收入,因為他們的服務費用幾乎與高循環(huán)者的相同。銀行常常為他們提供項目,鼓勵他們更多地使用信貸限額或找到交叉銷售高利潤產(chǎn)品的機會。高循環(huán)者由高和中等危險元件構成。高危險分段具有支付缺省和注銷費用的潛力。對于中等危險分段,銷售項目的重點是留住可獲利的客戶并爭取能帶來相同利潤的新客戶。但根據(jù)新觀點,用戶的行為會隨時間而變化。分析客戶整個生命周期的費用和收入就可以看出誰是最具創(chuàng)利潛能的。
Mellon
銀行認為“根據(jù)市場的某一部分進行定制”能夠發(fā)現(xiàn)最終用戶并將市場定位于這些用戶。但是,要這么做就必須了解關于最終用戶特點的信息。數(shù)據(jù)挖掘工具為
Mellon
銀行提供了獲取此類信息的途徑。
Mellon
銀行銷售部在先期數(shù)據(jù)挖掘項目上使用
Intelligence Agent
尋找信息,主要目的是確定現(xiàn)有
Mellon
用戶購買特定附加產(chǎn)品:家庭普通信貸限額的傾向,利用該工具可生成用于檢測的模型。據(jù)銀行官員稱:
Intelligence Agent
可幫助用戶增強其商業(yè)智能,如交往、分類或回歸分析,依賴這些能力,可對那些有較高傾向購買銀行產(chǎn)品、服務產(chǎn)品和服務的客戶進行有目的的推銷。該官員認為,該軟件可反饋用于分析和決策的高質量信息,然后將信息輸入產(chǎn)品的算法。
Intelligence Agent
還有可定制能力。
美國
Firstar
銀行使用
Marksman
數(shù)據(jù)挖掘工具,根據(jù)客戶的消費模式預測何時為客戶提供何種產(chǎn)品。
Firstar
銀行市場調查和數(shù)據(jù)庫營銷部經(jīng)理發(fā)現(xiàn):公共數(shù)據(jù)庫中存儲著關于每位消費者的大量信息,關鍵是要透徹分析消費者投入到新產(chǎn)品中的原因,在數(shù)據(jù)庫中找到一種模式,從而能夠為每種新產(chǎn)品找到最合適的消費者。
Marksman
能讀取
800
到
1000
個變量并且給它們賦值,根據(jù)消費者是否有家庭財產(chǎn)貸款、賒帳卡、存款證或其它儲蓄、投資產(chǎn)品,將它們分成若干組,然后使用數(shù)據(jù)挖掘工具預測何時向每位消費者提供哪種產(chǎn)品。預測準客戶的需要是美國商業(yè)銀行的競爭優(yōu)勢。
4 因特網(wǎng)篩選
最近,還有不少DMKD產(chǎn)品用來篩選因特網(wǎng)上的新聞,保護用戶不受無聊電子郵件和商業(yè)推銷的干擾,很受歡迎。
13 實施數(shù)據(jù)挖掘項目考慮的問題
談到數(shù)據(jù)挖掘應從以下三方面加以考慮,一是用數(shù)據(jù)挖掘解決什么樣的商業(yè)問題,二是為進行數(shù)據(jù)挖掘所做的數(shù)據(jù)準備,三是數(shù)據(jù)挖掘的各種分析算法。
數(shù)據(jù)挖掘的分析算法主要來自于以下兩個方面:統(tǒng)計分析和人工智能(機器學習、模式識別等)。數(shù)據(jù)挖掘研究人員和數(shù)據(jù)挖掘軟件供應商,在這一方面所做的主要工作是優(yōu)化現(xiàn)有的一些算法,以適應大數(shù)據(jù)量。另外需要強調的是,任何一種數(shù)據(jù)挖掘的算法,不管是統(tǒng)計分析方法、神經(jīng)元網(wǎng)絡、各種樹分析方法,還是遺傳算法,沒有一種算法是萬能的。不同的商業(yè)問題,需要用不同的方法去解決。即使對于同一個商業(yè)問題,可能有多種算法,這個時候,也需要評估對于這一特定問題和特定數(shù)據(jù)哪一種算法表現(xiàn)好。
做數(shù)據(jù)挖掘研究的人,往往把主要的精力用于改進現(xiàn)有算法和研究新算法上。人們都知道數(shù)據(jù)準備是必不可少的一步,但很少有人去真正花時間和精力去研究。其實數(shù)據(jù)挖掘最后成功與失敗,是否有經(jīng)濟效益,數(shù)據(jù)準備起到了至關重要的作用。數(shù)據(jù)準備包含很多方面:一是從多種數(shù)據(jù)源去綜合數(shù)據(jù)挖掘所需要的數(shù)據(jù),保證數(shù)據(jù)的綜合性、易用性、數(shù)據(jù)的質量和數(shù)據(jù)的時效性,這有可能要用到數(shù)據(jù)倉庫的思想和技術;另一方面就是如何從現(xiàn)有數(shù)據(jù)中衍生出所需要的指標,這主要取決于數(shù)據(jù)挖掘者的分析經(jīng)驗和工具的方便性。
眾所周知,SQL是廣泛用于數(shù)據(jù)庫查詢的語言,有很多數(shù)據(jù)挖掘軟件提供商利用SQL來為數(shù)據(jù)挖掘做數(shù)據(jù)準備,但就筆者多年來的分析經(jīng)驗和同其他專家探討感覺到,SQL在很多時候有些力不從心,因為數(shù)據(jù)挖掘和分析的一些算法通常要求數(shù)據(jù)具有一定的格式和規(guī)范性。
還需要強調的一點是,人們通常把數(shù)據(jù)挖掘工具看得過份神秘,認為只要有了一個數(shù)據(jù)挖掘工具,就能自動挖掘出所需要的信息,就能更好地進行企業(yè)運作,這是認識上的一個誤區(qū)。其實要想真正做好數(shù)據(jù)挖掘,數(shù)據(jù)挖掘工具只是其中的一個方面,同時還需要對企業(yè)業(yè)務的深入了解和數(shù)據(jù)分析經(jīng)驗。一個企業(yè)要想在未來的市場中具有競爭力,必須有一些數(shù)據(jù)挖掘方面的專家,專門從事數(shù)據(jù)分析和數(shù)據(jù)挖掘工作。再同其他部門協(xié)調,把挖掘出來的信息供管理者決策參考,最后把挖掘出的知識物化。在國內(nèi)的企業(yè)中,還很少有決策人員認識到這一點。如果管理者沒有這方面的意識,數(shù)據(jù)挖掘和數(shù)據(jù)分析就很難發(fā)揮應有的作用,很容易走向兩個極端,一是認為數(shù)據(jù)挖掘沒有用處,二是開始認為數(shù)據(jù)挖掘是萬能的。如此得到的結果往往與初始期望相去太遠。
14 實施數(shù)據(jù)挖掘項目考慮的問題
1.
超大規(guī)模數(shù)據(jù)庫和高維數(shù)據(jù)問題;
2.
數(shù)據(jù)丟失問題;
3.
變化的數(shù)據(jù)和知識問題;
4.
模式的易懂性問題;
5.
非標準格式的數(shù)據(jù)、多媒體數(shù)據(jù)、面向對象數(shù)據(jù)處理問題;
6.
與其他系統(tǒng)的集成問題;
7.
網(wǎng)絡與分布式環(huán)境下的KDD問題。
8.
個人隱私問題
當然數(shù)據(jù)挖掘也會帶來一些社會問題,其中最敏感的要屬個人隱私問題。當消費者感覺到他們的個人信息被非授權使用、濫用甚至出賣時,他們會感到他們的個人隱私受到了嚴重侵害。例如,在西方有的警察為了防止來自罪犯的報復,往往要注意保守自己家庭地址和電話號碼不被泄露,但當他的新生嬰兒在醫(yī)院出生后,醫(yī)院可能會將相應的信息出賣給專營新生兒用品或服務的公司,使他全然失去安全感。也許當你用信用卡為你妻子的婦科診療付費后,你會回家后收到來自保險公司的婦科保險征訂單、來自廠商的婦科保健用品廣告等,你會如何感受?正是由于這種狀況,在有些發(fā)達國家,許多人認為政府和商業(yè)機構對他們個人的事知道得太多了,為此,他們寧可放棄使用信用卡消費。
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。