無為

          無為則可為,無為則至深!

            BlogJava :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
            190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

          一、 時代的挑戰(zhàn) 檛犫虎鏈?d ?
            近十幾年來 , 人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高 , 千萬萬個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等 , 這一勢頭仍將持續(xù)發(fā)展下去。于是 , 一個新的挑戰(zhàn)被提了出來 : 在這被稱之為信息爆炸的時代 , 信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒 , 從中及時發(fā)現(xiàn)有用的知識 , 提高信息利用率呢 ? 要想使數(shù)據(jù)真正成為一個公司的資源 , 只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行 , 否則大量的數(shù)據(jù)可能成為包袱 , 甚至成為垃圾。因此 , 面對 " 人們被數(shù)據(jù)淹沒 , 人們卻饑餓于知識 " 的挑戰(zhàn) , 數(shù)據(jù)挖掘和知識發(fā)現(xiàn) (DMKD) 技術(shù)應(yīng)運而生 , 并得以蓬勃發(fā)展 , 越來越顯示出其強大的生命力。 學(xué)畑??y??
          [[潚;w:??
            數(shù)據(jù)挖掘 (Data Mining) 就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中 , 提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。還有很多和這一術(shù)語相近似的術(shù)語 , 如從數(shù)據(jù)庫中發(fā)現(xiàn)知識 (KDD) 、數(shù)據(jù)分析、數(shù)據(jù)融合 (Data Fusion) 以及決策支持等。人們把原始數(shù)據(jù)看作是形成知識的源泉 , 就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的 , 如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù) , 也可以是半結(jié)構(gòu)化的 , 如文本、圖形、圖像數(shù)據(jù) , 甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的 , 也可以是非數(shù)學(xué)的 ; 可以是演繹的 , 也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等 , 還可以用于數(shù)據(jù)自身的維護。因此 , 數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科 , 它匯聚了不同領(lǐng)域的研究者 , 尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員。 癅7景鞬L??
          墐販!U;徫l ?
            特別要指出的是 , 數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用 , 而且要對這些數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理 , 以指導(dǎo)實際問題的求解 , 企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián) , 甚至利用已有的數(shù)據(jù)對未來的活動進行預(yù)測。 4i}y櫂w? ?
          )蕊V吱膣I ?
          二、 研究現(xiàn)狀 峻6&?琟 ?
          + P%閼???
             KDD 一詞首次出現(xiàn)在 1989 8 月舉行的第 11 屆國際聯(lián)合人工智能學(xué)術(shù)會議上。迄今為止 , 由美國人工智能協(xié)會主辦的 KDD 國際研討會已經(jīng)召開了 7 , 規(guī)模由原來的專題討論會發(fā)展到國際學(xué)術(shù)大會 , 人數(shù)由二三十人到七八百人 , 論文收錄比例從 2X1 6X1, 研究重點也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用 , 并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成 , 以及多種學(xué)科之間的相互滲透。其他內(nèi)容的專題會議也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為議題之一 , 成為當(dāng)前計算機科學(xué)界的一大熱點。

            此外 , 數(shù)據(jù)庫、人工智能、信息處理、知識工程等領(lǐng)域的國際學(xué)術(shù)刊物也紛紛開辟了 KDD 專題或?qū)??/span> IEEE Knowledge and Data Engineering 會刊領(lǐng)先在 1993 年出版了 KD D 技術(shù)???/span> , 所發(fā)表的 5 篇論文代表了當(dāng)時 KDD 研究的最新成果和動態(tài) , 較全面地論述了 KDD 系統(tǒng)方法論、發(fā)現(xiàn)結(jié)果的評價、 KDD 系統(tǒng)設(shè)計的邏輯方法 , 集中討論了鑒于數(shù)據(jù)庫的動態(tài)性冗余、高噪聲和不確定性、空值等問題 ,KDD 系統(tǒng)與其它傳統(tǒng)的機器學(xué)習(xí)、專家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計分析系統(tǒng)的聯(lián)系和區(qū)別 , 以及相應(yīng)的基本對策。 6 篇論文摘要展示了 KDD 在從建立分子模型到設(shè)計制造業(yè)的具體應(yīng)用。 ? 瑞奔身?靬 ?
          ?烪?餌[5 ?
            不僅如此 , Internet 上還有不少 KDD 電子出版物 , 其中以半月刊 Knowledge Discove ryNuggets 最為權(quán)威 , 另一份在線周刊為 DS*(DS 代表決策支持 ),1997 10 7 日開始出版。在網(wǎng)上 , 還有一個自由論壇 DM Email Club, 人們通過電子郵件相互討論 DMKD 的熱點問題。而領(lǐng)導(dǎo)整個潮流的 DMKD 開發(fā)和研究中心 , 當(dāng)數(shù)設(shè)在美國 EMDEN IBM 公司開發(fā)部。 至于 DMKD 書籍 , 可以在任何計算機書店找到十多本 , 但大多帶有商業(yè)色彩。 S*@%蠻0$2 ?
          ?V橛牶# ?
          三、內(nèi)容和本質(zhì) ?RCKO葺 ?
          橣鐲?墊p??
            隨著 DMKD 研究逐步走向深入 , 人們越來越清楚地認識到 ,DMKD 的研究主要有 3 個技術(shù)支柱 , 即數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計。 ? {鮣珧 ?樗 ?
          胥?L ? ?
            數(shù)據(jù)庫技術(shù)在經(jīng)過了 80 年代的輝煌之后 , 已經(jīng)在各行各業(yè)成為一種數(shù)據(jù)庫文化或時尚 , 數(shù)據(jù)庫界目前除了關(guān)注萬維網(wǎng)數(shù)據(jù)庫、分布式數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、多媒體數(shù)據(jù)庫、查詢優(yōu)化和并行計算等技術(shù)外 , 已經(jīng)在開始反思。數(shù)據(jù)庫最實質(zhì)的應(yīng)用僅僅是查詢嗎 ? 理論根基最深的關(guān)系數(shù)據(jù)庫最本質(zhì)的技術(shù)進步點 , 就是數(shù)據(jù)存放和數(shù)據(jù)使用之間的相互分離。查詢是數(shù)據(jù)庫的奴隸 , 發(fā)現(xiàn)才是數(shù)據(jù)庫的主人 ; 數(shù)據(jù)只為職員服務(wù) , 不為老板服務(wù) ! 這是很多單位的領(lǐng)導(dǎo)在熱心數(shù)據(jù)庫建設(shè)后發(fā)出的感嘆。 ? F(?滽鑻 ?
          篛}uX卐 ?
            由于數(shù)據(jù)庫文化的迅速普及 , 用數(shù)據(jù)庫作為知識源具有堅實的基礎(chǔ) ; 另一方面 , 對于一個感興趣的特定領(lǐng)域——客觀世界 , 先用數(shù)據(jù)庫技術(shù)將其形式化并組織起來 , 就會大大提高知識獲取起點 , 以后從中發(fā)掘或發(fā)現(xiàn)的所有知識都是針對該數(shù)據(jù)庫而言的。因此 , 在需求的驅(qū)動下 , 很多數(shù)據(jù)庫學(xué)者轉(zhuǎn)向?qū)?shù)據(jù)倉庫和數(shù)據(jù)挖掘的研究 , 從對演繹數(shù)據(jù)庫的研究轉(zhuǎn)向?qū)w納數(shù)據(jù)庫的研究。 ? Q8 嗶> ?
          牽餖bh熟?= ?
            專家系統(tǒng)曾經(jīng)是人工智能研究工作者的驕傲。專家系統(tǒng)實質(zhì)上是一個問題求解系統(tǒng) , 目前的主要理論工具是基于謂詞演算的機器定理證明技術(shù)——二階演繹系統(tǒng)。領(lǐng)域?qū)<议L期以來面向一個特定領(lǐng)域的經(jīng)驗世界 , 通過人腦的思維活動積累了大量有用信息。

            在研制一個專家系統(tǒng)時 , 知識工程師首先要從領(lǐng)域?qū)<夷抢铽@取知識 , 這一過程實質(zhì)上是歸納過程 , 是非常復(fù)雜的個人到個人之間的交互過程 , 有很強的個性和隨機性。因此 , 知識獲取成為專家系統(tǒng)研究中公認的瓶頸問題。 字z:棅畝 ?
          u藖?lt;奩q? ?
            其次 , 知識工程師在整理表達從領(lǐng)域?qū)<夷抢铽@得的知識時 , if-then 等類的規(guī)則表達 , 約束性太大 , 用常規(guī)數(shù)理邏輯來表達社會現(xiàn)象和人的思維活動局限性太大 , 也太困難 , 勉強抽象出來的規(guī)則有很強的工藝色彩 , 差異性極大 , 知識表示又成為一大難題。 ?躷,菚h ?
          j?l譓t. ?
            此外 , 即使某個領(lǐng)域的知識通過一定手段獲取并表達了 , 但這樣做成的專家系統(tǒng)對常識和百科知識出奇地貧乏 , 而人類專家的知識是以擁有大量常識為基礎(chǔ)的。人工智能學(xué)家 Feigenbaum 估計 , 一般人擁有的常識存入計算機大約有 100 萬條事實和抽象經(jīng)驗法則 , 離開常識的專家系統(tǒng)有時會比傻子還傻。例如戰(zhàn)場指揮員會根據(jù) " 在某地發(fā)現(xiàn)一只剛死的波斯貓 " 的情報很快斷定敵高級指揮所的位置 , 而再好的軍事專家系統(tǒng)也難以顧全到如此的信息。 m?-喒j#??
          撀緳葎 ?
            以上這 3 大難題大大限制了專家系統(tǒng)的應(yīng)用 , 使得專家系統(tǒng)目前還停留在構(gòu)造諸如發(fā)動機故障論斷一類的水平上。人工智能學(xué)者開始著手基于案例的推理 , 尤其是從事機器學(xué)習(xí)的科學(xué)家們 , 不再滿足自己構(gòu)造的小樣本學(xué)習(xí)模式的象牙塔 , 開始正視現(xiàn)實生活中大量的、不完全的、有噪聲的、模糊的、隨機的大數(shù)據(jù)樣本 , 也走上了數(shù)據(jù)挖掘的道路。 倀"殮0 ?
          5+?"銎??
            數(shù)理統(tǒng)計是應(yīng)用數(shù)學(xué)中最重要、最活躍的學(xué)科之一 , 它在計算機發(fā)明之前就誕生了 , 迄今已有幾百年的發(fā)展歷史。如今相當(dāng)強大有效的數(shù)理統(tǒng)計方法和工具 , 已成為信息咨詢業(yè)的基礎(chǔ)。信息時代 , 咨詢業(yè)更為發(fā)達。然而 , 數(shù)理統(tǒng)計和數(shù)據(jù)庫技術(shù)結(jié)合得并不算快 , 數(shù)據(jù)庫查詢語言 SQL 中的聚合函數(shù)功能極其簡單 , 就是一個證明。咨詢業(yè)用數(shù)據(jù)庫查詢數(shù)據(jù)還遠遠不夠。一旦人們有了從數(shù)據(jù)查詢到知識發(fā)現(xiàn)、從數(shù)據(jù)演繹到數(shù)據(jù)歸納的要求 , 概率論和數(shù)理統(tǒng)計就獲得了新的生命力 , 所以才會在 DMKD 這個結(jié)合點上 , 立即呈現(xiàn)出 " 忽如一夜春風(fēng)來 , 千樹萬樹梨花開 " 的繁榮景象。一向以數(shù)理統(tǒng)計工具和可視化計算聞名的美國 SA S 公司 , 領(lǐng)先宣布進入 DMKD 行列。 郋僤救搹1} ?
          ?緐yv?%- ?
            數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識有如下幾種 : 廣義型知識 , 反映同類事物共同性質(zhì)的知識 ; 特征型知識 , 反映事物各方面的特征知識 ; 差異型知識 , 反映不同事物之間屬性差別的知識 ; 關(guān)聯(lián)型知識 , 反映事物之間依賴或關(guān)聯(lián)的知識 ; 預(yù)測型知識 , 根據(jù)歷史的和當(dāng)前的數(shù)據(jù)推測未來數(shù)據(jù) ; 偏離型知識 , 揭示事物偏離常規(guī)的異?,F(xiàn)象。所有這些知識都可以在不同的概念層次上被發(fā)現(xiàn) , 隨著概念樹的提升 , 從微觀到中觀再到宏觀 , 以滿足不同用戶、不同層次決策的需要。 擄?儈巸 O ?
          n鳩?q??
          四、發(fā)展方向 #t罉\ ?
          橕€?/騳 ?
            當(dāng)前 ,DMKD 研究正方興未艾 , 預(yù)計在 21 世紀還會形成更大的高潮 , 研究焦點可能會集中到以下幾個方面 : 研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言 , 也許會像 SQL 語言一樣走向形式化和標(biāo)準(zhǔn)化 ; 尋求數(shù)據(jù)挖掘過程中的可視化方法 , 使得知識發(fā)現(xiàn)的過程能夠被用戶理解 , 也便于在知識發(fā)現(xiàn)過程中的人機交互 ; 研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù) , 特別是在 Int ernet 上建立 DMKD 服務(wù)器 , 與數(shù)據(jù)庫服務(wù)器配合 , 實現(xiàn)數(shù)據(jù)挖掘 ; 加強對各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘 , 如文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)。但是 , 無論怎樣 , 需求牽引 , 市場驅(qū)動是永恒的 ,DMKD 將首先滿足信息時代用戶的急需 , 大量基于 DMKD 的決策支持軟件工具產(chǎn)品將會問世



          凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
          、轉(zhuǎn)載請注明來處和原文作者。非常感謝。

          posted on 2006-06-24 14:59 草兒 閱讀(159) 評論(0)  編輯  收藏 所屬分類: BI and DM
          主站蜘蛛池模板: 赞皇县| 漯河市| 中超| 新绛县| 澎湖县| 金溪县| 同德县| 兴隆县| 龙江县| 克东县| 南木林县| 博客| 嘉黎县| 台山市| 鹤峰县| 封开县| 清丰县| 开原市| 容城县| 兴仁县| 红安县| 陈巴尔虎旗| 资阳市| 汤原县| 德钦县| 鄂伦春自治旗| 盐山县| 潮州市| 若羌县| 乌兰察布市| 罗甸县| 万荣县| 石首市| 本溪| 和龙市| 西华县| 新密市| 河源市| 应城市| 安福县| 南丹县|