?數據挖掘是什么?
人們在日常生活中經常會遇到這樣的情況:超市的經營者希望將經常被同時購買的商品放在一起,以增加銷售;保險公司想知道購買保險的客戶一般具有哪些特征;醫學研究人員希望從已有的成千上萬份病歷中找出患某種疾病的病人的共同特征,從而為治愈這種疾病提供一些幫助。
對于以上問題,現有信息管理系統中的數據分析工具無法給出答案。因為無論是查詢、統計還是報表,其處理方式都是對指定的數據進行簡單的數字處理,而不能對這些數據所包含的內在信息進行提取。隨著信息管理系統的廣泛應用和數據量激增,人們希望能夠提供更高層次的數據分析功能,從而更好地對決策或科研工作提供支持。
正是為了滿足這種要求,從大量數據中提取出隱藏在其中的有用信息,將機器學習應用于大型數據庫的數據挖掘(DataMining)技術得到了長足的發展。
數據挖掘,也可以稱為數據庫中的知識發現(KnowledgeDiscoveryinDatabase,KDD),是從大量數據中提取出可信、新穎、有效并能被人理解的模式的高級處理過程。
數據庫中的知識發現是一個多步驟的處理過程,一般分為:
問題定義了解相關領域的有關情況,熟悉背景知識,弄清用戶要求。
數據提取根據要求從數據庫中提取相關的數據。
數據預處理主要對前一階段產生的數據進行再加工,檢查數據的完整性及數據的一致性,對其中的噪音數據進行處理,對丟失的數據進行填補。
數據挖掘運用選定的知識發現算法,從數據中提取出用戶所需要的知識,這些知識可以用一種特定的方式表示或使用一些常用的表示方式。
知識評估將發現的知識以用戶能了解的方式呈現,根據需要對知識發現過程中的某些處理階段進行優化,直到滿足要求。
由此可見,數據挖掘只是數據庫中知識發現的一個步驟,但又是最重要的一步。因此,往往可以不加區別地使用KDD和數據挖掘。一般在研究領域被稱作數據庫中知識發現的,在工程領域則稱之為數據挖掘。
數據挖掘能做什么?
數據挖掘所涉及的學科領域和方法很多,以下四種是非常重要的發現任務。
數據總結其目的是對數據進行濃縮,給出它的緊湊描述。數據挖掘主要關心從數據泛化的角度來討論數據總結。數據泛化是一種把數據庫中的有關數據從低層次抽象到高層次上的過程。
分類其目的是學會一個分類函數或分類模型(也稱作分類器),該模型能把數據庫的數據項映射到給定類別中的某一個。
聚類是把一組個體按照相似性歸成若干類別,即"物以類聚"。它的目的是使屬于同一類別的個體之間的距離盡可能地小,而不同類別的個體間的距離盡可能地大。
關聯規則是形式如下的一種規則,"在購買面包和黃油的顧客中,有90%的人同時也買了牛奶"(面包+黃油?牛奶)。關聯規則發現的思路還可以用于序列模式發現。用戶在購買物品時,除了具有上述關聯規律,還有時間或序列上的規律。
前途光明的數據挖掘技術
隨著KDD在學術界和工業界的影響越來越大,國際KDD組委會于1995年把專題討論會更名為國際會議,在加拿大蒙特利爾市召開了第一屆KDD國際學術會議,以后每年召開一次。近年來,KDD在研究和應用方面發展迅速,尤其是在商業和銀行領域的應用比研究的發展速度還要快。
目前,國外數據挖掘的發展趨勢其研究方面主要有:對知識發現方法的研究進一步發展,如近年來注重對Bayes(貝葉斯)方法以及Boosting方法的研究和提高;傳統的統計學回歸法在KDD中的應用;KDD與數據庫的緊密結合。在應用方面包括:KDD商業軟件工具不斷產生和完善,注重建立解決問題的整體系統,而不是孤立的過程。用戶主要集中在大型銀行、保險公司、電信公司和銷售業。國外很多計算機公司非常重視數據挖掘的開發應用,IBM和微軟都成立了相應的研究中心進行這方面的工作,此外,一些公司的相關軟件也開始在國內銷售,如Platinum、BO以及IBM。
國內從事數據挖掘研究的人員主要在大學,也有部分在研究所或公司。所涉及的研究領域很多,一般集中于學習算法的研究、數據挖掘的實際應用以及有關數據挖掘理論方面的研究。目前進行的大多數研究項目是由政府資助進行的,如國家自然科學基金、863計劃、"九五"計劃等,但還沒有關于國內數據挖掘產品的報道。
一份最近的Gartner報告中列舉了在今后3~5年內對工業將產生重要影響的五項關鍵技術,其中KDD和人工智能排名第一。同時,這份報告將并行計算機體系結構研究和KDD列入今后5年內公司應該投資的10個新技術領域。
可以看出,數據挖掘的研究和應用受到了學術界和實業界越來越多的重視。進行數據挖掘的開發并不需要太多的積累,國內軟件廠家如果進入該領域,將處于和國外公司實力相差不很多的起跑線上,并且,現在關于數據挖掘的一些研究成果可以在Internet上免費獲取,這更是一個可以利用的條件。我們希望數據挖掘能夠引起國內實業界更多的重視,同時也希望能夠有更多的國內軟件廠商進入該領域。
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。
人們在日常生活中經常會遇到這樣的情況:超市的經營者希望將經常被同時購買的商品放在一起,以增加銷售;保險公司想知道購買保險的客戶一般具有哪些特征;醫學研究人員希望從已有的成千上萬份病歷中找出患某種疾病的病人的共同特征,從而為治愈這種疾病提供一些幫助。
對于以上問題,現有信息管理系統中的數據分析工具無法給出答案。因為無論是查詢、統計還是報表,其處理方式都是對指定的數據進行簡單的數字處理,而不能對這些數據所包含的內在信息進行提取。隨著信息管理系統的廣泛應用和數據量激增,人們希望能夠提供更高層次的數據分析功能,從而更好地對決策或科研工作提供支持。
正是為了滿足這種要求,從大量數據中提取出隱藏在其中的有用信息,將機器學習應用于大型數據庫的數據挖掘(DataMining)技術得到了長足的發展。
數據挖掘,也可以稱為數據庫中的知識發現(KnowledgeDiscoveryinDatabase,KDD),是從大量數據中提取出可信、新穎、有效并能被人理解的模式的高級處理過程。
數據庫中的知識發現是一個多步驟的處理過程,一般分為:
問題定義了解相關領域的有關情況,熟悉背景知識,弄清用戶要求。
數據提取根據要求從數據庫中提取相關的數據。
數據預處理主要對前一階段產生的數據進行再加工,檢查數據的完整性及數據的一致性,對其中的噪音數據進行處理,對丟失的數據進行填補。
數據挖掘運用選定的知識發現算法,從數據中提取出用戶所需要的知識,這些知識可以用一種特定的方式表示或使用一些常用的表示方式。
知識評估將發現的知識以用戶能了解的方式呈現,根據需要對知識發現過程中的某些處理階段進行優化,直到滿足要求。
由此可見,數據挖掘只是數據庫中知識發現的一個步驟,但又是最重要的一步。因此,往往可以不加區別地使用KDD和數據挖掘。一般在研究領域被稱作數據庫中知識發現的,在工程領域則稱之為數據挖掘。
數據挖掘能做什么?
數據挖掘所涉及的學科領域和方法很多,以下四種是非常重要的發現任務。
數據總結其目的是對數據進行濃縮,給出它的緊湊描述。數據挖掘主要關心從數據泛化的角度來討論數據總結。數據泛化是一種把數據庫中的有關數據從低層次抽象到高層次上的過程。
分類其目的是學會一個分類函數或分類模型(也稱作分類器),該模型能把數據庫的數據項映射到給定類別中的某一個。
聚類是把一組個體按照相似性歸成若干類別,即"物以類聚"。它的目的是使屬于同一類別的個體之間的距離盡可能地小,而不同類別的個體間的距離盡可能地大。
關聯規則是形式如下的一種規則,"在購買面包和黃油的顧客中,有90%的人同時也買了牛奶"(面包+黃油?牛奶)。關聯規則發現的思路還可以用于序列模式發現。用戶在購買物品時,除了具有上述關聯規律,還有時間或序列上的規律。
前途光明的數據挖掘技術
隨著KDD在學術界和工業界的影響越來越大,國際KDD組委會于1995年把專題討論會更名為國際會議,在加拿大蒙特利爾市召開了第一屆KDD國際學術會議,以后每年召開一次。近年來,KDD在研究和應用方面發展迅速,尤其是在商業和銀行領域的應用比研究的發展速度還要快。
目前,國外數據挖掘的發展趨勢其研究方面主要有:對知識發現方法的研究進一步發展,如近年來注重對Bayes(貝葉斯)方法以及Boosting方法的研究和提高;傳統的統計學回歸法在KDD中的應用;KDD與數據庫的緊密結合。在應用方面包括:KDD商業軟件工具不斷產生和完善,注重建立解決問題的整體系統,而不是孤立的過程。用戶主要集中在大型銀行、保險公司、電信公司和銷售業。國外很多計算機公司非常重視數據挖掘的開發應用,IBM和微軟都成立了相應的研究中心進行這方面的工作,此外,一些公司的相關軟件也開始在國內銷售,如Platinum、BO以及IBM。
國內從事數據挖掘研究的人員主要在大學,也有部分在研究所或公司。所涉及的研究領域很多,一般集中于學習算法的研究、數據挖掘的實際應用以及有關數據挖掘理論方面的研究。目前進行的大多數研究項目是由政府資助進行的,如國家自然科學基金、863計劃、"九五"計劃等,但還沒有關于國內數據挖掘產品的報道。
一份最近的Gartner報告中列舉了在今后3~5年內對工業將產生重要影響的五項關鍵技術,其中KDD和人工智能排名第一。同時,這份報告將并行計算機體系結構研究和KDD列入今后5年內公司應該投資的10個新技術領域。
可以看出,數據挖掘的研究和應用受到了學術界和實業界越來越多的重視。進行數據挖掘的開發并不需要太多的積累,國內軟件廠家如果進入該領域,將處于和國外公司實力相差不很多的起跑線上,并且,現在關于數據挖掘的一些研究成果可以在Internet上免費獲取,這更是一個可以利用的條件。我們希望數據挖掘能夠引起國內實業界更多的重視,同時也希望能夠有更多的國內軟件廠商進入該領域。
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。