聯(lián)機(jī)分析挖掘(OLAM)在政府統(tǒng)計(jì)工作中的應(yīng)用研究(一)
第一章 緒論
1.1 論文的選題背景
以往的基于數(shù)理統(tǒng)計(jì)方法的應(yīng)用大多都是通過專用程序來實(shí)現(xiàn)的,我們知道,大多數(shù)的統(tǒng)計(jì)分析技術(shù)是基于嚴(yán)格的數(shù)學(xué)理論和高超的應(yīng)用技巧的,這使得一般的用戶很難從容地掌握它。數(shù)據(jù)挖掘技術(shù)是數(shù)理統(tǒng)計(jì)分析應(yīng)用的延伸和發(fā)展,假如人們利用數(shù)據(jù)庫的方式從被動(dòng)地查詢變成了主動(dòng)發(fā)現(xiàn)知識(shí)的話,那么概率論和數(shù)理統(tǒng)計(jì)可以為我們從數(shù)據(jù)歸納知識(shí)這樣的數(shù)據(jù)挖掘技術(shù)提供理論基礎(chǔ)[1] 。
目前國內(nèi)各基層和中層的統(tǒng)計(jì)部門卻面臨一個(gè)相同的問題:在信息化技術(shù)的推動(dòng)下,如何將傳統(tǒng)的統(tǒng)計(jì)方法與計(jì)算機(jī)技術(shù)相結(jié)合,在一個(gè)集成的應(yīng)用環(huán)境中高效快捷的完成統(tǒng)計(jì)工作,同時(shí)對(duì)已有的數(shù)據(jù)進(jìn)行更深入地分析并做出推斷和決策。依靠過去人工的經(jīng)驗(yàn)預(yù)測(cè)方法已經(jīng)不能滿足實(shí)際工作的要求,政府工作中對(duì)統(tǒng)計(jì)部門的數(shù)據(jù)分析和推斷的要求卻在不斷加強(qiáng),新的理論和方法以及相應(yīng)的實(shí)現(xiàn)技術(shù)成為迫切的需要。
國家在編制國民經(jīng)濟(jì)計(jì)劃、進(jìn)行企業(yè)管理以及從事科學(xué)研究的時(shí)候,都離不開利用某些數(shù)字資料,比如研究對(duì)外貿(mào)易的情況時(shí),需要知道全國進(jìn)出口貿(mào)易總額,主要的商品進(jìn)出口數(shù)量等。統(tǒng)計(jì)資料就是通過數(shù)字反映一定空間、時(shí)間條件下,客觀現(xiàn)象的具體數(shù)量特征的。這些資料通過基層逐級(jí)的向上匯總,其間就是一個(gè)搜集和整理的過程,基層數(shù)據(jù)的準(zhǔn)確性和有效性直接影響到最終國家統(tǒng)計(jì)數(shù)據(jù)的可信性。政府部門還要根據(jù)這些資料做出必要的統(tǒng)計(jì)推斷,也就是更為復(fù)雜的統(tǒng)計(jì)分析。
通過深入調(diào)查研究,目前上海市區(qū)級(jí)政府統(tǒng)計(jì)部門的統(tǒng)計(jì)工作者對(duì)于統(tǒng)計(jì)信息管理系統(tǒng)普遍存在以下的要求:
a) 靈活的自定義查詢方式。
b) 數(shù)據(jù)多級(jí)匯總,允許指標(biāo)派生。
c) 允許使用人員從時(shí)間、空間和各種分類的角度查看各種粒度的匯總數(shù)據(jù)。
d) 等距和不等距的數(shù)據(jù)抽樣,抽樣間距可以指定。
e) 發(fā)現(xiàn)統(tǒng)計(jì)數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,比如近年來房地產(chǎn)投資受哪些經(jīng)濟(jì)指標(biāo)影響,并對(duì)其變化趨勢(shì)做出初步的預(yù)測(cè)。
顯然,如果說前幾條是查詢、匯總級(jí)別的,那么最后一條就是分析、挖掘級(jí)別的。這些要求都具有很強(qiáng)的實(shí)踐背景,是根據(jù)多年統(tǒng)計(jì)工作的經(jīng)驗(yàn)得出的,實(shí)際上也是目前各地基層和中層政府統(tǒng)計(jì)部門借助計(jì)算機(jī)亟待解決的問題。應(yīng)對(duì)這樣的需求,傳統(tǒng)的OLTP(聯(lián)機(jī)事務(wù)處理)技術(shù)已不能滿足,因?yàn)樗鼰o法高效地實(shí)現(xiàn)利用多維等高級(jí)數(shù)據(jù)模型進(jìn)行數(shù)據(jù)的聚合,并且缺乏較強(qiáng)的分析和預(yù)測(cè)功能,面對(duì)具有多維數(shù)據(jù)特征的統(tǒng)計(jì)數(shù)據(jù)庫更是如此。因此,帶有挖掘功能的聯(lián)機(jī)分析技術(shù)OLAM(聯(lián)機(jī)分析挖掘),成為我們關(guān)注的焦點(diǎn)。畢竟聯(lián)機(jī)分析挖掘技術(shù)很大程度上來源于傳統(tǒng)的統(tǒng)計(jì)方法,當(dāng)然可以反過來應(yīng)用到統(tǒng)計(jì)活動(dòng)中并推動(dòng)其發(fā)展。
1.2 OLAM的概念
1997年韓家偉教授提出了OLAM的概念,他把OLAM定義為OLAP Mining,指將OLAP和數(shù)據(jù)挖掘技術(shù)結(jié)合起來,在多維數(shù)據(jù)模型——數(shù)據(jù)立方體的基礎(chǔ)上對(duì)外提供數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)應(yīng)用。這實(shí)際上是在OLAP系統(tǒng)的基礎(chǔ)上對(duì)數(shù)據(jù)分析算法進(jìn)行擴(kuò)充,把數(shù)據(jù)挖掘算法引入多維數(shù)據(jù)模型的數(shù)據(jù)環(huán)境中來[2][3]。
1.3 國內(nèi)外應(yīng)用狀況
OLAM的理論在國外已經(jīng)日趨成熟,韓教授的學(xué)生進(jìn)一步研究了聯(lián)機(jī)分析挖掘?qū)?shù)據(jù)立方體的操作,將數(shù)據(jù)挖掘功能與OLAP的鉆取結(jié)合,使得數(shù)據(jù)挖掘可以在數(shù)據(jù)立方體這樣的多維和多層次的抽象空間中進(jìn)行,利于靈活地挖掘知識(shí)[a]。此外,他們還深入研究了從海量數(shù)據(jù)庫中挖掘多層關(guān)聯(lián)規(guī)則的方法[b]。韓教授及其合作伙伴將OLAM的理論和技術(shù)付諸于實(shí)際,開發(fā)了OLAM實(shí)用工具DBMiner [9]。
在國際數(shù)據(jù)挖掘產(chǎn)品領(lǐng)域中,DBMiner起步較早,產(chǎn)品也較為成熟,目前應(yīng)用該產(chǎn)品的廠商包括Microsoft,HP,IBM,Boeing等國外知名大公司,已取得了較好的應(yīng)用成效。
DBMiner整體架構(gòu)由三個(gè)模塊組成:圖形用戶界面、DBMiner引擎和通信模塊。圖形用戶界面主要完成與用戶的交互;DBMiner引擎是該系統(tǒng)的核心,所有知識(shí)發(fā)現(xiàn)的處理均由該模塊完成;通信模塊主要完成DBMiner與數(shù)據(jù)庫服務(wù)器之間的數(shù)據(jù)傳輸。DBMiner實(shí)用DMQL(Data Mining Query Language)描述KDD的任務(wù),利用AOI(Attribute-Oriented Induction)的方法進(jìn)行知識(shí)的獲取。以下(圖1-1)就是DBMiner的結(jié)構(gòu)圖。
圖1-1 DBMiner系統(tǒng)框圖
DBMiner系統(tǒng)包括三個(gè)工具包:DBMiner AX2002、DBMiner DX2002、DBMiner SX2002。其中DBMiner AX2002軟件包用于關(guān)聯(lián)規(guī)則挖掘,它從大量數(shù)據(jù)中挖掘出有價(jià)值的能夠描述數(shù)據(jù)項(xiàng)之間相互聯(lián)系的知識(shí),其主要應(yīng)用領(lǐng)域是挖掘客戶的消費(fèi)傾向和消費(fèi)規(guī)律。DBMiner DX2002軟件包用于挖掘關(guān)系數(shù)據(jù)庫和多維數(shù)據(jù)庫中數(shù)據(jù)的顯著變化,其主要應(yīng)用領(lǐng)域是挖掘企業(yè)利潤或某些重要數(shù)據(jù)指標(biāo)隨其它指標(biāo)變化的規(guī)律。DBMiner SX2002則是一個(gè)用于對(duì)時(shí)序數(shù)據(jù)和序列數(shù)據(jù)進(jìn)行挖掘的工具包,它主要用于挖掘企業(yè)經(jīng)營數(shù)據(jù)的趨勢(shì)特征。
DBMiner的特色在于:
Ø 通過ODBC連接多種數(shù)據(jù)源(Oracle、Sybase、SQL Server、Xbase、Text等),把數(shù)據(jù)倉庫、多維數(shù)據(jù)庫和數(shù)據(jù)挖掘技術(shù)集成在一個(gè)緊湊的系統(tǒng)中。
Ø 數(shù)據(jù)挖掘的功能非常完整,實(shí)現(xiàn)了切片(dicing),切塊(slicing),旋轉(zhuǎn)(Pivoting)和下鉆(drilling down)以及高效的數(shù)據(jù)挖掘語言。
Ø 提供了直觀的圖形用戶界面,可視化的數(shù)據(jù)瀏覽工具及聯(lián)機(jī)事務(wù)分析(OLAP)和聯(lián)機(jī)分析挖掘(OLAM)能力。
Ø 處理千兆級(jí)的大型數(shù)據(jù)庫。
盡管OLAM的理論和DBMiner這套工具已經(jīng)較為成熟了,但是國外針對(duì)OLAM應(yīng)用于統(tǒng)計(jì)工作的相關(guān)報(bào)道非常少,即使OLAM的創(chuàng)始人韓教授本人也未詳細(xì)談及OLAM在統(tǒng)計(jì)工作中的實(shí)際應(yīng)用。另外,DBMiner是面向商業(yè)用戶,而不是面向政府統(tǒng)計(jì)業(yè)務(wù)的系統(tǒng),因此將其應(yīng)用到政府統(tǒng)計(jì)工作中無法充分發(fā)揮它的優(yōu)勢(shì)。
此外,現(xiàn)在能夠提供方便多維分析支持的多維統(tǒng)計(jì)數(shù)據(jù)庫以加拿大統(tǒng)計(jì)局的CANSIMII[c]最為典型,該數(shù)據(jù)庫采用多立方體數(shù)據(jù)結(jié)構(gòu),整個(gè)數(shù)據(jù)庫中最基本的一個(gè)維是具體的調(diào)查表,將各表連接成一體,形成雪花結(jié)構(gòu)。然而,如何對(duì)其進(jìn)行數(shù)據(jù)挖掘及相關(guān)分析,以及是否采用OLAM技術(shù)還無法得到詳細(xì)官方資料的進(jìn)一步介紹。
目前,國內(nèi)對(duì)聯(lián)機(jī)分析挖掘的研究還處于起步階段,OLAM的概念已經(jīng)被廣大的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘研究工作者接受。一些學(xué)者提出了基于數(shù)據(jù)立方體的聯(lián)機(jī)分析挖掘模型[],該模型依賴數(shù)據(jù)倉庫和其他各種類型文件生成的工作倉庫系統(tǒng),綜合了聯(lián)機(jī)分析處理多維分析的在線性、靈活性和數(shù)據(jù)挖掘處理的智能化特點(diǎn),提高了傳統(tǒng)模型的靈活性和智能化程度。還有一些學(xué)者設(shè)計(jì)并實(shí)現(xiàn)了一種聯(lián)機(jī)分析挖掘應(yīng)用模型[],該模型建立了一種B/S架構(gòu)的雙服務(wù)器數(shù)據(jù)倉庫,將數(shù)據(jù)挖掘與OLAP思想相結(jié)合,提供多維度事務(wù)內(nèi)、事務(wù)間關(guān)聯(lián)規(guī)則的挖掘,并在此基礎(chǔ)上提出了傳統(tǒng)OLAP系統(tǒng)到OLAM系統(tǒng)平滑過渡的解決方案。此外,還有一些針對(duì)基于OLAM的可視化數(shù)據(jù)挖掘系統(tǒng)原形的研究。這些研究都是對(duì)有關(guān)OLAM實(shí)現(xiàn)模型的探索,還沒有得到更加深入和廣泛的應(yīng)用,相應(yīng)的實(shí)用工具很少。[4][5][6][7][8]
國內(nèi)政府統(tǒng)計(jì)部門結(jié)合計(jì)算機(jī)技術(shù)進(jìn)行統(tǒng)計(jì)處理過程中大多僅局限于采用OLAP的思想和方法,比如天津市統(tǒng)計(jì)局就采用NCR的Teradata建成了企業(yè)微觀數(shù)據(jù)倉庫和人口信息數(shù)據(jù)倉庫系統(tǒng)[d],并利用Brio Enterprise商業(yè)智能工具實(shí)現(xiàn)網(wǎng)上隨即查詢、網(wǎng)上多維分析、網(wǎng)上數(shù)據(jù)鉆取、網(wǎng)上旋轉(zhuǎn)透視等功能。但是建設(shè)專門的數(shù)據(jù)倉庫需要充分的數(shù)據(jù)、較長的周期,投入較大且?guī)в酗L(fēng)險(xiǎn),因此各區(qū)縣級(jí)的統(tǒng)計(jì)部門現(xiàn)在不可能采用這種方式。
雖然一些高級(jí)統(tǒng)計(jì)部門已經(jīng)開始關(guān)注數(shù)據(jù)挖掘技術(shù),但通常是采用專門的工具進(jìn)行數(shù)據(jù)分析和挖掘,這些工具包括國外廠商推出的SAS,SPSS、Oracle的相應(yīng)組件ODM以及國內(nèi)公司自主研發(fā)的馬克威統(tǒng)計(jì)分析系統(tǒng)。上海市統(tǒng)計(jì)局使用馬克威分析系統(tǒng)[e]已近兩年,其應(yīng)用領(lǐng)域主要包括國民經(jīng)濟(jì)統(tǒng)計(jì)、綜合統(tǒng)計(jì)、社會(huì)統(tǒng)計(jì)分析、企業(yè)調(diào)查等,該系統(tǒng)是集統(tǒng)計(jì)分析、數(shù)據(jù)挖掘和可視化展示為一體的大型軟件系統(tǒng)。
然而通過調(diào)查,我們發(fā)現(xiàn)目前政府統(tǒng)計(jì)部門尤其是中層或基層部門并未普遍購買這些比較成熟的商業(yè)統(tǒng)計(jì)分析以及數(shù)據(jù)挖掘軟件,充分利用這些軟件產(chǎn)品的就更少。這說明對(duì)廣大基層統(tǒng)計(jì)部門而言,數(shù)據(jù)挖掘的相關(guān)技術(shù)實(shí)際上還沒有完全被認(rèn)知和采納,相應(yīng)對(duì)OLAM的研究和應(yīng)用更是鳳毛麟角。究其原因主要在于以下幾點(diǎn):
l 這些軟件都是獨(dú)立的商業(yè)軟件,無法與統(tǒng)計(jì)局內(nèi)部的統(tǒng)計(jì)系統(tǒng)進(jìn)行緊密集成,無法在一個(gè)平臺(tái)上完成全部所需的操作。
l 其中許多功能在中層和基層部門中根本用不到,花錢買來的軟件得不到充分的利用,造成資源的浪費(fèi)。
l 最重要的是,這些軟件的采購費(fèi)用、培訓(xùn)費(fèi)用和服務(wù)費(fèi)用是各地區(qū)縣級(jí)統(tǒng)計(jì)單位難以承受的。
因此將OLAM這樣的數(shù)據(jù)挖掘方式與當(dāng)前國內(nèi)的政府統(tǒng)計(jì)業(yè)務(wù)相結(jié)合,并開發(fā)出統(tǒng)計(jì)業(yè)務(wù)中真正需要并且緊密集成、功能實(shí)用、價(jià)格便宜的信息管理和應(yīng)用系統(tǒng)是一項(xiàng)戰(zhàn)略意義深遠(yuǎn)的課題。
1.4 本文研究的目的與基本構(gòu)想
本論文的意義在于將聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的思想和技術(shù)綜合應(yīng)用于政府統(tǒng)計(jì)工作中,利用已有的OLAM理論和方法解決關(guān)系國計(jì)民生的實(shí)際問題,并期望能夠在此背景下進(jìn)一步深入研究OLAM在統(tǒng)計(jì)領(lǐng)域的應(yīng)用前景。我們工作的重點(diǎn)并不在于提出新的OLAM算法和模型,而在于將OLAM的理論乃至數(shù)據(jù)挖掘這一課題中成熟的思想和方法合理的應(yīng)用到實(shí)際的統(tǒng)計(jì)業(yè)務(wù)中,以提高政府統(tǒng)計(jì)工作的效率和質(zhì)量。
考慮到統(tǒng)計(jì)業(yè)務(wù)最根本的工作就是要構(gòu)建統(tǒng)計(jì)數(shù)據(jù)庫,對(duì)統(tǒng)計(jì)數(shù)據(jù)庫中各種指標(biāo)進(jìn)行統(tǒng)一管理、維護(hù)、查詢、匯總和分析。因此在統(tǒng)計(jì)工作中,使用OLAM實(shí)現(xiàn)傳統(tǒng)OLAP的數(shù)據(jù)聚合功能并獲取各種粒度級(jí)別的匯總數(shù)據(jù),然后充分利用其包括發(fā)現(xiàn)各種關(guān)聯(lián)規(guī)則在內(nèi)的分析預(yù)測(cè)的能力對(duì)匯總產(chǎn)生的多維數(shù)據(jù)集進(jìn)行挖掘,發(fā)現(xiàn)各種模式和規(guī)則。事實(shí)上,這也正是統(tǒng)計(jì)部門的職責(zé)所在。
我們成功地應(yīng)用OLAM的思想和方法開發(fā)了一套面向基層統(tǒng)計(jì)部門的統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng),該系統(tǒng)已在上海市某區(qū)統(tǒng)計(jì)局投入使用,基本滿足統(tǒng)計(jì)工作的實(shí)際需求,并通過了國家統(tǒng)計(jì)局的鑒定。結(jié)合該統(tǒng)計(jì)應(yīng)用系統(tǒng)和該統(tǒng)計(jì)局的業(yè)務(wù)需求,本論文將著重在以下幾個(gè)方面對(duì)聯(lián)機(jī)分析挖掘的應(yīng)用展開研究。
1. 根據(jù)統(tǒng)計(jì)業(yè)務(wù)的實(shí)際需要,設(shè)計(jì)聯(lián)機(jī)分析挖掘技術(shù)在統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)中的實(shí)現(xiàn)框架。
2. 針對(duì)統(tǒng)計(jì)數(shù)據(jù)庫的多維特征,對(duì)統(tǒng)計(jì)信息管理系統(tǒng)后臺(tái)數(shù)據(jù)庫進(jìn)行多維建模。
3. 利用OLAM的思想和方法設(shè)計(jì)一套通用的匯總算法對(duì)統(tǒng)計(jì)數(shù)據(jù)庫的基層數(shù)據(jù)進(jìn)行聚合以獲得各種粒度的匯總級(jí)數(shù)據(jù),并構(gòu)建多維數(shù)據(jù)集支持上卷、下鉆、切片、切塊等數(shù)據(jù)立方體操作。
4. 由于統(tǒng)計(jì)數(shù)據(jù)具有很強(qiáng)的時(shí)序性,我們將主要關(guān)注于對(duì)時(shí)間序列的分析(Time Series Analysis)和挖掘,且被分析和挖掘的數(shù)據(jù)來源于聚合操作生成的多維數(shù)據(jù)集。
5. 利用數(shù)據(jù)挖掘的理論和方法發(fā)現(xiàn)統(tǒng)計(jì)數(shù)據(jù)間潛在的關(guān)聯(lián)規(guī)則,這里我們初步采用Apriori這一成熟的關(guān)聯(lián)規(guī)則算法。由于統(tǒng)計(jì)業(yè)務(wù)的特殊性,這部分工作的重點(diǎn)在于對(duì)挖掘數(shù)據(jù)的選取以及挖掘結(jié)果的解釋。
由于開發(fā)進(jìn)度的限制,再加上大多數(shù)的挖掘算法針對(duì)特定的環(huán)境,我們的系統(tǒng)現(xiàn)在還不可能提供所有的數(shù)據(jù)挖掘功能,目前初步實(shí)現(xiàn)的功能恰恰針對(duì)統(tǒng)計(jì)局的迫切需求,更加實(shí)用和完善的挖掘方法就在今后不斷補(bǔ)充進(jìn)來。
1.5 論文結(jié)構(gòu)組織
本論文共分為七章,各章節(jié)的具體內(nèi)容如下:
Ø 第一章緒論。介紹了政府統(tǒng)計(jì)工作的任務(wù),引出OLAM的定義并概述了OLAM的理論及國內(nèi)外最近的研究動(dòng)態(tài),進(jìn)一步說明本論文的主要研究工作。
Ø 第二章經(jīng)濟(jì)社會(huì)統(tǒng)計(jì)與聯(lián)機(jī)分析挖掘。本章首先從統(tǒng)計(jì)學(xué)專業(yè)的角度扼要的介紹了統(tǒng)計(jì)業(yè)務(wù)中的背景知識(shí),著重分析了經(jīng)濟(jì)社會(huì)統(tǒng)計(jì)中統(tǒng)計(jì)指標(biāo)、統(tǒng)計(jì)分組和統(tǒng)計(jì)劃分的概念。接下來,我們又介紹了OLAP的基本定義、實(shí)現(xiàn)的原理等,其中許多概念都與統(tǒng)計(jì)分組的內(nèi)容有所聯(lián)系。然后又扼要的介紹了數(shù)據(jù)挖掘的相關(guān)理論,采用的各種分析和挖掘方法等。進(jìn)而說明OLAP與數(shù)據(jù)挖掘技術(shù)相結(jié)合的產(chǎn)物——聯(lián)結(jié)分析挖掘能夠較好的滿足經(jīng)濟(jì)社會(huì)統(tǒng)計(jì)工作。
Ø 第三章 OLAM在統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)中的實(shí)現(xiàn)框架。本章簡(jiǎn)要的描述了論文中提及的統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)的實(shí)施背景,業(yè)務(wù)需求包括數(shù)據(jù)構(gòu)成,數(shù)據(jù)處理等,旨在表明正是由于應(yīng)用系統(tǒng)中數(shù)據(jù)和功能的特點(diǎn)才決定了采用OLAM的思想和方法進(jìn)行處理比較合適。接下來,我們具體說明該系統(tǒng)中對(duì)于聯(lián)機(jī)分析挖掘技術(shù)實(shí)現(xiàn)的框架和有關(guān)特征。
Ø 第四章統(tǒng)計(jì)系統(tǒng)中的多維數(shù)據(jù)建模。本章引入統(tǒng)計(jì)數(shù)據(jù)庫這一重要概念,分析其多維特征以及構(gòu)建過程,進(jìn)一步著重描述了實(shí)際統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)后臺(tái)統(tǒng)計(jì)數(shù)據(jù)庫的組織和存儲(chǔ)方式。正是因?yàn)椴捎昧硕嗑S的數(shù)據(jù)建模方式,保證了在其基礎(chǔ)上可以順利地進(jìn)行OLAM的相關(guān)操作。
Ø 第五章統(tǒng)計(jì)系統(tǒng)中OLAP聚合功能的算法實(shí)現(xiàn)。本章詳細(xì)的闡釋了我們借鑒聯(lián)機(jī)分析處理機(jī)制設(shè)計(jì)和開發(fā)的一套通用聚合算法,該算法能夠?qū)崿F(xiàn)各種粒度級(jí)別數(shù)據(jù)匯總的計(jì)算過程,并且能夠不依賴于任何數(shù)據(jù)庫平臺(tái)。最后,列舉了一些典型的匯總執(zhí)行案例進(jìn)一步分析該通用數(shù)據(jù)聚合算法的優(yōu)點(diǎn)和缺點(diǎn)。
Ø 第六章統(tǒng)計(jì)系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用。本章著重描述了統(tǒng)計(jì)系統(tǒng)中對(duì)時(shí)間序列進(jìn)行的趨勢(shì)分析,相似性分析等時(shí)序挖掘的基本原理和初步實(shí)現(xiàn)過程;進(jìn)而又嘗試對(duì)時(shí)間序列構(gòu)建一組探測(cè)性的事務(wù)數(shù)據(jù)集,在此基礎(chǔ)上應(yīng)用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則的挖掘。挖掘過程中還采用圖形化方式直觀的展現(xiàn)處理結(jié)果,大大提高了用戶與系統(tǒng)之間的交互能力。
Ø 第七章總結(jié)與展望。本章對(duì)全文的工作進(jìn)行了總結(jié),說明本論文的貢獻(xiàn)及創(chuàng)新點(diǎn),以及今后的改進(jìn)工作和未來的研究方向。
本文以實(shí)際的統(tǒng)計(jì)業(yè)務(wù)需求作為線索,先概述了經(jīng)濟(jì)社會(huì)統(tǒng)計(jì)學(xué)中的統(tǒng)計(jì)方法以及OLAP與數(shù)據(jù)挖掘的有關(guān)理論,探索相互之間內(nèi)在的相似點(diǎn)。進(jìn)而,圍繞我們自己的研究工作具體說明OLAM技術(shù)在統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)中實(shí)現(xiàn)的框架與核心的功能:應(yīng)用這種理論和方法的前提是要構(gòu)造合適的多維數(shù)據(jù)結(jié)構(gòu),在此基礎(chǔ)上能夠采用OLAP的數(shù)據(jù)聚合功能實(shí)現(xiàn)統(tǒng)計(jì)數(shù)據(jù)匯總,并對(duì)聚合結(jié)果進(jìn)行相關(guān)的數(shù)據(jù)挖掘分析。圖1-2就展示了整篇論文的組織思想。
圖1-2 論文的內(nèi)容與結(jié)構(gòu)圖
(注:因涉及數(shù)據(jù)的特殊性,本論文中以下所有使用的數(shù)據(jù)都是模擬數(shù)據(jù),不對(duì)數(shù)據(jù)的真實(shí)性負(fù)責(zé)。)
第一章 經(jīng)濟(jì)社會(huì)統(tǒng)計(jì)與聯(lián)機(jī)分析挖掘
由于本論文的研究面向的是統(tǒng)計(jì)領(lǐng)域,因此必須首先明確統(tǒng)計(jì)學(xué)的基本概念和使用的相關(guān)方法,然后再介紹OLAP與數(shù)據(jù)挖掘的理論和技術(shù),進(jìn)而分析統(tǒng)計(jì)工作中對(duì)聯(lián)機(jī)分析挖掘的內(nèi)在要求。
2.1 經(jīng)濟(jì)社會(huì)統(tǒng)計(jì)的基本概念
2.1.1 經(jīng)濟(jì)社會(huì)統(tǒng)計(jì)學(xué)
統(tǒng)計(jì)理論(或統(tǒng)計(jì)學(xué))即系統(tǒng)研究如何搜集、整理、分析統(tǒng)計(jì)數(shù)據(jù)的理論和方法。統(tǒng)計(jì)理論一方面是統(tǒng)計(jì)實(shí)踐活動(dòng)的理論概括和總結(jié),另一方面統(tǒng)計(jì)理論又是在其理論和實(shí)踐同時(shí)發(fā)展的過程中,吸取其他學(xué)科的研究方法不斷創(chuàng)新而形成的系統(tǒng)理論。統(tǒng)計(jì)理論不但是指導(dǎo)統(tǒng)計(jì)活動(dòng)如何搜集、整理統(tǒng)計(jì)數(shù)據(jù)的原理、原則和方法,而且更重要的是指導(dǎo)人們?nèi)绾芜\(yùn)用統(tǒng)計(jì)方法分析統(tǒng)計(jì)數(shù)據(jù)內(nèi)在的統(tǒng)計(jì)規(guī)律性的科學(xué)方法。正因?yàn)槿绱耍y(tǒng)計(jì)學(xué)也被稱為“數(shù)據(jù)的科學(xué)”[10]。
事實(shí)上,統(tǒng)計(jì)學(xué)本身針對(duì)不同的研究對(duì)象有著不同的分類,包括統(tǒng)計(jì)物理學(xué),生物統(tǒng)計(jì)學(xué),經(jīng)濟(jì)統(tǒng)計(jì)學(xué),社會(huì)統(tǒng)計(jì)學(xué)等。統(tǒng)計(jì)局的統(tǒng)計(jì)工作主要針對(duì)的是經(jīng)濟(jì)社會(huì)統(tǒng)計(jì),因此下面重點(diǎn)說明經(jīng)濟(jì)社會(huì)統(tǒng)計(jì)學(xué)的有關(guān)概念。
經(jīng)濟(jì)社會(huì)統(tǒng)計(jì)是研究社會(huì)現(xiàn)象數(shù)據(jù)的收集、整理和分析的一門方法論學(xué)科[1][11]。
也正因?yàn)槿绱耍ㄟ^對(duì)收集來的社會(huì)現(xiàn)象數(shù)據(jù)的分析,可以幫助我們更加深入的發(fā)現(xiàn)各種社會(huì)現(xiàn)象間的關(guān)聯(lián)關(guān)系和發(fā)展變化趨勢(shì)。
2.1.2 統(tǒng)計(jì)指標(biāo)的定義與特點(diǎn)
統(tǒng)計(jì)指標(biāo)是說明總體數(shù)量特征的。關(guān)于統(tǒng)計(jì)指標(biāo)的概念,有兩種不同的理解和使用方法。
第一,在統(tǒng)計(jì)理論設(shè)計(jì)上所使用的“統(tǒng)計(jì)指標(biāo)”的涵義,是指反映總體現(xiàn)象數(shù)據(jù)特征的概念。例如:工業(yè)增加值、商品銷售額、職工總?cè)藬?shù)等等。按這種理解,統(tǒng)計(jì)指標(biāo)包括三個(gè)構(gòu)成要素,即:指標(biāo)名稱、計(jì)量單位和計(jì)算方法。
第二,在統(tǒng)計(jì)實(shí)際工作中經(jīng)常使用的統(tǒng)計(jì)指標(biāo)的涵義,是指反映總體現(xiàn)象數(shù)量特征的概念和具體數(shù)值。如:2003年我國國民生產(chǎn)總值為117251.9億元,就是統(tǒng)計(jì)指標(biāo)。按這種理解,統(tǒng)計(jì)指標(biāo)除包括上述三個(gè)要素外,還包括時(shí)間限制、空間限制和指標(biāo)數(shù)值。
由于我們開發(fā)的統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)是針對(duì)實(shí)際統(tǒng)計(jì)工作的,因此本論文以下的部分一律按第二種解釋定義統(tǒng)計(jì)指標(biāo)。
統(tǒng)計(jì)指標(biāo)有以下的特點(diǎn):
1) 數(shù)量性
統(tǒng)計(jì)指標(biāo)描述的是可以度量的客觀現(xiàn)象的量,都是用數(shù)值表現(xiàn)的,不存在不能用數(shù)值表現(xiàn)的統(tǒng)計(jì)指標(biāo)。
2) 綜合性
統(tǒng)計(jì)指標(biāo)說明的對(duì)象是總體而不是個(gè)體,它是許多個(gè)體現(xiàn)象的數(shù)量綜合的結(jié)果。一個(gè)人的工資不叫統(tǒng)計(jì)指標(biāo)。反映研究對(duì)象中所有人的工資總額和平均工資才叫統(tǒng)計(jì)指標(biāo)。
3) 具體性
統(tǒng)計(jì)指標(biāo)并非抽象的概念和數(shù)值,它具有客觀的經(jīng)濟(jì)社會(huì)內(nèi)容,是一定的具體經(jīng)濟(jì)社會(huì)現(xiàn)象的量的反映。
2.1.3 統(tǒng)計(jì)指標(biāo)體系
1) 統(tǒng)計(jì)指標(biāo)體系的概念
若干個(gè)相互有聯(lián)系的統(tǒng)計(jì)指標(biāo)所組成的整體叫統(tǒng)計(jì)指標(biāo)體系。經(jīng)濟(jì)社會(huì)現(xiàn)象本身的聯(lián)系是多種多樣的,所以,統(tǒng)計(jì)指標(biāo)之間的聯(lián)系也是多種多樣的。例如,一個(gè)工業(yè)企業(yè)是人力、物資、資金、生產(chǎn)、供應(yīng)和銷售等相互聯(lián)系的整體。用一系列統(tǒng)計(jì)指標(biāo)來反映和研究工業(yè)企業(yè)的全面情況,這就組成了工業(yè)企業(yè)統(tǒng)計(jì)指標(biāo)體系。又如,商品的銷售額等于商品價(jià)格與銷售量的乘積,糧食總產(chǎn)量等于畝產(chǎn)量與播種面積的乘積等等,也叫做統(tǒng)計(jì)指標(biāo)體系。
統(tǒng)計(jì)指標(biāo)體系比統(tǒng)計(jì)指標(biāo)更為重要。這是因?yàn)槿魏谓?jīng)濟(jì)社會(huì)總體都是一個(gè)相互聯(lián)系的有機(jī)整體。這種經(jīng)濟(jì)社會(huì)現(xiàn)象的相互聯(lián)系是產(chǎn)生統(tǒng)計(jì)指標(biāo)體系的客觀基礎(chǔ),同時(shí)也提出了使用統(tǒng)計(jì)指標(biāo)的要求。單個(gè)統(tǒng)計(jì)指標(biāo)僅能反映經(jīng)濟(jì)社會(huì)總體及其運(yùn)動(dòng)的一個(gè)側(cè)面,要想全面地反映和研究經(jīng)濟(jì)社會(huì)總體的情況,就只有使用相互聯(lián)系的各種統(tǒng)計(jì)指標(biāo)所組成的指標(biāo)體系,才能避免片面性,使我們獲得全面的情況。
2) 統(tǒng)計(jì)指標(biāo)體系的種類
統(tǒng)計(jì)指標(biāo)體系可以分為兩大類,即基本統(tǒng)計(jì)指標(biāo)體系和專題統(tǒng)計(jì)指標(biāo)體系。
反映國民經(jīng)濟(jì)社會(huì)發(fā)展及其各個(gè)組成部分的基本情況的指標(biāo)體系叫基本統(tǒng)計(jì)指標(biāo)體系。他通常分為三層:最高層、中間層和基層。最高層是反映整個(gè)國民經(jīng)濟(jì)和社會(huì)發(fā)展的統(tǒng)計(jì)指標(biāo)體系,如:經(jīng)濟(jì)統(tǒng)計(jì)指標(biāo)體系、社會(huì)統(tǒng)計(jì)指標(biāo)體系、科技統(tǒng)計(jì)指標(biāo)體系等。中間層是指各地區(qū)和各部門的統(tǒng)計(jì)指標(biāo)體系,如工業(yè)統(tǒng)計(jì)指標(biāo)體系、地區(qū)綜合評(píng)價(jià)指標(biāo)體系等,它是最高層統(tǒng)計(jì)指標(biāo)體系的縱向和橫向的分支。基層統(tǒng)計(jì)指標(biāo)體系是指各種企業(yè)和事業(yè)單位的統(tǒng)計(jì)指標(biāo)體系。他是整個(gè)統(tǒng)計(jì)工作的基礎(chǔ)。
為研究某一經(jīng)濟(jì)問題或社會(huì)問題而專門制定的具有針對(duì)性的指標(biāo)體系,叫專題統(tǒng)計(jì)指標(biāo)體系。如經(jīng)濟(jì)效益指標(biāo)體系、能源問題研究的指標(biāo)體系等。
2.1.4 統(tǒng)計(jì)數(shù)據(jù)整理的定義與步驟
統(tǒng)計(jì)數(shù)據(jù)整理也稱為統(tǒng)計(jì)整理。統(tǒng)計(jì)整理是根據(jù)統(tǒng)計(jì)研究的目的,將統(tǒng)計(jì)調(diào)查所得的數(shù)據(jù)進(jìn)行科學(xué)的加工,使之系統(tǒng)化、條理化,并成為能反映總體數(shù)量特征的綜合資料的工作過程。
統(tǒng)計(jì)調(diào)查所得到的反映總體單位特征的數(shù)據(jù)資料是分散的、零碎的。根據(jù)這樣的資料,人們難以從總體上分析和認(rèn)識(shí)社會(huì)經(jīng)濟(jì)現(xiàn)象的數(shù)量表現(xiàn)。只有根據(jù)統(tǒng)計(jì)研究的目的,運(yùn)用科學(xué)的統(tǒng)計(jì)整理方法,對(duì)數(shù)據(jù)進(jìn)行加工整理,才能發(fā)現(xiàn)經(jīng)濟(jì)社會(huì)現(xiàn)象數(shù)據(jù)資料的規(guī)律性。
此外,對(duì)某些已經(jīng)加工的綜合資料,往往由于在分組方法、總體范圍或者指標(biāo)含義、口徑、計(jì)算方法等方面的改變,而無法滿足統(tǒng)計(jì)分析的要求,也必須對(duì)其再次進(jìn)行整理。
統(tǒng)計(jì)整理的步驟如下:
1) 設(shè)計(jì)和編制統(tǒng)計(jì)數(shù)據(jù)資料的整理方案。統(tǒng)計(jì)整理方案主要是明確各種統(tǒng)計(jì)分組和各項(xiàng)匯總的統(tǒng)計(jì)指標(biāo)。
2) 對(duì)搜集到的原始資料進(jìn)行審核。在進(jìn)行匯總之前,要審核統(tǒng)計(jì)調(diào)查數(shù)據(jù)是否完整、準(zhǔn)確、完整,以便發(fā)現(xiàn)問題,及時(shí)糾正,以確保資料準(zhǔn)確無誤。
3) 根據(jù)研究目的的要求和統(tǒng)計(jì)分析的需求,對(duì)原始資料進(jìn)行分組。
4) 進(jìn)行匯總計(jì)算,編制次數(shù)分布數(shù)。
5) 編制統(tǒng)計(jì)表。
6) 進(jìn)行統(tǒng)計(jì)數(shù)據(jù)資料的匯編,系統(tǒng)地積累歷史統(tǒng)計(jì)數(shù)據(jù)。
2.1.5 統(tǒng)計(jì)分組的有關(guān)概念和分組方法
統(tǒng)計(jì)分組是根據(jù)經(jīng)濟(jì)社會(huì)現(xiàn)象的內(nèi)在特點(diǎn)和統(tǒng)計(jì)研究的目的,將總體中所有總體單位按一定的標(biāo)志劃分為性質(zhì)不同的若干個(gè)組成部分的一種統(tǒng)計(jì)方法。
構(gòu)成統(tǒng)計(jì)總體的各個(gè)總體單位,一方面在某一指標(biāo)或某些標(biāo)志上具有彼此相同的性質(zhì),這是構(gòu)成同質(zhì)總體的基礎(chǔ);另一方面又在其它一些標(biāo)志的具體表現(xiàn)上具有差異性,差異較小的單位歸為一組,差異較大的單位盡量分開。這是進(jìn)行統(tǒng)計(jì)分組的客觀依據(jù)。統(tǒng)計(jì)分組的基本要求是:使各組內(nèi)部保持同質(zhì)性、各組之間呈現(xiàn)出質(zhì)的差異性。因此,統(tǒng)計(jì)分組的實(shí)質(zhì)是在現(xiàn)象總體內(nèi)進(jìn)行一種分類。統(tǒng)計(jì)分組的作用表現(xiàn)在以下幾個(gè)方面:
(一) 劃分經(jīng)濟(jì)社會(huì)現(xiàn)象的類型
將經(jīng)濟(jì)社會(huì)現(xiàn)象總體按照一定的分組標(biāo)志區(qū)分為性質(zhì)不同的組成部分,是統(tǒng)計(jì)分組的根本作用。從一定意義上說,一個(gè)統(tǒng)計(jì)總體之所以能區(qū)別于其它統(tǒng)計(jì)總體,是因?yàn)橛兄梢源_定該總體性質(zhì)和范圍的標(biāo)準(zhǔn)和界限。即總體之間的區(qū)別,是一種定性分類。因此,將同質(zhì)總體劃分成性質(zhì)不同的各個(gè)組成部分,也是一種統(tǒng)計(jì)的定性分類。
例如表2-1所示:
表2-1 2003年全國國有及規(guī)模以上非國有工業(yè)企業(yè)單位數(shù)及工業(yè)增加值
按注冊(cè)登記類型分 |
企業(yè)單位數(shù) |
工業(yè)增加值 |
||
絕對(duì)額(個(gè)) |
比重(%) |
絕對(duì)額(億元) |
比重(%) |
|
全國總計(jì) |
196222 |
100.00 |
41990.23 |
100.00 |
國有及國有控股企業(yè) |
34280 |
17.47 |
18837.60 |
44.86 |
集體企業(yè) |
22478 |
11.46 |
2551.67 |
6.08 |
股份有限公司 |
6313 |
3.22 |
6203.66 |
14.77 |
外商投資企業(yè) |
17429 |
8.88 |
6919.15 |
16.48 |
港澳臺(tái)商投則企業(yè) |
21152 |
10.78 |
4680.49 |
11.15 |
此表中就是按注冊(cè)登記類型把我國工業(yè)企業(yè)劃分為五個(gè)組,這樣有助于認(rèn)識(shí)我國不同經(jīng)濟(jì)類型的工業(yè)企業(yè)之間的經(jīng)濟(jì)關(guān)系。
(二) 反映社會(huì)經(jīng)濟(jì)現(xiàn)象總體的內(nèi)部結(jié)構(gòu)
通過統(tǒng)計(jì)分組,能夠觀察總體中所有總體單位在各組的分布狀態(tài)和分布特征,分析總體的內(nèi)部結(jié)構(gòu)。表2-1所示的比重就反映我國國有及規(guī)模以上非國有工業(yè)企業(yè)單位數(shù)、增加值及其構(gòu)成。
(三) 研究現(xiàn)象之間在數(shù)量上的依存關(guān)系
通過分組,可以觀察不同總體之間在數(shù)量上的相互依存關(guān)系。從表2-2可以看出,商品流通費(fèi)用率與商品銷售額之間的依存關(guān)系是,商品流通費(fèi)用率隨著商品銷售額的增加而降低。
表2-2 2004年某市百貨商店流通費(fèi)用率
商店按商品銷售額分組(萬元) |
商店數(shù) |
商品流通費(fèi)用率(%) |
50以下 |
3 |
11.2 |
50-100 |
2 |
10.4 |
100-150 |
4 |
9.5 |
150-200 |
7 |
7.7 |
200-300 |
8 |
6.4 |
300-400 |
6 |
5.9 |
400-500 |
3 |
5.2 |
500以上 |
2 |
5.0 |
在該統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)中,為了獲得各種分組情況下的匯總統(tǒng)計(jì)數(shù)據(jù),專門為各分組統(tǒng)計(jì)指標(biāo)項(xiàng)建立物理數(shù)據(jù)庫表以存儲(chǔ)其分組信息。這些表在應(yīng)用系統(tǒng)中稱為“分組目錄”,且根據(jù)分組指標(biāo)數(shù)據(jù)項(xiàng)類型的不同,劃分為“字符型結(jié)構(gòu)分組”如表2-1中登記注冊(cè)類型,和“數(shù)值型區(qū)間分組”如表2-2中商品銷售額的各取值范圍。
統(tǒng)計(jì)分組的關(guān)鍵在于正確選擇分組標(biāo)志和劃分各組界限。分組標(biāo)志是將統(tǒng)計(jì)總體劃分為若干個(gè)性質(zhì)不同的組成部分的標(biāo)準(zhǔn)或依據(jù)。在選擇分組標(biāo)志時(shí)要解決好以下兩個(gè)方面問題:首先,選擇什么標(biāo)志進(jìn)行分組,其實(shí)質(zhì)是要決定從什么方面對(duì)現(xiàn)象總體進(jìn)行統(tǒng)計(jì)研究;其次,選擇多少個(gè)標(biāo)志進(jìn)行分組,這一問題不僅決定著分組的形式,還決定著我們對(duì)社會(huì)經(jīng)濟(jì)現(xiàn)象總體認(rèn)識(shí)的廣度和深度。
(一) 分組標(biāo)志的選擇
選擇分組標(biāo)志必須遵循以下原則:
1. 根據(jù)統(tǒng)計(jì)研究目的選擇分組標(biāo)志
對(duì)于同一研究對(duì)象來說,由于統(tǒng)計(jì)研究目的不同,需要采用的分組標(biāo)志也就不同。例如,在工業(yè)生產(chǎn)統(tǒng)計(jì)中,當(dāng)研究目的是為了分析不同規(guī)模的企業(yè)生產(chǎn)情況時(shí),應(yīng)當(dāng)選擇產(chǎn)品數(shù)量或生產(chǎn)能力作為分組標(biāo)志,將企業(yè)總體劃分成大、中、小三組;當(dāng)研究目的在于確定工業(yè)內(nèi)部比例及平衡關(guān)系時(shí),就應(yīng)該按部門類別作為分組標(biāo)志。
2. 選擇能反映現(xiàn)象本質(zhì)特征的主要標(biāo)志
所謂主要標(biāo)志就是能反映現(xiàn)象本質(zhì)特征的標(biāo)志。例如,研究職工生活水平情況時(shí),有工資水平,家庭成員平均收入等好幾個(gè)標(biāo)志。按職工家庭成員平均收入分組就能反映職工實(shí)際生活水平,所以家庭成員平均收入就是主要標(biāo)志。
3. 結(jié)合具體社會(huì)歷史條件和經(jīng)濟(jì)條件選擇分組標(biāo)志
在研究目的相同的情況下,由于研究對(duì)象所處的具體社會(huì)歷史條件和客觀經(jīng)濟(jì)條件不同,需要采用的分組標(biāo)志也會(huì)有所不同。例如,反映工業(yè)企業(yè)生產(chǎn)規(guī)模的標(biāo)志很多,如產(chǎn)品生產(chǎn)能力、職工人數(shù)、固定資產(chǎn)價(jià)值、增加值等。在科學(xué)技術(shù)不發(fā)達(dá)的條件下,把職工人數(shù)作為劃分企業(yè)規(guī)模的標(biāo)志是比較恰當(dāng)?shù)模欢诳茖W(xué)技術(shù)發(fā)達(dá)、技術(shù)裝備比較先進(jìn)的條件下,繼續(xù)按職工人數(shù)劃分企業(yè)規(guī)模的大小,就無法比較準(zhǔn)確地反映作為第一生產(chǎn)力的科學(xué)技術(shù)在生產(chǎn)中的重要作用。因而采用產(chǎn)品生產(chǎn)能力或固定資產(chǎn)價(jià)值作為分組標(biāo)志更切合實(shí)際些。
(二) 分組的形式
分組的形式有簡(jiǎn)單分組和平行分組體系,復(fù)合分組和復(fù)合分組體系。
1. 簡(jiǎn)單分組與平行分組體系
對(duì)總體只按一個(gè)標(biāo)志進(jìn)行分組,叫簡(jiǎn)單分組。選擇兩個(gè)或兩個(gè)以上的標(biāo)志分別進(jìn)行簡(jiǎn)單分組,就形成了平行分組體系。例如,對(duì)工業(yè)企業(yè)可以分別按經(jīng)濟(jì)類型和規(guī)模兩個(gè)標(biāo)志進(jìn)行簡(jiǎn)單分組,得到如下平行分組體系:
按經(jīng)濟(jì)類型分組 按規(guī)模分組
國有及國有控股企業(yè) 大型企業(yè)
集體企業(yè) 中型企業(yè)
其他類型企業(yè) 小型企業(yè)
平行分組體系的特點(diǎn)是:每一種分組只能固定一個(gè)因素對(duì)差異的影響,同時(shí)又掩蓋了其他因素對(duì)差異的影響。例如在按規(guī)模分組中,企業(yè)規(guī)模大小的差異被規(guī)定了,而其他差異依然存在,但卻被掩蓋了。在平行分組體系中,所采用分組標(biāo)志的多少,決定了人們對(duì)經(jīng)濟(jì)社會(huì)現(xiàn)象總體認(rèn)識(shí)的廣度。
2. 復(fù)合分組與復(fù)合分組體系
對(duì)同一個(gè)總體選擇兩個(gè)或兩個(gè)以上的標(biāo)志層疊分組,叫復(fù)合分組,所分各組是在分組標(biāo)志的基礎(chǔ)上層疊排列的,從而形成復(fù)合分組體系。例如,按學(xué)科和性別兩個(gè)標(biāo)志對(duì)高等院校本科在校學(xué)生進(jìn)行復(fù)合分組,得到如下復(fù)合分組體系。
建立復(fù)合分組體系時(shí),就根據(jù)統(tǒng)計(jì)分析的要求,在選擇分組標(biāo)志的同時(shí),確定它們的主次順序。
復(fù)合分組體系的特點(diǎn)是:第一層次分組只固定一個(gè)主要因素對(duì)差異的影響,第二層次分組則同時(shí)固定兩個(gè)因素對(duì)差異的影響,當(dāng)進(jìn)入最后一個(gè)層次分組時(shí),則所有被選擇標(biāo)志對(duì)差異的影響就全部被固定。在復(fù)合分組體系中,分組層次的多少,決定于所選分組標(biāo)志的多少,從而決定了人們對(duì)經(jīng)濟(jì)社會(huì)現(xiàn)象認(rèn)識(shí)的深度。
分組標(biāo)志確定后,正確地確定分組組數(shù)和劃定各組界限,就涉及到分組的具體方法。根據(jù)分組標(biāo)志的特征不同,統(tǒng)計(jì)總體可以按品質(zhì)標(biāo)志分組,也可以按數(shù)量標(biāo)志分組。
(一) 按品質(zhì)標(biāo)志分組的方法
按品質(zhì)標(biāo)志分組,就是選擇反映事物屬性差異的品質(zhì)標(biāo)志作為分組的依據(jù),并在品質(zhì)標(biāo)志的變異范圍內(nèi)劃定各組界限,將總體區(qū)分為若干性質(zhì)不同的分組部分。
(二) 按數(shù)量標(biāo)志分組的方法
按數(shù)量標(biāo)志分組,就是選擇反映事物數(shù)量差異的數(shù)量標(biāo)志作為分組的依據(jù),并在數(shù)量標(biāo)志的變異范圍內(nèi)劃定分組的界限,將總體劃分為性質(zhì)不同的若干組成部分。
就具體的分組而言,如果作為分組標(biāo)志的變量的變異較小,可以將各個(gè)變量值單列一組,這種分組稱為單項(xiàng)式分組;如果變量的變異較大,則應(yīng)該把變量的整個(gè)取值范圍依次劃分為若干區(qū)間,一個(gè)區(qū)間內(nèi)的所有變量值歸為一組。區(qū)間的最大值稱為上限、最小值稱為下限。上限與下限之差為組距。
組距 = 上限-下限
這樣的分組稱為組距式分組。
在組距式分組中,各組的組距完全相等,叫等距式分組;各組的組距不完全相等,叫異距式分組。前者適用于總體各單位的變量值由小到大呈均勻變化的情況,后者則適用于不均勻變化的情況。各種形式分組情況如表2-3所示。
表2-3 各種分組舉例
|
統(tǒng)計(jì)總體 |
分組標(biāo)志(變量) |
各個(gè)組別(各變量值組) |
分組形式 |
|
例1 |
某市所有 居民家庭 |
電視機(jī)擁有量 (臺(tái)/戶) |
0,1,2,3 |
單項(xiàng)式 分組 |
|
例2 |
某市所有 醫(yī)院 |
病床位數(shù)(張) |
100-900,200-299 300-399,400-499 |
等 距 式 |
組 距 式 分 組 |
例3 |
某市所有 商業(yè)職工 |
月工資水平(元/人) |
70-80,80-90 90-100,…… |
||
例4 |
某市所有零售 商業(yè)企業(yè) |
職工人數(shù)(人) |
10-49,50-99 100-199,… |
異 距 式 |
|
例5 |
某市所有 居民家庭 |
月收入水平(元/人) |
800-1000,1000-1500 1500-1800,1800-2000 |
變量按其變量值能否無限分割可分為離散型變量和連續(xù)型變量。一般來說,離散型變量既可以采用單項(xiàng)式分組,也可以采用組距式分組,如表2-3中的例1、例2、例4;而連續(xù)型變量只能采用組距式分組,如表2-3中的例3、例5。在組距式分組中,兩種類型變量在組距的表示方法上也有區(qū)別。按離散型變量分組時(shí),各相鄰的組限可以間斷,二者不相重疊;而按連續(xù)型變量分組時(shí),各相鄰組的組限必須重疊。在相鄰組的組限重疊的情況下,應(yīng)按照“上限不在本組內(nèi)”的原則正確統(tǒng)計(jì)各組的總體單位數(shù)。
2.2 OLAP的概念與理論
2.2.1 OLAP的概念
OLAP(聯(lián)機(jī)分析處理)是針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。通過對(duì)信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定、一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察[13]。
2.2.2 OLAP的目標(biāo)
OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。
2.2.3 OLAP的特性
1) 快速性:用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求,系統(tǒng)應(yīng)能在5秒內(nèi)對(duì)用戶的大部分分析要求做出反應(yīng)。
2) 可分析性:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。
3) 多維性:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析,包括對(duì)層次維和多重層次維的完全支持。
4) 信息性:不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲(chǔ)在何處,OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。
2.2.4 OLAP的多維數(shù)據(jù)概念和結(jié)構(gòu)
多維結(jié)構(gòu)是決策支持的支柱,也是OLAP的核心。OLAP展現(xiàn)在用戶面前的是一幅幅多維視圖。
1) 變量(Measures)
變量是數(shù)據(jù)的實(shí)際意義,描述數(shù)據(jù)是什么。一般情況下,變量總是一個(gè)數(shù)值度量的指標(biāo)。統(tǒng)計(jì)應(yīng)用中的數(shù)值型統(tǒng)計(jì)指標(biāo)就是變量。
2) 維(Dimension)
維是人們觀察數(shù)據(jù)的特定角度,是考慮問題時(shí)的一類屬性,屬性集合構(gòu)成一個(gè)維(時(shí)間維、地理維等)。假定某某是個(gè)百貨零售商,有一些因素會(huì)影響他的銷售業(yè)務(wù),如商品、時(shí)間、商店或流通渠道,更具體一點(diǎn),如品牌、月份、地區(qū)等。對(duì)某一給定的商品,也許他想知道該商品在哪個(gè)商店和哪段時(shí)間的銷售情況。對(duì)某一商店,也許他想知道哪個(gè)商品在哪段時(shí)間的銷售情況。在某一時(shí)間,也許他想知道哪個(gè)商店哪種產(chǎn)品的銷售情況。因此,他需要決策支持(其中非常重要的部分就是統(tǒng)計(jì)分析)來幫助制定銷售政策。
這里,商店、時(shí)間和產(chǎn)品都是維。各個(gè)商店的集合是一維,時(shí)間的集合是一維,商品的集合是一維。維就是相同類數(shù)據(jù)的集合,也可以理解為變量。而每個(gè)商店、每段時(shí)間、每種商品都是某一維的一個(gè)成員。每個(gè)銷售事實(shí)由一個(gè)特定的商店、特定的時(shí)間和特定的商品組成,如圖2-1所示。
圖2-1 由時(shí)間、商店、產(chǎn)品三個(gè)維構(gòu)成的數(shù)據(jù)立方體
“維”是OLAP的核心概念,是主題的基礎(chǔ),是對(duì)主題的一種類型劃分。OLAP采取的與“維”有關(guān)的“度量”信息才是用戶關(guān)心的焦點(diǎn)。
維有自己固有的屬性,如層次結(jié)構(gòu)(對(duì)數(shù)據(jù)進(jìn)行聚合分析時(shí)要用到)、排序(定義變量時(shí)要用到)、計(jì)算邏輯(是基于矩陣的算法,可有效地指定規(guī)則)。這些屬性對(duì)進(jìn)行決策支持是非常有用的。
對(duì)應(yīng)統(tǒng)計(jì)分組的概念,這里每個(gè)維都是分組的標(biāo)志,維的成員就是參與分組的統(tǒng)計(jì)變量的值。
3) 維的層次(Hierarchy)
人們觀察數(shù)據(jù)的特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的多個(gè)描述方面(時(shí)間維:日期、月份、季度、年),我們稱這多個(gè)描述方面為維的層次。一個(gè)維往往具有多個(gè)層次,例如描述維時(shí)間,可以從日期、月份、季度、年等不同層次來描述,那么日期、月份、季度、年等就是時(shí)間維的層次;同樣,城市、地區(qū)、國家等構(gòu)成了一個(gè)地理維的多個(gè)層次。
4) 維成員(Member)
維的一個(gè)取值稱為該維的一個(gè)維成員。如果一個(gè)維是多層次的,那么該維的維成員是在不同維層次的取值的組合。
5) 多維性(Multi Dimensions)
人們很容易理解一個(gè)二維表(如通常的電子表格),對(duì)于三維立方體同樣也容易理解。OLAP通常將三維立方體的數(shù)據(jù)進(jìn)行切片,顯示三維的某一平面。如一個(gè)立方體有時(shí)間維、商品維、收入維,其圖形很容易在屏幕上顯示出來并進(jìn)行切片。但是要加一維(如加入商店維),則圖形很難想象,也不容易在屏幕上畫出來。要突破三維的障礙,就必須理解邏輯維和物理維的差異。OLAP的多維分析視圖就是突破了物理的三維概念,采用了旋轉(zhuǎn)、嵌套、切片、鉆取和高維可視化技術(shù),在屏幕上顯示多維視圖的結(jié)構(gòu),使用戶直觀地理解、分析數(shù)據(jù),進(jìn)行決策支持[14]。
統(tǒng)計(jì)分組往往超越了三維的界限,統(tǒng)計(jì)人員希望能夠從三個(gè)以上的維以及維成員的不同層次組合的角度觀察統(tǒng)計(jì)匯總數(shù)據(jù),從而發(fā)現(xiàn)有價(jià)值的統(tǒng)計(jì)現(xiàn)象,總結(jié)其中包含的規(guī)律。事實(shí)上,OLAP所提供對(duì)多維分析視圖的各種操作和可視化技術(shù)恰恰是與統(tǒng)計(jì)人員的業(yè)務(wù)需求相吻合的。
6) 數(shù)據(jù)立方體
數(shù)據(jù)立方體定義為基本業(yè)務(wù)驅(qū)動(dòng)力的可用聚合,它是適于通過SQL或其他接口進(jìn)行查詢的完整數(shù)據(jù)結(jié)構(gòu)。同時(shí),數(shù)據(jù)立方體允許對(duì)數(shù)據(jù)建模和觀察,由維和事實(shí)構(gòu)成。立方體是維的交叉點(diǎn),提供企業(yè)感興趣的事實(shí)結(jié)構(gòu),且事實(shí)是數(shù)值度量的。經(jīng)典的立方體正如圖3-1所示。
7) 數(shù)據(jù)單元(Cell)
多維數(shù)據(jù)集的取值稱為數(shù)據(jù)單元。當(dāng)多維數(shù)據(jù)集的各個(gè)維選中一個(gè)維成員,這些維成員的組合就唯一確定了一個(gè)變量的值。那么數(shù)據(jù)單元就可以表示為:(維1維成員,維2維成員,…,維n維成員,變量的值)(如2000年1月,上海,筆記本電腦,$100000)。
2.2.5 多維數(shù)據(jù)模型的物理實(shí)現(xiàn)
OLAP的執(zhí)行與多維數(shù)據(jù)模型的支持是密不可分的,OLAP多維數(shù)據(jù)模型的實(shí)現(xiàn)有多種途徑,其中主要有采用數(shù)組的多維數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫以及兩者相結(jié)合的方式,人們通常稱之為MOLAP、ROLAP、HOLAP。但MOLAP的提法容易引起誤解,畢竟根據(jù)OLAP的多維概念,ROLAP也是一種多維數(shù)據(jù)的組織方式[16]。
l 多維聯(lián)機(jī)分析處理(MOLAP)
多維聯(lián)機(jī)分析處理嚴(yán)格遵照E.F.Codd的定義,自行建立多維數(shù)據(jù)庫來存放聯(lián)機(jī)分析系統(tǒng)的數(shù)據(jù),它以多維數(shù)據(jù)組織方式為核心,也就是說多維聯(lián)機(jī)分析處理使用多維數(shù)組存儲(chǔ)數(shù)據(jù)。
當(dāng)利用多維數(shù)據(jù)庫存儲(chǔ)OLAP數(shù)據(jù)時(shí),不需要將多維數(shù)據(jù)模型中的維度、層劃分和立方體等概念轉(zhuǎn)換為其他的物理模型,因?yàn)槎嗑S數(shù)組(矩陣)能很好地體現(xiàn)多維數(shù)據(jù)模型特點(diǎn)。
l 關(guān)系聯(lián)機(jī)分析處理(ROLAP)
ROLAP以關(guān)系數(shù)據(jù)庫為核心,以關(guān)系型結(jié)構(gòu)進(jìn)行多維數(shù)據(jù)的表示和存儲(chǔ),將多維數(shù)據(jù)庫的多維結(jié)構(gòu)劃分為兩類表:一類是事實(shí)表,用來存儲(chǔ)數(shù)據(jù)和維關(guān)鍵字;另一類是維表,對(duì)每個(gè)維至少使用一個(gè)表來存放維的層次、成員類別等維的描述信息。維表和事實(shí)表通過主關(guān)鍵字和外關(guān)鍵字聯(lián)系在一起,形成“星型模式”。對(duì)于層次復(fù)雜的維,為了避免冗余數(shù)據(jù)占用過大的存儲(chǔ)空間,可以使用多個(gè)表描述,這種星型模式的擴(kuò)展稱為“雪花模式”。
l 混合聯(lián)機(jī)分析處理(HOLAP)
混合聯(lián)機(jī)分析處理(HOLAP)利用多維聯(lián)機(jī)分析處理技術(shù)存儲(chǔ)上層匯總數(shù)據(jù),利用關(guān)系聯(lián)機(jī)分析處理存儲(chǔ)細(xì)節(jié)數(shù)據(jù),即低層是關(guān)系型的,高層是多維矩陣型的。這種方式具有更好的靈活性。還有其他一些OLAP的方法,如提供一個(gè)專用的SQL 服務(wù)器,對(duì)某些存儲(chǔ)模式(如星型、雪花型)提供對(duì)SQL查詢的特殊支持。
2.3 數(shù)據(jù)挖掘的概念與理論
2.3.1 數(shù)據(jù)挖掘的概念
OLAP本身就是一種強(qiáng)大的分析技術(shù),具有匯總、合并等功能,以及從不同的角度觀察信息的能力。盡管OLAP工具支持多維分析和決策,然而對(duì)于深層次的分析,如數(shù)據(jù)分類、聚類和數(shù)據(jù)隨時(shí)間變化的特征,仍需要其它專門分析工具。這些分析工具恰恰就來源于目前比較流行的一門學(xué)科,即“數(shù)據(jù)挖掘(data mining)”。
數(shù)據(jù)挖掘就是應(yīng)用一系列技術(shù)從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫的數(shù)據(jù)中提取人們感興趣的信息和知識(shí),這些知識(shí)或信息是隱含的、事先未知而潛在有用的,所提取的知識(shí)表示為概念、規(guī)則、規(guī)律和模式等形式。數(shù)據(jù)挖掘作為知識(shí)發(fā)現(xiàn)過程的一個(gè)特點(diǎn)步驟,是一系列技術(shù)及應(yīng)用,或者說是對(duì)大容量數(shù)據(jù)及數(shù)據(jù)間關(guān)系進(jìn)行考察和建模的方法集。其目標(biāo)是將大容量數(shù)據(jù)轉(zhuǎn)化為有用的知識(shí)和信息[17]。
盡管數(shù)據(jù)挖掘看上去像是出現(xiàn)不久,其實(shí)對(duì)這種方法的研究和實(shí)踐已有很長時(shí)間了,可以追溯到30多年以前。在20世紀(jì)60年代早期,統(tǒng)計(jì)分析方法被廣泛采用。最初的的統(tǒng)計(jì)分析由古典統(tǒng)計(jì)例程組成,如相關(guān)(correlation)、回歸(regression)、X2(chi-square)和交叉表(cross tabulation)。雖然大部分現(xiàn)代數(shù)據(jù)挖掘包仍然提供這些古典方法,但是數(shù)據(jù)挖掘已經(jīng)與這些第一代的統(tǒng)計(jì)手段偏離甚遠(yuǎn),而是成為幫助我們解釋或預(yù)測(cè)“數(shù)據(jù)中的隱含趨勢(shì)”的越來越具有洞察力的和功能強(qiáng)大的方法[12]。
2.3.2 數(shù)據(jù)挖掘的任務(wù)
下面列舉了根據(jù)數(shù)據(jù)分析工作者的不同目標(biāo)來劃分?jǐn)?shù)據(jù)挖掘任務(wù)的類型:
1) 探索性數(shù)據(jù)分析(Exploratory Data Analysis,EDA)
正如名字所暗示的,這種方法的宗旨就是對(duì)數(shù)據(jù)進(jìn)行探索,在探索時(shí)我們對(duì)要尋找什么并沒有明確的想法。
2) 描述建模(descriptive modeling)
描述模型的目標(biāo)是描述數(shù)據(jù)(或產(chǎn)生數(shù)據(jù)的過程)的所有特征。
3) 預(yù)測(cè)建模(predictive modeling)
預(yù)測(cè)建模的目標(biāo)是建立一個(gè)模型,這個(gè)模型允許我們根據(jù)已知的變量值來預(yù)測(cè)其他某個(gè)變量值。
4) 尋找模式和規(guī)則
上面列出的幾類任務(wù)都致力于建立模型。還有一些數(shù)據(jù)挖掘應(yīng)用是致力于模式探測(cè)的。比如在交易數(shù)據(jù)庫中發(fā)現(xiàn)頻繁出現(xiàn)的商品組合,該問題已經(jīng)吸引了很多數(shù)據(jù)挖掘者的注意力,而且已經(jīng)采用基于關(guān)聯(lián)規(guī)則(association rule)的算法來解決這樣的問題。還有一個(gè)重要問題是如何決定哪個(gè)因素真正導(dǎo)致了異常行為,也就是統(tǒng)計(jì)學(xué)家所說的孤立點(diǎn)檢測(cè)(outlier detection)問題。在高維情況下,這會(huì)變得更加困難[18]。
5) 根據(jù)內(nèi)容檢索
這種情況下,用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式。這種任務(wù)對(duì)于文本和圖像數(shù)據(jù)集合應(yīng)用最普遍。
盡管上面的五種任務(wù)彼此間有明顯的差異,但它們也有很多共同的特征。例如,很多任務(wù)都具有“任意兩個(gè)數(shù)據(jù)向量間的相似性或者距離”的概念。還有一個(gè)共同點(diǎn)是評(píng)分函數(shù)的思想(用來評(píng)估一個(gè)模型或模式擬合數(shù)據(jù)的好壞程度),不過對(duì)于不同類型的任務(wù),具體的函數(shù)形式往往有很大的差異。另外很明顯的一點(diǎn)是,不同的任務(wù)需要不同的模型和模式結(jié)構(gòu),就像不同種類的數(shù)據(jù)需要不同的結(jié)構(gòu)一樣。
數(shù)據(jù)挖掘的目的是從存儲(chǔ)于大型數(shù)據(jù)庫中的數(shù)據(jù)中發(fā)現(xiàn)某些重大的、有價(jià)值的知識(shí)或模式,其主要功能具體的包含以下幾項(xiàng)。
1) 特征化
即將與任務(wù)相關(guān)的一組數(shù)據(jù)匯總在一個(gè)綜合的多維數(shù)據(jù)集中,這樣就可以從不同角度和多個(gè)邏輯層次瀏覽數(shù)據(jù)或按不同規(guī)則抽取數(shù)據(jù)。OLAP操作就實(shí)現(xiàn)了這樣的功能。
2) 比較
即包含一系列的區(qū)分規(guī)則,用以區(qū)分研究集合(目標(biāo)類)與其他集合(對(duì)比類)之間的不同之處。
3) 分類
用于分析一組訓(xùn)練(training)數(shù)據(jù)(即類標(biāo)簽已知的數(shù)據(jù)集對(duì)象),并基于數(shù)據(jù)特征為每一類建立模型。分類規(guī)則是基于分類進(jìn)程生成的,這個(gè)分類進(jìn)程可以用于分類未來數(shù)據(jù),并確保數(shù)據(jù)庫的每一類數(shù)據(jù)更易于理解。
4) 關(guān)聯(lián)
指在數(shù)據(jù)庫的關(guān)聯(lián)數(shù)據(jù)集的不同層次之間挖掘一組關(guān)聯(lián)規(guī)則(A1^…^AiàB1^…^Bi)。
5) 預(yù)測(cè)
用來預(yù)測(cè)丟失數(shù)據(jù)的可能值或權(quán)衡一組對(duì)象的影響因素,即尋找影響一個(gè)主題的各因素之間的相關(guān)性(利用統(tǒng)計(jì)分析),并針對(duì)主題來預(yù)測(cè)這些因素的相對(duì)貢獻(xiàn)值。
6) 聚類分析
將數(shù)據(jù)庫或數(shù)據(jù)倉庫中的選定數(shù)據(jù)集聚和成簇,以確保內(nèi)部相似性高,與外部差異大。
7) 時(shí)間序列分析
一種對(duì)數(shù)據(jù)庫或數(shù)據(jù)倉庫中基于時(shí)間的數(shù)據(jù)進(jìn)行分析的方法。包括相似性分析、時(shí)間分析、序列分析和趨勢(shì)分析。
由于統(tǒng)計(jì)數(shù)據(jù)本身就是按照一定的標(biāo)準(zhǔn)、規(guī)則進(jìn)行組織的,因此已經(jīng)體現(xiàn)出了分類的特征,不需要再專門進(jìn)行分類處理。但是由于統(tǒng)計(jì)指標(biāo)繁多且相互關(guān)系復(fù)雜,并存在潛在的影響,不同的時(shí)期體現(xiàn)出不同的特征,所以理所當(dāng)然的需要進(jìn)行時(shí)間序列分析,趨勢(shì)預(yù)測(cè)以及找出某些重要經(jīng)濟(jì)指標(biāo)間的關(guān)聯(lián)關(guān)系。
2.4 聯(lián)機(jī)分析挖掘與統(tǒng)計(jì)的結(jié)合
OLAP結(jié)合數(shù)據(jù)挖掘使在多維數(shù)據(jù)集的多個(gè)維度和不同層次之間挖掘有價(jià)值的知識(shí)變得簡(jiǎn)單易行,各種數(shù)據(jù)挖掘功能還可以交叉運(yùn)用并集成于一體,使數(shù)據(jù)挖掘達(dá)到高度的交互性和靈活性。聯(lián)機(jī)分析挖掘提供在不同的數(shù)據(jù)子集和不同的抽象層上進(jìn)行數(shù)據(jù)挖掘的工具,通過它為用戶選擇所期望的數(shù)據(jù)挖掘功能動(dòng)態(tài)修改挖掘任務(wù)提供了靈活性。
需要特別注意的是,聯(lián)機(jī)分析挖掘與通常的數(shù)據(jù)挖掘不同之處在于前者一定是與各種多維數(shù)據(jù)結(jié)構(gòu)的構(gòu)建過程密不可分的。因?yàn)槁?lián)機(jī)分析挖掘一定包含OLAP的操作過程,需要首先對(duì)原始數(shù)據(jù)進(jìn)行一定的預(yù)處理。實(shí)際應(yīng)用當(dāng)中,OLAM操作過程主要分為以下三種形式:
1.構(gòu)建數(shù)據(jù)立方體,然后挖掘
由于建立了多維數(shù)據(jù)集,就可以在立方體的任何層次和任何部分進(jìn)行數(shù)據(jù)挖掘。這就意味著在進(jìn)行數(shù)據(jù)挖掘之前,必須首先選取數(shù)據(jù)和劃分邏輯層次(粒度級(jí))。例如,可以首先裁剪一個(gè)立方體,使之具有合適的大小,如“year=1997”,選取一個(gè)需要的層次,如在store維度中的city層次,接著執(zhí)行一個(gè)預(yù)測(cè)模型。
1. 挖掘,然后構(gòu)建數(shù)據(jù)立方體
即指首先對(duì)立方體進(jìn)行數(shù)據(jù)挖掘,然后將獲得的數(shù)據(jù)結(jié)果集建成一個(gè)新的立方體,以便做進(jìn)一步的研究。
例如,可以首先對(duì)一個(gè)“market”多維數(shù)據(jù)集按特定的維度或度量,如profit-made,進(jìn)行分類操作,對(duì)得到的每一類數(shù)據(jù),如high-profit類,建立新的立方體,而后可對(duì)其進(jìn)一步挖掘,如下鉆到細(xì)節(jié)層查看特征。
2. 挖掘和構(gòu)建數(shù)據(jù)立方體同時(shí)進(jìn)行
結(jié)合挖掘操作和建立立方體操作的一個(gè)靈活的方式是,在立方體的多個(gè)粒度級(jí)上實(shí)施類似的挖掘,并在挖掘過程中不斷調(diào)整立方體。這樣,同樣的挖掘就可以在立方體的多個(gè)和不同層次上進(jìn)行。
例如,在“market”數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,可以沿一個(gè)維度如time下鉆,目的是在一個(gè)低的層次上發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,如從year到month。
OLAP數(shù)據(jù)挖掘還可能有其他的結(jié)合方式,如“挖掘、再挖掘”的模式。這種模式的例子是先對(duì)數(shù)據(jù)集分類,然后針對(duì)每一類挖掘關(guān)聯(lián)規(guī)則。對(duì)于包含海量數(shù)據(jù)的巨型數(shù)據(jù)倉庫,提供靈活的數(shù)據(jù)挖掘方式是至關(guān)重要的。這樣用戶才能在操作簡(jiǎn)易的前提下,細(xì)致地研究多維數(shù)據(jù)集,選擇挖掘空間和需要的邏輯層次,以及測(cè)試不同的挖掘模型和方法。要做到這一點(diǎn),挖掘?qū)⑦_(dá)到高度的交互性、趣味性和效果顯著性。
一個(gè)典型的OLAM與OLAP共存的系統(tǒng)實(shí)現(xiàn)模型如圖1-1所示。
圖1-1一個(gè)集成的OLAM和OLAP系統(tǒng)架構(gòu)
對(duì)于龐大的統(tǒng)計(jì)數(shù)據(jù)集(特別是非常龐大的數(shù)據(jù)集),我們可能無法輕易知道數(shù)據(jù)中的規(guī)律,即使是非常顯而易見的,對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的目測(cè)不是辦法。實(shí)際統(tǒng)計(jì)業(yè)務(wù)中,統(tǒng)計(jì)工作者們?yōu)榱诉M(jìn)行分析和決策,往往要對(duì)大量的基層數(shù)據(jù)進(jìn)行即席查詢(Ad-Hoc Query)[]或者查詢匯總,從多個(gè)角度和各個(gè)層次上瀏覽數(shù)據(jù)。這意味著對(duì)于很大的數(shù)據(jù)集,我們需要周密完善的搜索和分析方法來弄清楚對(duì)于小數(shù)據(jù)集可以立刻得到的特征。此外,正如我們前面所提到的,很多情況下統(tǒng)計(jì)分析的目標(biāo)是要得到針對(duì)現(xiàn)有數(shù)據(jù)外的某種推理。
將電子計(jì)算技術(shù)和數(shù)據(jù)傳送通訊系統(tǒng)聯(lián)系起來,建立電子計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng),使得統(tǒng)計(jì)工作發(fā)生巨大變革。它將使統(tǒng)計(jì)工作人員從繁重的匯總工作中解放出來,集中力量進(jìn)行統(tǒng)計(jì)設(shè)計(jì)和統(tǒng)計(jì)分析的工作。現(xiàn)在,將聯(lián)機(jī)分析挖掘的方法應(yīng)用到電算化匯總和分析中,令統(tǒng)計(jì)工作的效率和質(zhì)量得到進(jìn)一步的提升,實(shí)際上也是一種本質(zhì)上的飛躍。
[1]還有一種提法叫做社會(huì)經(jīng)濟(jì)統(tǒng)計(jì),本文中認(rèn)為兩者是一致的,因此以下的部分統(tǒng)一采用“經(jīng)濟(jì)社會(huì)統(tǒng)計(jì)”這一術(shù)語。
第三章 OLAM在統(tǒng)計(jì)系統(tǒng)中的實(shí)現(xiàn)框架
隨著社會(huì)主義市場(chǎng)經(jīng)濟(jì)的發(fā)展,上海市各區(qū)的城市建設(shè)速度不斷加快。如何更準(zhǔn)確、更快速地提供統(tǒng)計(jì)信息服務(wù)是投資者、企業(yè)和政府部門的共同需要。他們都希望盡可能控制成本,減少風(fēng)險(xiǎn),一方面提高管理和決策水平,減少失誤和盲目性,另一方面抓住有利時(shí)機(jī),改善投資環(huán)境和服務(wù)質(zhì)量,使城市建設(shè)保持高速增長的勢(shì)頭。然而,隨著城市化進(jìn)程加快,人口膨脹、環(huán)境污染、交通擁擠、住房緊張等問題也越來越突出、網(wǎng)絡(luò)化管理和動(dòng)態(tài)調(diào)控需求增加。要使城市建設(shè)和管理與社會(huì)政治、經(jīng)濟(jì)、文化、科技的發(fā)展相適應(yīng),保證城市的可持續(xù)發(fā)展,必須采用先進(jìn)的管理方法和技術(shù)手段,尤其是統(tǒng)計(jì)信息的現(xiàn)代化管理已經(jīng)不能再拖延了。
為了滿足這樣的迫切要求,我們開發(fā)了一套功能完善的統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng),該系統(tǒng)對(duì)于各區(qū)縣級(jí)的統(tǒng)計(jì)單位普遍適用,并已在上海市某區(qū)統(tǒng)計(jì)局使用,可以有效的完成各種統(tǒng)計(jì)業(yè)務(wù)功能。
3.1 系統(tǒng)滿足的數(shù)據(jù)需求
在系統(tǒng)數(shù)據(jù)庫中建立統(tǒng)計(jì)歷史信息庫,為統(tǒng)計(jì)信息時(shí)序分析奠定基礎(chǔ),比如對(duì)于上海市某區(qū)統(tǒng)計(jì)局我們就建立了自1992年以來的歷史數(shù)據(jù)庫。
在一致、準(zhǔn)確、完整定義元數(shù)據(jù)的基礎(chǔ)上,確定統(tǒng)計(jì)指標(biāo)、統(tǒng)計(jì)指標(biāo)體系、統(tǒng)計(jì)分類和其他統(tǒng)計(jì)標(biāo)準(zhǔn),建立統(tǒng)計(jì)部門的年度數(shù)據(jù)庫和季、月度數(shù)據(jù)庫。同時(shí),要提供方便的元數(shù)據(jù)管理手段,以適應(yīng)統(tǒng)計(jì)業(yè)務(wù)數(shù)據(jù)庫表動(dòng)態(tài)結(jié)構(gòu)的特殊性。具體包含以下的內(nèi)容:
Ø 統(tǒng)計(jì)指標(biāo)建立原則
1.
指標(biāo)應(yīng)具有統(tǒng)計(jì)專業(yè)的代表性、典型性。2. 確保指標(biāo)數(shù)據(jù)的時(shí)間連續(xù)性,有利于建立統(tǒng)計(jì)歷史庫。
3. 按統(tǒng)計(jì)從微觀到宏觀,保持統(tǒng)計(jì)指標(biāo)的層次性。
4. 按統(tǒng)計(jì)專業(yè)分類,如工業(yè)、商業(yè)、外貿(mào)、投資等方面建立統(tǒng)計(jì)指標(biāo)體系。
5. 所建體系必須保持與市局?jǐn)?shù)據(jù)交換的兼容性。
6. 所建體系應(yīng)該考慮指標(biāo)的可維護(hù)性,考慮未來數(shù)據(jù)結(jié)構(gòu)變化的可能性。數(shù)據(jù)庫表中的統(tǒng)計(jì)指標(biāo)字段只增不減。
7. 考慮系統(tǒng)查詢方便,運(yùn)行高效。
Ø 統(tǒng)計(jì)指標(biāo)的分類
基層表指標(biāo):主要是統(tǒng)計(jì)基層表的指標(biāo)集。
匯總表指標(biāo):主要是全區(qū)用于匯總目的的指標(biāo)集。
統(tǒng)計(jì)局各專業(yè)科室負(fù)責(zé)提供指標(biāo)解釋、指標(biāo)變遷解釋,指標(biāo)匯總關(guān)系定義。
Ø 統(tǒng)計(jì)數(shù)據(jù)源分析
1. 統(tǒng)計(jì)業(yè)務(wù)基層數(shù)據(jù),即統(tǒng)計(jì)各專業(yè)月度、年度統(tǒng)計(jì)數(shù)據(jù)。
2. 匯總數(shù)據(jù)分為月匯總、年匯總。
3. 月匯編數(shù)據(jù),比如以上海某區(qū)“網(wǎng)上直報(bào)”數(shù)據(jù)庫為準(zhǔn)。
4. 年匯編數(shù)據(jù),比如上海市某區(qū)統(tǒng)計(jì)局包括1993-2003年歷年具有統(tǒng)一指標(biāo)的歷史數(shù)據(jù)。
5. 普查、調(diào)查數(shù)據(jù)庫,包括經(jīng)濟(jì)普查、人口普查、農(nóng)業(yè)普查和不定期調(diào)查數(shù)據(jù)。
6. 從其他委辦局得到的數(shù)據(jù)(如財(cái)務(wù)局、農(nóng)委、稅務(wù)局、工業(yè)局、公安局、環(huán)保局)。
Ø 基層庫的特點(diǎn)
1. 月度基層庫,反映各單位上報(bào)的每月信息。
2. 年度基層庫,反映各單位上報(bào)的全年統(tǒng)計(jì)信息。
3. 指標(biāo)明確,由上級(jí)統(tǒng)計(jì)部門統(tǒng)一制定,個(gè)別表格由基層統(tǒng)計(jì)局制定。
4. 數(shù)據(jù)量大,統(tǒng)計(jì)信息翔實(shí),信息偏微觀。
5. 由各專業(yè)自行分頭維護(hù)。
基層庫滿足的數(shù)據(jù)需求有:
1. 提供自定義與專業(yè)制度相對(duì)應(yīng)的基層數(shù)據(jù)庫指標(biāo)集。
2. 按專業(yè)指標(biāo)、按統(tǒng)計(jì)時(shí)間,將專業(yè)基層數(shù)據(jù)文件導(dǎo)入應(yīng)用系統(tǒng)數(shù)據(jù)庫的基層庫中。
3. 建立最近2-3年的專業(yè)基層庫,作為系統(tǒng)的初始數(shù)據(jù)。
Ø 匯總庫的特點(diǎn)
1. 月度匯總庫,反映區(qū)縣每月統(tǒng)計(jì)的匯總信息。
2. 年度匯總庫,反映區(qū)縣全年統(tǒng)計(jì)的匯總信息。
3. 匯總指標(biāo)以年匯編中的指標(biāo)為基準(zhǔn),根據(jù)基層統(tǒng)計(jì)局實(shí)際需要建立。
4. 信息偏宏觀,數(shù)據(jù)總量相對(duì)較少,反映區(qū)縣的匯總統(tǒng)計(jì)信息。
5. 匯總數(shù)據(jù)來源為各專業(yè)基層庫、普查庫,少量匯總數(shù)據(jù)直接從其他委辦局獲得。
匯總庫滿足的數(shù)據(jù)需求有:
1. 確定與專業(yè)制度相對(duì)應(yīng)的匯總數(shù)據(jù)庫指標(biāo)集(月度、年度)。
2. 建立以往多年分專業(yè)的匯總數(shù)據(jù)庫,作為系統(tǒng)的歷史匯總庫。
3.2 系統(tǒng)滿足的統(tǒng)計(jì)功能需求
Ø 統(tǒng)計(jì)指標(biāo)、表的維護(hù)
指標(biāo)維護(hù)模塊旨在對(duì)統(tǒng)計(jì)基層數(shù)據(jù)庫或匯總庫指標(biāo)體系進(jìn)行維護(hù)。方便用戶對(duì)統(tǒng)計(jì)中各類指標(biāo)的添加、修改。
系統(tǒng)實(shí)現(xiàn)的具體功能包括:
1. 指標(biāo)集(體系)的新建、編輯、保存。
2. 指標(biāo)集(體系)采用樹形結(jié)構(gòu)顯示,并根據(jù)所屬專業(yè)的不同分目錄存放。
3. 指標(biāo)集(體系)中所含指標(biāo)的信息顯示在列表中,可供使用人員方便地進(jìn)行指標(biāo)信息新建、編輯、保存等操作。
4. 特別的,各指標(biāo)集(體系)內(nèi)所含指標(biāo)信息不允許刪除,否則將造成歷史數(shù)據(jù)的不一致現(xiàn)象。
系統(tǒng)負(fù)責(zé)實(shí)現(xiàn)各統(tǒng)計(jì)專題表的維護(hù),包括新建表,表結(jié)構(gòu)的定義,表結(jié)構(gòu)的編輯,表結(jié)構(gòu)的保存等。一旦在系統(tǒng)中定義了統(tǒng)計(jì)表,該表中的指標(biāo)不允許被刪除,除非刪除整張匯總表。
Ø 通用數(shù)據(jù)查詢
由于本系統(tǒng)主要完成統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)和管理,因此必須提供功能強(qiáng)大且靈活的數(shù)據(jù)查詢功能,方便使用人員在大量統(tǒng)計(jì)數(shù)據(jù)中搜索所需信息。統(tǒng)計(jì)業(yè)務(wù)中常用的查詢操作應(yīng)可以保存為模板,操作人員可以重新打開該查詢模版,編輯各種查詢要素,然后重新保存或者直接執(zhí)行,當(dāng)某個(gè)查詢模板失效后應(yīng)能夠刪除。同時(shí),查詢模板根據(jù)主題和定義人員身份的不同分文件夾存放,這里的文件夾表示一種邏輯組織結(jié)構(gòu),既可以是面向?qū)I(yè)的,也可以是面向特定用戶的,保證只有特定操作權(quán)限的人員才能看到。
Ø 統(tǒng)計(jì)匯總和統(tǒng)計(jì)分析
統(tǒng)計(jì)匯總指根據(jù)基層數(shù)據(jù)獲得業(yè)務(wù)所需的各種粒度級(jí)別上的匯總數(shù)據(jù),根據(jù)匯總目標(biāo)的不同又可分為定義主題匯總表進(jìn)行匯總和定義動(dòng)態(tài)匯總模板進(jìn)行匯總兩種形式。前者包括月度匯總表和年度匯總表,分別用以存儲(chǔ)形成月報(bào)和年報(bào)這類固定主題的匯總數(shù)據(jù);而后者是為了方便各種用戶自定義分析,按照定制的維度和度量快速靈活的匯總出各種情況各種粒度上的聚合數(shù)據(jù),同時(shí)這些數(shù)據(jù)整體存儲(chǔ)在一張?zhí)厥鈪R總表的大字段中。同數(shù)據(jù)查詢類似,統(tǒng)計(jì)業(yè)務(wù)中常用的匯總操作應(yīng)能夠保存成模板,匯總模板也是可以被打開,編輯和刪除的。不同身份的用戶可以看到和使用的匯總模板也有所不同。
Ø 統(tǒng)計(jì)分析報(bào)表及圖表展現(xiàn)
統(tǒng)計(jì)數(shù)據(jù)上報(bào)和對(duì)外展示分析結(jié)果的主要方式是各種報(bào)表,其中包括各個(gè)專業(yè)的,各個(gè)時(shí)段的,各種樣式的報(bào)表,報(bào)表的樣式還應(yīng)允許統(tǒng)計(jì)業(yè)務(wù)人員根據(jù)實(shí)際需要靈活方便的調(diào)整,并能直觀的反映出數(shù)據(jù)間的層次關(guān)系。
數(shù)據(jù)查詢、匯總甚至分析的結(jié)果還可以通過圖表的形式直觀的展現(xiàn),圖表的風(fēng)格允許用戶自定義,包括直方圖、線圖、餅圖等,可以2D或3D的形式顯示。尤其是對(duì)匯總結(jié)果的分析能以圖表的形式反映出時(shí)間上的變化趨勢(shì),甚至統(tǒng)計(jì)指標(biāo)間的依賴關(guān)系也能夠通過圖表反映出來,實(shí)現(xiàn)分析的可視化。
最后兩部分內(nèi)容是該統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)的核心功能,且承前啟后,緊密聯(lián)系,實(shí)現(xiàn)的難度也是最高的。
3.3 聯(lián)機(jī)分析挖掘技術(shù)在本系統(tǒng)中的實(shí)現(xiàn)架構(gòu)
為了滿足上述數(shù)據(jù)和功能的要求,在統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)中首先按照各種分組標(biāo)志的組合對(duì)基層數(shù)據(jù)進(jìn)行匯總和再匯總,然后在各種級(jí)別的匯總結(jié)果集基礎(chǔ)上進(jìn)行時(shí)序分析等。由于種種原因,應(yīng)用系統(tǒng)中并沒有完全采用數(shù)據(jù)庫本身提供的API,而是采用一種通用的OLAP聚合算法完成對(duì)統(tǒng)計(jì)數(shù)據(jù)庫的數(shù)據(jù)匯總操作,并在此基礎(chǔ)上實(shí)現(xiàn)進(jìn)一步的數(shù)據(jù)分析和挖掘。系統(tǒng)中實(shí)現(xiàn)多維數(shù)據(jù)集構(gòu)建與數(shù)據(jù)挖掘操作的架構(gòu)如圖3-1所示,至于不采用數(shù)據(jù)庫API完成OLAP的有關(guān)因素將在以下的章節(jié)中具體論述。OLAM在統(tǒng)計(jì)應(yīng)用系統(tǒng)內(nèi)的具體實(shí)現(xiàn)過程也將在下面的章節(jié)中按照該圖所示的框架自底而上逐層展開論述。
圖3-1統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)中采用的OLAM實(shí)現(xiàn)架構(gòu)
本統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)后端推薦采用Oracle10g數(shù)據(jù)庫系統(tǒng),它是業(yè)界公認(rèn)的具有高效、穩(wěn)定的大型數(shù)據(jù)庫管理系統(tǒng),同時(shí)在Oracle家族中也是性能/價(jià)格比最高的產(chǎn)品。本系統(tǒng)涉及大量的統(tǒng)計(jì)數(shù)據(jù),而且數(shù)據(jù)還會(huì)以較快的速度不斷的增長,再加上Oracle本身提供了強(qiáng)大的應(yīng)用開發(fā)能力,因此選擇這樣的大型數(shù)據(jù)庫系統(tǒng)非常合適。
該統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)采用C/S結(jié)構(gòu)實(shí)現(xiàn)主體部分功能,并采用B/S結(jié)構(gòu)實(shí)現(xiàn)網(wǎng)上統(tǒng)計(jì)數(shù)據(jù)展現(xiàn)功能。為了最大限度的兼顧兩種架構(gòu)下基礎(chǔ)類庫和業(yè)務(wù)模型的統(tǒng)一,選擇微軟的Visual Studio.NET 2003作為開發(fā)和集成平臺(tái)。由于.NET提供了豐富且功能強(qiáng)大的開發(fā)組件,集成開發(fā)環(huán)境(IDE),優(yōu)美的用戶操作界面,大大提高了系統(tǒng)人機(jī)交互的能力,確保業(yè)務(wù)人員能夠快速的掌握系統(tǒng)操作方法,提高工作效率。
對(duì)于上海市某區(qū)統(tǒng)計(jì)局所使用的這套統(tǒng)計(jì)信息管理系統(tǒng),由于要在關(guān)系型數(shù)據(jù)庫系統(tǒng)中存儲(chǔ)1992-2005年的歷史統(tǒng)計(jì)數(shù)據(jù),數(shù)據(jù)量已經(jīng)比較龐大,如果采用MOLAP的方式則實(shí)施難度很大,因此我們采用了ROLAP的方式。
由于許多情況下,基層統(tǒng)計(jì)部門的分類目錄的編制并未嚴(yán)格按照國家標(biāo)準(zhǔn)進(jìn)行,所以我們開發(fā)的應(yīng)用系統(tǒng)中為統(tǒng)計(jì)人員提供了靈活的分類目錄定義功能,允許用戶按照各種標(biāo)志進(jìn)行分組,甚至還可以在現(xiàn)有分組的基礎(chǔ)上自己定義派生出來的分組。
需要特別指出的是,數(shù)據(jù)立方體是一個(gè)邏輯概念,由于可視化技術(shù)的限制,人們很難直觀的查看數(shù)據(jù)立方體的樣子,因此多數(shù)情況下只是在理論上研究而很少有軟件能較好的實(shí)現(xiàn)。鑒于此,微軟的Analysis Services提出了多維數(shù)據(jù)集的概念,代替數(shù)據(jù)立方體,表現(xiàn)的時(shí)候采用嵌套表形式以便于觀察[15]。在本文的研究過程中,認(rèn)為通常情況下數(shù)據(jù)立方體和多維數(shù)據(jù)集是等價(jià)的。在上海市某區(qū)統(tǒng)計(jì)局所使用的這套統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)中,我們就采用了物理上和邏輯上的二維表形式存放多維數(shù)據(jù),前者指數(shù)據(jù)庫表,后者指內(nèi)存中的數(shù)據(jù)集合,它們都由維和事實(shí)組成,在邏輯上呈現(xiàn)多維特征。
在該統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)中,我們將數(shù)據(jù)挖掘技術(shù)反過來應(yīng)用于統(tǒng)計(jì)業(yè)務(wù),本身就具有天然的優(yōu)勢(shì),并且能夠產(chǎn)生傳統(tǒng)統(tǒng)計(jì)學(xué)方法無法取得的效果。
在該統(tǒng)計(jì)信息管理應(yīng)用系統(tǒng)中,統(tǒng)計(jì)人員可以根據(jù)自己專業(yè)的特點(diǎn)自由的定義分組標(biāo)志的個(gè)數(shù)和分組的層次,通過鼠標(biāo)拖動(dòng)就可以完成。考慮到性能和處理時(shí)間開銷的限制,實(shí)際應(yīng)用中分組標(biāo)志個(gè)數(shù)及分組層次還是受到一定限制的。
posted on 2010-03-02 14:36 風(fēng) 閱讀(497) 評(píng)論(0) 編輯 收藏