在數(shù)據(jù)庫中分散、獨(dú)立存在的大量數(shù)據(jù)對于業(yè)務(wù)人員來說,只是一些無法看懂的天書。如何把數(shù)據(jù)轉(zhuǎn)化為信息,使得業(yè)務(wù)人員(包括管理者)能夠充分掌握、利用這些信息,并且輔助決策,就是商業(yè)智能主要解決的問題。? 如何把數(shù)據(jù)庫中存在的數(shù)據(jù)轉(zhuǎn)變?yōu)闃I(yè)務(wù)人員需要的信息?大部分的答案是報(bào)表系統(tǒng)。簡單說,報(bào)表系統(tǒng)已經(jīng)可以稱作是BI了,它是BI的低端實(shí)現(xiàn)。 現(xiàn)在國外的企業(yè),大部分已經(jīng)進(jìn)入了中端BI,叫做數(shù)據(jù)分析。有一些企業(yè)已經(jīng)開始進(jìn)入高端BI,叫做數(shù)據(jù)挖掘。而我國的企業(yè),目前大部分還停留在報(bào)表階段。 數(shù)據(jù)報(bào)表不可取代? 傳統(tǒng)的報(bào)表系統(tǒng)技術(shù)上已經(jīng)相當(dāng)成熟,大家熟悉的Excel、水晶報(bào)表、Reporting Service等都已經(jīng)被廣泛使用。但是,隨著數(shù)據(jù)的增多,需求的提高,傳統(tǒng)報(bào)表系統(tǒng)面臨的挑戰(zhàn)也越來越多。 1. 數(shù)據(jù)太多,信息太少 密密麻麻的表格堆砌了大量數(shù)據(jù),到底有多少業(yè)務(wù)人員仔細(xì)看每一個(gè)數(shù)據(jù)?到底這些數(shù)據(jù)代表了什么信息、什么趨勢?級(jí)別越高的領(lǐng)導(dǎo),越需要簡明的信息。如果我是董事長,我可能只需要一句話:目前我們的情況是好、中還是差? 2. 難以交互分析、了解各種組合 定制好的報(bào)表過于死板。例如,我們可以在一張表中列出不同地區(qū)、不同產(chǎn)品的銷量,另一張表中列出不同地區(qū)、不同年齡段顧客的銷量。但是,這兩張表無法回答諸如“華北地區(qū)中青年顧客購買數(shù)碼相機(jī)類型產(chǎn)品的情況”等問題。業(yè)務(wù)問題經(jīng)常需要多個(gè)角度的交互分析。 3. 難以挖掘出潛在的規(guī)則 報(bào)表系統(tǒng)列出的往往是表面上的數(shù)據(jù)信息,但是海量數(shù)據(jù)深處潛在含有哪些規(guī)則呢?什么客戶對我們價(jià)值最大,產(chǎn)品之間相互關(guān)聯(lián)的程度如何?越是深層的規(guī)則,對于決策支持的價(jià)值越大,但是,也越難挖掘出來。 4. 難以追溯歷史,數(shù)據(jù)形成孤島 業(yè)務(wù)系統(tǒng)很多,數(shù)據(jù)存在于不同地方。太舊的數(shù)據(jù)(例如一年前的數(shù)據(jù))往往被業(yè)務(wù)系統(tǒng)備份出去,導(dǎo)致宏觀分析、長期歷史分析難度很大。
因此,隨著時(shí)代的發(fā)展,傳統(tǒng)報(bào)表系統(tǒng)已經(jīng)不能滿足日益增長的業(yè)務(wù)需求了,企業(yè)期待著新的技術(shù)。數(shù)據(jù)分析和數(shù)據(jù)挖掘的時(shí)代正在來臨。值得注意的是,數(shù)據(jù)分析和數(shù)據(jù)挖掘系統(tǒng)的目的是帶給我們更多的決策支持價(jià)值,并不是取代數(shù)據(jù)報(bào)表。報(bào)表系統(tǒng)依然有其不可取代的優(yōu)勢,并且將會(huì)長期與數(shù)據(jù)分析、挖掘系統(tǒng)一起并存下去。 如果說OLTP側(cè)重于對數(shù)據(jù)庫進(jìn)行增加、修改、刪除等日常事務(wù)操作,OLAP(Online Analytics Process,在線分析系統(tǒng))則側(cè)重于針對宏觀問題,全面分析數(shù)據(jù),獲得有價(jià)值的信息。 為了達(dá)到OLAP的目的,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)不夠了,需要一種新的技術(shù)叫做多維數(shù)據(jù)庫。 多維數(shù)據(jù)庫的概念并不復(fù)雜。舉一個(gè)例子,我們想描述2003年4月份可樂在北部地區(qū)銷售額10萬元時(shí),牽扯到幾個(gè)角度:時(shí)間、產(chǎn)品、地區(qū)。這些叫做維度。至于銷售額,叫做度量值。當(dāng)然,還有成本、利潤等。 如圖2,每個(gè)維度分別代表了時(shí)間、產(chǎn)品和地區(qū),立方體上的單元代表了度量值。進(jìn)一步,維度可以分為不同的層次。
圖1 某案例中對銷售額的解析及當(dāng)前產(chǎn)品的分類
圖2 使用多維數(shù)據(jù)分析的案例
圖3 某案例的數(shù)據(jù)分析投影圖 除了時(shí)間、產(chǎn)品和地區(qū),我們還可以有很多維度,例如客戶的性別、職業(yè)、銷售部門、促銷方式等等。實(shí)際上,使用中的多維數(shù)據(jù)庫可能是一個(gè)8維或者15維的立方體。 雖然結(jié)構(gòu)上15維的立方體很復(fù)雜,但是概念上非常簡單。 數(shù)據(jù)分析系統(tǒng)的總體架構(gòu)分為四個(gè)部分:源系統(tǒng)、數(shù)據(jù)倉庫、多維數(shù)據(jù)庫、客戶端。 ·源系統(tǒng):包括現(xiàn)有的所有OLTP系統(tǒng),搭建BI系統(tǒng)并不需要更改現(xiàn)有系統(tǒng)。 ·數(shù)據(jù)倉庫:數(shù)據(jù)大集中,通過數(shù)據(jù)抽取,把數(shù)據(jù)從源系統(tǒng)源源不斷地抽取出來,可能每天一次,或者每3個(gè)小時(shí)一次,當(dāng)然是自動(dòng)的。數(shù)據(jù)倉庫依然建立在關(guān)系型數(shù)據(jù)庫上,往往符合叫做“星型結(jié)構(gòu)”的模型。 ·多維數(shù)據(jù)庫:數(shù)據(jù)倉庫的數(shù)據(jù)經(jīng)過多維建模,形成了立方體結(jié)構(gòu)。每一個(gè)立方體描述了一個(gè)業(yè)務(wù)主題,例如銷售、庫存或者財(cái)務(wù)。 ·客戶端:好的客戶端軟件可以把多維立方體中的信息豐富多彩地展現(xiàn)給用戶。 數(shù)據(jù)分析案例:? 在實(shí)際的案例中,我們利用Oracle 9i搭建了數(shù)據(jù)倉庫,Microsoft Analysis Service 2000搭建了多維數(shù)據(jù)庫,ProClarity 6.0 作為客戶端分析軟件。 分解樹好像一個(gè)組織圖。分解樹在回答以下問題時(shí)很有效: ·在指定的產(chǎn)品組內(nèi),哪種產(chǎn)品有最高的銷售額? ·在特定的產(chǎn)品種類內(nèi),各種產(chǎn)品間的銷售額分布如何? ·哪個(gè)銷售人員完成了最高百分比的銷售額? 在圖1中,可以對PC機(jī)在各個(gè)地域的銷售額和所占百分比一目了然。任意一層分解樹都可以根據(jù)不同維度隨意展開。在該分解樹中,在大區(qū)這一層是按國家展開,在國家這一層是按產(chǎn)品分類展開。 投影圖(圖3)使用散點(diǎn)圖的格式,顯示兩個(gè)或三個(gè)度量值之間的關(guān)系。數(shù)據(jù)點(diǎn)的集中預(yù)示兩個(gè)變量之間存在強(qiáng)的相關(guān)關(guān)系,而稀疏分布的數(shù)據(jù)點(diǎn)可能顯示不明顯的關(guān)系。 投影圖很適合分析大量的數(shù)據(jù)。在顯示因果關(guān)系方面有明顯效果,比如例外的數(shù)據(jù)點(diǎn)就可以考慮進(jìn)一步研究,因?yàn)樗鼈兟湓凇罢!钡狞c(diǎn)群范圍之外。 數(shù)據(jù)挖掘看穿你的需求? 廣義上說,任何從數(shù)據(jù)庫中挖掘信息的過程都叫做數(shù)據(jù)挖掘。從這點(diǎn)看來,數(shù)據(jù)挖掘就是BI。但從技術(shù)術(shù)語上說,數(shù)據(jù)挖掘(Data Mining)特指的是:源數(shù)據(jù)經(jīng)過清洗和轉(zhuǎn)換等成為適合于挖掘的數(shù)據(jù)集。數(shù)據(jù)挖掘在這種具有固定形式的數(shù)據(jù)集上完成知識(shí)的提煉,最后以合適的知識(shí)模式用于進(jìn)一步分析決策工作。從這種狹義的觀點(diǎn)上,我們可以定義:數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識(shí)的過程。數(shù)據(jù)挖掘往往針對特定的數(shù)據(jù)、特定的問題,選擇一種或者多種挖掘算法,找到數(shù)據(jù)下面隱藏的規(guī)律,這些規(guī)律往往被用來預(yù)測、支持決策。 關(guān)聯(lián)銷售案例: 美國的超市有這樣的系統(tǒng):當(dāng)你采購了一車商品結(jié)賬時(shí),售貨員小姐掃描完了你的產(chǎn)品后,計(jì)算機(jī)上會(huì)顯示出一些信息,然后售貨員會(huì)友好地問你:我們有一種一次性紙杯正在促銷,位于F6貨架上,您要購買嗎? 這句話決不是一般的促銷。因?yàn)橛?jì)算機(jī)系統(tǒng)早就算好了,如果你的購物車中有餐巾紙、大瓶可樂和沙拉,則86%的可能性你要買一次性紙杯。結(jié)果是,你說,啊,謝謝你,我剛才一直沒找到紙杯。 這不是什么神奇的科學(xué)算命,而是利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法實(shí)現(xiàn)的系統(tǒng)。 每天,新的銷售數(shù)據(jù)會(huì)進(jìn)入挖掘模型,與過去N天的歷史數(shù)據(jù)一起,被挖掘模型處理,得到當(dāng)前最有價(jià)值的關(guān)聯(lián)規(guī)則。同樣的算法,分析網(wǎng)上書店的銷售業(yè)績,計(jì)算機(jī)可以發(fā)現(xiàn)產(chǎn)品之間的關(guān)聯(lián)以及關(guān)聯(lián)的強(qiáng)弱。 數(shù)據(jù)報(bào)表、數(shù)據(jù)分析、數(shù)據(jù)挖掘是BI的三個(gè)層面。我們相信未來幾年的趨勢是:越來越多的企業(yè)在數(shù)據(jù)報(bào)表的基礎(chǔ)上,會(huì)進(jìn)入數(shù)據(jù)分析與數(shù)據(jù)挖掘的領(lǐng)域。商業(yè)智能所帶來的決策支持功能,會(huì)給我們帶來越來越明顯的效益。? 來源:賽迪網(wǎng)-中國計(jì)算機(jī)報(bào) |
凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
、轉(zhuǎn)載請注明來處和原文作者。非常感謝。