什么是BI(Business Intelligence)
談?wù)剬?duì)BI的理解,杜絕“假”“大”“空”的言辭,從BI的定義、基本技術(shù)、專業(yè)名詞、實(shí)例應(yīng)用及擴(kuò)展等方面進(jìn)行重新描述,鞏固對(duì)BI的理解。
一、BI的定義
BI是Business Intelligence的英文縮寫,中文解釋為商務(wù)智能,用來幫助企業(yè)更好地利用數(shù)據(jù)提高決策質(zhì)量的技術(shù)集合,是從大量的數(shù)據(jù)中鉆取信息與知識(shí)的過程。簡單講就是業(yè)務(wù)、數(shù)據(jù)、數(shù)據(jù)價(jià)值應(yīng)用的過程。用圖解的方式可以理解為下圖:
圖(1)
這樣不難看出,傳統(tǒng)的交易系統(tǒng)完成的是Business到Data的過程,而BI要做的事情是在Data的基礎(chǔ)上,讓Data產(chǎn)生價(jià)值,這個(gè)產(chǎn)生價(jià)值的過程就是Business Intelligence analyse的過程。
如何實(shí)現(xiàn)Business Intelligence analyse的過程,從技術(shù)角度來說,是一個(gè)復(fù)雜的技術(shù)集合,它包含ETL、DW、OLAP、DM等多環(huán)節(jié),基本過程可用下圖描述。
圖(2)
上圖流程,簡單的說就是把交易系統(tǒng)已經(jīng)發(fā)生過的數(shù)據(jù),通過ETL工具抽取到主題明確的數(shù)據(jù)倉庫中,OLAP后生成Cube或報(bào)表,透過Portal展現(xiàn)給用戶,用戶利用這些經(jīng)過分類(Classification)、聚集(Clustering)、描述和可視化(Description and Visualization)的數(shù)據(jù),支持業(yè)務(wù)決策。
說明:
BI不能產(chǎn)生決策,而是利用BI過程處理后的數(shù)據(jù)來支持決策。哪么BI所謂的智能到底是什么呢?(理清這個(gè)概念,有助于對(duì)BI的應(yīng)用。)BI最終展現(xiàn)給用戶的信息就是報(bào)表或圖視,但它不同于傳統(tǒng)的靜態(tài)報(bào)表或圖視,它顛覆了傳統(tǒng)報(bào)表或圖視的提供與閱讀的方式,產(chǎn)生的數(shù)據(jù)集合就象玩具“魔方”一樣,可以任意快速的旋轉(zhuǎn)組合報(bào)表或圖視,有力的保障了用戶分析數(shù)據(jù)時(shí)操作的簡單性、報(bào)表或圖視直觀性及思維的連慣性。
我想這是大家熱衷于BI的根本原因。
二、BI的誕生
隨著IT技術(shù)的進(jìn)步,傳統(tǒng)的業(yè)務(wù)交易系統(tǒng)有了長足的發(fā)展,已經(jīng)實(shí)現(xiàn)了業(yè)務(wù)信息化,每一筆業(yè)務(wù)數(shù)據(jù)都記錄在數(shù)據(jù)庫中,星轉(zhuǎn)斗移,累積了以TB為計(jì)量單位的業(yè)務(wù)數(shù)據(jù)記錄。也許你會(huì)問:這么多數(shù)據(jù),占用了很多存儲(chǔ)設(shè)備,耗費(fèi)存儲(chǔ)成本,卻又不經(jīng)常訪問,留著它有什么用處?可以給你肯定的回答,留著這些歷史數(shù)據(jù)意義巨大,挖掘業(yè)務(wù)的規(guī)律、支持決策。
典型的案例有“尿片和啤酒”的故事, 尿片和啤酒本來是兩樣不相干的東西,可是,有人就發(fā)現(xiàn),星期五在超市里購物的,購買尿片的年輕父親中有30%~40%的人同時(shí)購買啤酒。原來,星期五年輕的父親購買尿片時(shí),還會(huì)為自己捎帶買啤酒,因?yàn)?,星期五是各家電視臺(tái)轉(zhuǎn)播橄欖球賽的時(shí)間,于是,超市老板們就把尿片和啤酒捆綁銷售獲得了巨大成功。
這個(gè)故事成了一個(gè)利用數(shù)據(jù)挖掘商業(yè)價(jià)值最大化的神話。 由此看來,非常不關(guān)聯(lián)的兩樣?xùn)|西,通過海量的信息數(shù)據(jù)處理,可以挖掘出它們之間潛在的關(guān)聯(lián),將這種關(guān)聯(lián)商業(yè)化,就會(huì)得到意想不到的新業(yè)務(wù)或新的商業(yè)模式。
到底該怎樣把這些占據(jù)大量存儲(chǔ)空間的數(shù)據(jù)的價(jià)值挖掘出來,讓這些數(shù)據(jù)從成本的消耗者變成利潤的促進(jìn)者呢?新的數(shù)據(jù)分析技術(shù)由此誕生了,完成了“數(shù)據(jù)”到“數(shù)據(jù)價(jià)值”轉(zhuǎn)換的環(huán)節(jié),同時(shí)給這項(xiàng)技術(shù)起了一個(gè)響亮而又神密的名字“BI”(Business Intelligence)
三、基本技術(shù)
BI(Business Intelligence) 是一種運(yùn)用了數(shù)據(jù)倉庫、在線分析和數(shù)據(jù)挖掘等技術(shù)來處理和分析數(shù)據(jù)的嶄新技術(shù),目的是為企業(yè)決策者提供決策支持。這似乎是BI的官方定義,也是廣大BI玩家一成不變的宗旨,哪么BI技術(shù)涉及了哪些方面呢?從圖(2)中,我們不難看出其核心技術(shù)中ETL、DW及OLAP?;蛘哒f是“數(shù)據(jù)處理技術(shù)”與“數(shù)據(jù)展現(xiàn)技術(shù)”更加容易理解。
為什么要在操作型數(shù)據(jù)庫和 OLAP 之間加一層“數(shù)據(jù)倉庫”呢?
說一千道一萬都計(jì)算機(jī)資源與效能惹的禍,操作型數(shù)據(jù)庫以快速響應(yīng)業(yè)務(wù)為主要目標(biāo),而OLAP的時(shí)候要占用大量的硬件資源,在OLAP的時(shí)候,業(yè)務(wù)操作很難快速響應(yīng),無法保證業(yè)務(wù)的順利進(jìn)行,從業(yè)務(wù)、數(shù)據(jù)、數(shù)據(jù)的價(jià)值的邏輯來看,沒有業(yè)務(wù)就談不上OLAP;零星分散的數(shù)據(jù)一般存在有多個(gè)應(yīng)用,對(duì)應(yīng)多個(gè)業(yè)務(wù)操作型數(shù)據(jù)庫,訪問效能極其低下。綜合上述資源與效能的問題,最高效的方法就是將數(shù)據(jù)先整合到數(shù)據(jù)倉庫中,而 由OLAP應(yīng)用統(tǒng)一從數(shù)據(jù)倉庫里取數(shù),以解決快速響應(yīng)業(yè)務(wù)與OLAP的矛盾。
但是,多了這么一層,不管ROLAP還是MOLAP都無法查看實(shí)時(shí)數(shù)據(jù),這并不影響B(tài)I的應(yīng)用,90%的BI應(yīng)用都不要求實(shí)時(shí)性,允許數(shù)據(jù)有滯后,這是決策支持系統(tǒng)的應(yīng)用特點(diǎn),這個(gè)滯后區(qū)間就是數(shù)據(jù)抽取工具工作及OLAP的時(shí)間。
四、數(shù)據(jù)處理
(1)ODS,(Operational Data Store)是數(shù)據(jù)倉庫體系結(jié)構(gòu)中的一個(gè)可選部分,ODS具備數(shù)據(jù)倉庫的部分特征和OLTP系統(tǒng)的部分特征,它是“面向主題的、集成的、當(dāng)前或接近當(dāng)前的、不斷變化的”數(shù)據(jù)。
一般在帶有ODS的系統(tǒng)體系結(jié)構(gòu)中,ODS都設(shè)計(jì)都有如下特點(diǎn):
1) 在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間的數(shù)據(jù)過渡離層。
如果業(yè)務(wù)數(shù)據(jù)來源比較復(fù)雜,一般采用構(gòu)造ODS的方法來實(shí)現(xiàn)收集當(dāng)前需要處理的數(shù)據(jù)。如下述數(shù)據(jù)來源:
a、業(yè)務(wù)數(shù)據(jù)庫種類繁多。業(yè)務(wù)交易系統(tǒng)使用了不同種的數(shù)據(jù)庫,如DB2、Informix、Oracle、SQL server、文本等。
b、不同的應(yīng)用系統(tǒng)、不同的地理位置。
c、訂閱數(shù)據(jù)源。
d、批量還原非傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)。
... ...等等。用于存放從業(yè)務(wù)系統(tǒng)直接抽取出來的數(shù)據(jù),這些數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)之間的邏輯關(guān)系上都與業(yè)務(wù)系統(tǒng)基本保持一致。
2) 保存當(dāng)前或接近當(dāng)前的細(xì)節(jié)數(shù)據(jù),以供查詢或ETL檢錯(cuò)使用。
3) 數(shù)據(jù)存儲(chǔ)周期性。ODS中存儲(chǔ)的數(shù)據(jù)都是臨時(shí)的,每次ETL之前都要清空ODS中存儲(chǔ)的數(shù)據(jù)。
(2)ETL,(Extract Transform Load)操作型業(yè)務(wù)數(shù)據(jù)庫(DB)到數(shù)據(jù)倉庫(DW)的過程稱之為ETL,它實(shí)現(xiàn)數(shù)據(jù)的抽取,轉(zhuǎn)換及裝載工作。
抽?。簩?shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來。
轉(zhuǎn)換:按照預(yù)先設(shè)計(jì)好的規(guī)則將抽取得數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗,以及處理一些冗余、歧義的數(shù)據(jù),使本來異構(gòu)的數(shù)據(jù)格式能統(tǒng)一起來。
裝載:將轉(zhuǎn)換完的數(shù)據(jù)按計(jì)劃增量或全部的導(dǎo)入到數(shù)據(jù)倉庫中。
在技術(shù)上主要涉及增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。
現(xiàn)在列舉一個(gè)簡單的實(shí)例,用來說明ETL。
如下表所示,是來自于四個(gè)地區(qū)的Item銷售記錄。四個(gè)地區(qū)依次是
不管使用什么方法或工具,使上述四表的數(shù)據(jù)結(jié)構(gòu)變成下表所描述的結(jié)構(gòu),并填充數(shù)據(jù),這個(gè)過程就是一個(gè)ETL的過程。
(3)DW, (Data Warehouse) 數(shù)據(jù)倉庫的官方定義是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。
數(shù)據(jù)倉庫的特點(diǎn):
1)、面向主題。
2)、集成。
3)、非易失。
4)、時(shí)間軸。
數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別如下所述:
(4)OLAP,(On-Line Analytical Processing)即聯(lián)機(jī)分析處理,是 BI的一種全新的數(shù)據(jù)封裝方式,直接產(chǎn)物是報(bào)表或Cube,是使分析人員、管理人員或執(zhí)行人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。
說到OLAP,不由的想起OLTP(聯(lián)機(jī)事務(wù)處理系統(tǒng)),現(xiàn)在來比較一下OLTP與OLAP的區(qū)別,如下所述:
太理論化的東西還是少說,來看看數(shù)據(jù)表中數(shù)據(jù)是如何在立方體中表示的。
單獨(dú)察看一個(gè)Location的銷售數(shù)據(jù),使用慣用的2-D平面數(shù)據(jù)表,完全可以滿足所有的需求,如下圖所示:
但,要是想從更多的Location的角度去分析數(shù)據(jù),可以在2-D的平面數(shù)據(jù)的基礎(chǔ)上增加一個(gè)維,來表示Location的變化,如下圖所示:
概念上講,也可以以3-D的數(shù)據(jù)立方體的形式表示這些數(shù)據(jù),如下圖所示:
假定再增加一個(gè)維,用來表示制造商的變化,哪應(yīng)該如何表示數(shù)據(jù)了呢?我們按照上面的思路,可以表示成如下圖所示的數(shù)據(jù)結(jié)構(gòu),并稱之為4-D立方體。
以此類推,可以把N-D數(shù)據(jù)立方體表示為(N-1)-D數(shù)據(jù)立方體的序列。這是OLAP的基本原理,至于其中使用了何種具體的算法,來計(jì)算與管理每個(gè)“子方體”的,內(nèi)容太多,不能再這里啰嗦了...
說明:
數(shù)據(jù)立方本是對(duì)多維數(shù)據(jù)存儲(chǔ)的一種比喻,這種數(shù)據(jù)的實(shí)際物理存儲(chǔ)不同于它的邏輯表示。它不限于3-D,而是N維的。
五、數(shù)據(jù)展現(xiàn)
數(shù)據(jù)查詢是最簡單的 BI 應(yīng)用,輸出報(bào)表是BI最直接的產(chǎn)物,根據(jù)數(shù)據(jù)連接,加工過程及用途,應(yīng)用模式大致可以分為四種:格式報(bào)表;在線分析;數(shù)據(jù)可視化;數(shù)據(jù)挖掘。
1、格式報(bào)表:帶格式的數(shù)據(jù)集合,如:交叉表等。
2、在線分析:多維數(shù)據(jù)集合,如:Cube等。
3、數(shù)據(jù)可視化:信息以盡可能多的形式展現(xiàn)出來,目的是使決策者通過圖形這種直觀的表現(xiàn)方式迅速獲得信息中蘊(yùn)藏的知識(shí),如柱圖,儀表盤等。
4、數(shù)據(jù)挖掘:從大量的數(shù)據(jù)中,抽取出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過程。分析方法:
· 分類 (Classification)
· 估值(Estimation)
· 預(yù)言(Prediction)
· 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Description and Visualization)
數(shù)據(jù)挖掘號(hào)稱能通過歷史數(shù)據(jù)的分析,預(yù)測(cè)客戶的行為,而事實(shí)上,客戶自己可能都不明確自己下一步要作什么。所以,數(shù)據(jù)挖掘的結(jié)果,沒有人們想象中神秘,它不可能是完全正確的??蛻舻男袨槭桥c社會(huì)環(huán)境相關(guān)連的,所以數(shù)據(jù)挖掘本身也受社會(huì)背景的影響。
六、常用的BI 廠商和產(chǎn)品
ETL:Informatica, SQL Server Analysis Server
DW:IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;
OLAP: Cognos,Business Objects,MicroStrategy,Hyperion,IBM
Data Mining:IBM,SAS,SPSS
現(xiàn)在很多的數(shù)據(jù)庫提供商都開始綁定BI的開發(fā)組件到自己的數(shù)據(jù)庫產(chǎn)品中,他們都瞄準(zhǔn)了這其中的肥肉,磨拳檫掌,各論長短。
七、BI在中國
中國擁有5000年的文化史,燦爛的文件讓日常報(bào)表也非常具有凝聚力,交錯(cuò)縱橫,里外相嵌,格式詭異、規(guī)則古怪、數(shù)據(jù)集中而文名于世,讓無數(shù)報(bào)表工具折腰。BI概念是從歐美引進(jìn)的,現(xiàn)有的工具也多是歐美國家提供,中國是世界上報(bào)表最復(fù)雜的國家,報(bào)表設(shè)計(jì)風(fēng)格與這些國家有明顯的差別,BI工具制作的報(bào)表傾向于僅用一張報(bào)表說明一個(gè)問題,而中國的報(bào)表傾向于將盡可能多的問題集中在一張報(bào)表中,這種思路直接導(dǎo)致了BI工具應(yīng)用難度的提升。
posted on 2009-08-20 21:24 paulwong 閱讀(193) 評(píng)論(0) 編輯 收藏 所屬分類: J2EE