無為

          無為則可為,無為則至深!

            BlogJava :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
            190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

          環(huán)節(jié)一:異種數(shù)據(jù)源集成
          ??? 企業(yè)在經(jīng)營分析與決策支持系統(tǒng)的建設時,必須將遺留系統(tǒng)(Legacy System)進行高效全面的集成。由于遺留系統(tǒng)是在企業(yè)發(fā)展的不同時期建設的,往往缺乏全局規(guī)劃,所以擁有不同的操作系統(tǒng)、不同的數(shù)據(jù)庫、不同的網(wǎng)絡通信機制等,形成了所謂的“信息孤島”。
          ??? 系統(tǒng)中采用異種數(shù)據(jù)源企業(yè)應用集成接口,來實現(xiàn)對異種數(shù)據(jù)源的透明訪問,包括數(shù)據(jù)源元數(shù)據(jù)訪問及業(yè)務操作數(shù)據(jù)訪問。數(shù)據(jù)源分為在線數(shù)據(jù)源和離線數(shù)據(jù)源,在線數(shù)據(jù)源是指允許在線抽取的業(yè)務數(shù)據(jù)源,如營業(yè)數(shù)據(jù); 離線數(shù)據(jù)源是指不允許直接在線抽取的數(shù)據(jù)源,如計費樣單數(shù)據(jù)就是采用以脫機文件數(shù)據(jù)格式及FTP方式集成進系統(tǒng)。
          ?? 對數(shù)據(jù)源實現(xiàn)元數(shù)據(jù)級的管理,數(shù)據(jù)源的連接類型(ODBC、OLEDB、JDBC、Native)、連接字符串,以及數(shù)據(jù)結構信息都以元數(shù)據(jù)的形式存儲于元數(shù)據(jù)庫中,通過控制臺對其進行業(yè)務語義定義,使用戶對整個企業(yè)的信息系統(tǒng)有了全面的掌握。

          環(huán)節(jié)二:ODS層的設計
          ??? 操作數(shù)據(jù)存儲ODS(Operation Data Storage)是一個集成了來自不同數(shù)據(jù)庫數(shù)據(jù)的環(huán)境。其目的是為終端用戶提供一致的企業(yè)數(shù)據(jù)集成視圖。它可以幫助用戶輕松應對跨多個商業(yè)功能的操作挑戰(zhàn),是面向主題的、集成的、近實時的數(shù)據(jù)存儲。
          ??? 設計ODS層的目的在于改善了對關鍵操作數(shù)據(jù)庫的存取,用戶能獲得收益、客戶等主題的企業(yè)級完整視圖,有利于更好地通觀全局。近實時的數(shù)據(jù)存儲提供了查詢與服務能力,并以更高的性能生成操作報告。設計ODS的核心是實現(xiàn)焦點主題全局試圖應用,如企業(yè)的客戶管理系統(tǒng),可以建立以客戶為中心的ODS客戶主題視圖,向上層提供高效的服務。而對于話費結算則采取了從綜合結算系統(tǒng)中直接抽取到數(shù)據(jù)倉庫的方式,抽取周期為結算周期,能完全滿足決策分析的時間窗要求。

          環(huán)節(jié)三:ETL過程的設計
          ??? 數(shù)據(jù)抽取、轉(zhuǎn)換和加載,是數(shù)據(jù)倉庫實現(xiàn)過程中,數(shù)據(jù)由數(shù)據(jù)源系統(tǒng)向數(shù)據(jù)倉庫加載的主要方法,整個數(shù)據(jù)處理過程如下:
          ??? 數(shù)據(jù)抽取 從數(shù)據(jù)源系統(tǒng)抽取數(shù)據(jù)倉庫系統(tǒng)所需的數(shù)據(jù),數(shù)據(jù)抽取采用統(tǒng)一的接口,可以從數(shù)據(jù)庫抽取數(shù)據(jù),也可以從文件抽取。對于不同數(shù)據(jù)平臺、源數(shù)據(jù)形式、性能要求的業(yè)務系統(tǒng),以及不同數(shù)據(jù)量的源數(shù)據(jù),可能采用的接口方式不同,為保證抽取效率,減少對生產(chǎn)運營的影響,對于大數(shù)據(jù)量的抽取,采取“數(shù)據(jù)分割、縮短抽取周期”的原則,對于直接的數(shù)據(jù)庫抽取,采取協(xié)商接口表的方式,保障生產(chǎn)系統(tǒng)數(shù)據(jù)庫的安全。
          ?? 數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)轉(zhuǎn)換是指對抽取的源數(shù)據(jù)根據(jù)數(shù)據(jù)倉庫系統(tǒng)模型的要求,進行數(shù)據(jù)的轉(zhuǎn)換、清洗、拆分、匯總等,保證來自不同系統(tǒng)、不同格式的數(shù)據(jù)和信息模型具有一致性和完整性,并按要求裝入數(shù)據(jù)倉庫。
          ?? 數(shù)據(jù)加載 數(shù)據(jù)加載是將轉(zhuǎn)換后的數(shù)據(jù)加載到數(shù)據(jù)倉庫中,可以采用數(shù)據(jù)加載工具,也可以采用API編程進行數(shù)據(jù)加載。數(shù)據(jù)加載策略包括加載周期和數(shù)據(jù)追加策略,對于電信企業(yè)級應用,采用對ETL工具DataStage進行功能封裝,向上提供監(jiān)控與調(diào)度接口的方式。數(shù)據(jù)加載周期要綜合考慮經(jīng)營分析需求和系統(tǒng)加載的代價,對不同業(yè)務系統(tǒng)的數(shù)據(jù)采用不同的加載周期,但必須保持同一時間業(yè)務數(shù)據(jù)的完整性和一致性。

          環(huán)節(jié)四:倉庫模型設計
          ?? 由于經(jīng)營分析需求的不斷變化,數(shù)據(jù)倉庫中數(shù)據(jù)的存儲必須采用主題分域的方式,及盡可能小的業(yè)務單元進行數(shù)據(jù)的組織和存儲,以滿足數(shù)據(jù)倉庫的靈活性。此外,任何一個信息系統(tǒng)都具有整體性、結構性、層次性、相對性、可變性,數(shù)據(jù)倉庫的目標邏輯結構的設計要體現(xiàn)這些特征。
          ?? 例如,某電信運營商的業(yè)務可以按照不同的主題域分為八類:客戶、賬務、資源、服務、客服、營銷、服務使用、結算。客戶主題包含與客戶相關的基本信息,如客戶的自然屬性(姓名、年齡、職業(yè)等)、分類信息(現(xiàn)有客戶、潛在客戶、大客戶等)、重要屬性信息(信用度、忠誠度、消費層次等)。賬務主題中包含了與客戶相關的費用信息,如明細賬單、綜合賬單、賬本、賬戶、付費記錄、銷賬流水等;資源主題中包含網(wǎng)絡資源和服務資源信息及占用情況;服務主題包含產(chǎn)品、套餐、資費與優(yōu)惠規(guī)則等的信息;客服主題包含與客戶服務相關的部門信息、流程信息、分類信息等; 營銷主題包含銷售機會、營銷渠道、促銷活動等相關信息;服務使用主題描述客戶購買和使用電信服務產(chǎn)品的信息,包括用戶、服務使用記錄、清單等;結算主題包含結算清單、結算明細賬單、合作服務方等信息。對于主題的建模采用星型結構,以事實表或概要表加相關維表構成。

          環(huán)節(jié)五:元數(shù)據(jù)管理
          ??? 元數(shù)據(jù)(Metadata)是關于數(shù)據(jù)、操縱數(shù)據(jù)的進程,以及應用程序的結構、意義的描述信息,其主要目標是提供數(shù)據(jù)資源的全面指南。元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)結構和建立方法的數(shù)據(jù),可將其按用途分為兩類:技術元數(shù)據(jù)(Technical Metadata)、業(yè)務元數(shù)據(jù)(Business Metadata)和內(nèi)聯(lián)映射元數(shù)據(jù)(Inter-Mapping Metadata)。
          ??? 技術元數(shù)據(jù)是存儲關于數(shù)據(jù)倉庫系統(tǒng)技術細節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫的數(shù)據(jù),主要包括數(shù)據(jù)倉庫結構的描述(各個主題的定義,星型模式或雪花型模式的描述定義等)、ODS層的企業(yè)數(shù)據(jù)模型描述(以描述關系表及其關聯(lián)關系為形式)、對數(shù)據(jù)稽核規(guī)則的定義、數(shù)據(jù)集市定義描述與裝載描述(包括Cube的維度、層次、度量以及相應事實表、概要表的抽取規(guī)則)。另外,安全認證數(shù)據(jù)也作為元數(shù)據(jù)的一個重要部分進行管理。
          ??? 業(yè)務元數(shù)據(jù)從業(yè)務角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實際系統(tǒng)之間的語義層,使得不懂計算機技術的業(yè)務人員也能夠理解數(shù)據(jù)倉庫中的數(shù)據(jù)。業(yè)務元數(shù)據(jù)包括以下信息:使用者的業(yè)務術語所表達的數(shù)據(jù)模型、對象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)來源;系統(tǒng)所提供的分析方法及公式、報表信息。
          ??? 內(nèi)聯(lián)映射元數(shù)據(jù)(Inter-Mapping Metadata)實現(xiàn)技術元數(shù)據(jù)與業(yè)務元數(shù)據(jù)的層間映射,使得信息系統(tǒng)的概念模型與物理模型相互獨立,使企業(yè)的概念、業(yè)務模型重組,以及物理模型的變化相互透明。
          ??? 內(nèi)聯(lián)映射元數(shù)據(jù)從技術上為業(yè)務需求驅(qū)動、企業(yè)數(shù)據(jù)驅(qū)動的雙驅(qū)動建設模型提供了重要保證,使信息系統(tǒng)的建設具有更高的靈活性與適應性(基于元模型數(shù)據(jù)倉庫建模的過程如圖1所示)。

          環(huán)節(jié)六:專題數(shù)據(jù)挖掘
          ??? 電信企業(yè)在長期信息化建設過程中積累了大量業(yè)務運營數(shù)據(jù)和業(yè)務管理數(shù)據(jù),一般的企業(yè)數(shù)據(jù)量已超過TB級。市場的激烈競爭和管理的復雜性,決定了企業(yè)需要對客戶關系、市場營銷、產(chǎn)品工程、投資分析等方面的歷史數(shù)據(jù)進行提取與分析,將數(shù)據(jù)轉(zhuǎn)化為有用的信息。數(shù)據(jù)挖掘一般用于在海量數(shù)據(jù)集中發(fā)現(xiàn)間接、隱藏、新穎的規(guī)律,數(shù)據(jù)挖掘技術的優(yōu)勢在于,通過對數(shù)據(jù)集進行有限步驟的采集、整理、分析、推理、比較等分析手段,來揭露埋藏數(shù)據(jù)內(nèi)部的有用信息。數(shù)據(jù)挖掘常用的算法包括:關聯(lián)規(guī)則、聚類檢測、決策樹、神經(jīng)網(wǎng)絡、遺傳算法、支持向量機等,在SAS、IM8等數(shù)據(jù)挖掘工具中支持的算法包括決策樹、聚類分析、神經(jīng)網(wǎng)絡、回歸分析等。
          ??? 以電信經(jīng)營數(shù)據(jù)分類與預測分析數(shù)據(jù)挖掘?qū)n}為例,分類包括客戶分類、網(wǎng)元分類等; 預測包括客戶發(fā)展分析與預測、業(yè)務量發(fā)展分析與預測、客戶流失分析與預測、營銷管理與銷售機會分析與預測、市場競爭分析與預測、大客戶分析與預測等。



          凡是有該標志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
          、轉(zhuǎn)載請注明來處和原文作者。非常感謝。

          posted on 2006-09-07 13:18 草兒 閱讀(335) 評論(0)  編輯  收藏 所屬分類: BI and DM
          主站蜘蛛池模板: 东兴市| 东丽区| 松原市| 兰州市| 内江市| 东乡族自治县| 镶黄旗| 罗定市| 库伦旗| 磐安县| 平乐县| 阜平县| 丰台区| 瓦房店市| 莆田市| 钦州市| 上饶市| 赤水市| 横峰县| 永济市| 高尔夫| 河源市| 武义县| 寿阳县| 内丘县| 荥阳市| 普陀区| 温泉县| 金堂县| 托克托县| 盐边县| 涿鹿县| 大埔县| 永定县| 仪陇县| 白沙| 东宁县| 五华县| 黔江区| 瓮安县| 黄陵县|