Skynet

---------- ---------- 我的新 blog : liukaiyi.cublog.cn ---------- ----------

:: 管理

112 Posts :: 1 Stories :: 49 Comments :: 0 Trackbacks

我們這就是有企業(yè)挖掘中最常用的《流失用戶分析》來說明：

數(shù)據(jù)挖掘流程:
1. 定義主題：天啊，我在干什么！（此模塊絕大多數(shù)主觀意識上完成，有少量客觀驗證）
1.1 明確主題用戶在各用戶群中的分布 - 流失用戶在各用戶群中比例
    不同客戶群的流失程度如：某渠道，某軟件版本,頁面布局，功能等主觀上去分析。
    盡量把影響流失比較大的因素詳細羅列出來如：概率分布，頁面布局變化影響等
1.2 明確主題用戶特征 - 流失用戶特征
     對流失用戶影響比較大的字段如：金額，軟件版本（缺少最需要的功能）,客服對問題的處理的時間

2. 數(shù)據(jù)選擇：什么樣的選民，選出什么樣的總統(tǒng)！
   在此模塊中有個比較難把握的地方：維度越高越能準確的定義數(shù)據(jù)，但也會越復雜度。
   你大概不會希望花3天分析出2天前的流失用戶吧！！ :)
   2.1 分區(qū)收集
       在用戶流失分析中，若采集時間過長，可能在流失判斷出來時客戶已然流失；若采集時間過于緊密或者實時采集則需要考慮運營商現(xiàn)有系統(tǒng)的支撐能力。因此對數(shù)據(jù)采集時間間隔的設(shè)置顯得尤為重要。
   2.2 減少數(shù)據(jù)噪音
   2.3 剔除部分冗余數(shù)據(jù)
       此間要注意的是在客戶流失分析上，從數(shù)據(jù)倉庫中采集數(shù)據(jù)的主要目的是調(diào)查客戶信息的變化情況。一些不必要的數(shù)據(jù)就去除掉吧

3. 分析數(shù)據(jù) : 熱身，很重要！
   3.1 數(shù)據(jù)抽樣
       多說了，在這信息爆炸的時代，別說你把上百TB的數(shù)據(jù)放到應用分析庫中去！
   3.2 數(shù)據(jù)轉(zhuǎn)換
       比如時間方面：可以把上午轉(zhuǎn)換為 1 ，中午轉(zhuǎn)換為 2 等等.便于分析
   3.3 缺損數(shù)據(jù)處理
   3.4 樣本生成
        建模樣本:為下個階段準備
        測試樣本：對模型進行修正和檢驗

4. 模型建立 : 找個合得來的過這一輩子吧！
對數(shù)據(jù)進行分析并利用各種數(shù)據(jù)挖掘技術(shù)和方法在多個可供選擇的模型中找出最佳模型,這個過程是一個循環(huán)迭代的過程.
建立模型通常由數(shù)據(jù)分析專家配合業(yè)務專家來完成
4.1 常用的流失分析模型主要有決策樹 / 貝葉斯網(wǎng)絡(luò) / 神經(jīng)網(wǎng)絡(luò)等

5. 模型的評估與檢驗： 開花！

6. 應用模型： 終于，結(jié)出好果（結(jié)果）！

$>流失分析中需要注意的問題

>>過度抽樣
      國內(nèi)電信企業(yè)每月的客戶流失率一般在1%～3%左右，如果直接采用某種模型(比如決策樹、人工神經(jīng)網(wǎng)絡(luò)等)可能會因為數(shù)據(jù)概率太小而導致模型的失效
      因此我們需要加大流失客戶在總樣本中的比例，但是這種過度抽樣必須謹慎小心，要充分考慮它的負面效應

>> 模型的有效性
   預測出結(jié)果，但用戶已經(jīng)流失，主要要關(guān)注采樣時間跨度問題

>> 模型的流失后分析
數(shù)據(jù)挖掘在客戶流失管理中的重要應用不僅僅應包括對客戶流失的提前預警，還應包括客戶流失后的問題分析。按照不同的客戶信息緯度，查找最容易流失的客戶群，同業(yè)務部門人員配合，輔以相關(guān)調(diào)查，力求發(fā)現(xiàn)客戶流失的癥結(jié)所在。然而，這一部分往往由于過度專注于挖掘模型本身的擬合度而忽略了流失管理的實際價值所在。

謝謝同事吳的指導,這他的原話轉(zhuǎn)出來供大家學習
0. 我覺得做bi和技術(shù)最大的一點差別就是
    bi是數(shù)據(jù)導向，需求的優(yōu)先級要低于數(shù)據(jù)

1. 沒數(shù)據(jù)的話，需求就沒戲了
2. 技術(shù)是需求導向，只要有需求，技術(shù)基本上都能做出來
3. 數(shù)據(jù)的加載、加工、清洗，叫做etl，其實和你現(xiàn)在做的事情很像
4. etl是挖掘里非常重要的一部分

參考：數(shù)據(jù)挖掘在電信客戶流失分析中的應用
http://www.teleinfocn.com/html/2007-02-12/3448.html

整理 www.aygfsteel.com/Good-Game

posted on 2009-11-03 17:44 劉凱毅閱讀(2745) 評論(0) 編輯收藏所屬分類: 數(shù)據(jù)挖掘

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: 和業(yè)務討論的推薦文件存儲 - 數(shù)據(jù)結(jié)構(gòu)( py ) 數(shù)據(jù)挖掘流程簡介數(shù)據(jù)挖掘研究內(nèi)容和本質(zhì)（轉(zhuǎn)） hadoop streaming( hadoop + perl )小試 hadoop jython join ( 1 ) hadoop jython ( windows )

Skynet

常用鏈接

留言簿(13)

我參與的團隊

隨筆分類

隨筆檔案

相冊

搜索

最新評論

閱讀排行榜

評論排行榜