Â Â Â Â Â ä»€ä¹ˆå«æ•°æ®æŒ–掘åQ?a target="_new">Data MiningåQ‰ï¼Ÿå…³äºŽå®šä¹‰åQŒå„人的说法ä¸ä¸€ã€‚基本上我们å¯ä»¥ç”¨ä¸€ä¸ªä¾‹å讲清楚åQšå…ˆ¾l™ä½ 一个大的数æ®é›†â”€â”€å‡è®¾ä½ å¯ä»¥ä»Žä¸è¯»å–æ•°æ®ï¼Œä¸‹é¢çš„问题是åQšä»Ž˜q™é‡Œä½ å¯ä»¥å¾—åˆîC»€ä¹ˆï¼Ÿä»ŽæŸ¿U角度æ¥çœ‹ï¼Œ˜q™æ˜¯ç™‘Öˆ†ä¹‹ç™¾çš„统计分æžå·¥ä½œï¼Œåªæ˜¯æ•°æ®é›†å¤ªå¤šçš„¾~˜æ•…¾|¢äº†ã€‚但我们òq¶ä¸æƒ›_¿˜è®°è¿™äº›æ•°æ®é›†æ˜¯åš IT çš„äh˜q™ä¹ˆå¤šå¹´æ¥é€æ¸åˆ‰™€ 出æ¥çš„åQŒæ›´ä½•况他们对于如何有效而快速地å˜å‚¨ã€é€‰å–å’Œç®¡ç†æ•°æ®ï¼Œ¼‹®æ˜¯æœ‰ä¸€å¥—真功夫。在 IT 的骨架上把统计的¾_ùN«“放进去,˜q™çš„¼‹®æ˜¯å¯¹çŽ°åœ¨è¿™ä¸ªä¿¡æ¯æ—¶ä»£çš„大挑战ã€?
  时代å˜äº†åQŒçŽ°åœ¨çš„æ•°æ®æ¥å¾—既多åˆå¿«˜q˜ä¾¿å®œï¼Œå¤šåˆ°æ²¡æœ‰äººæœ‰æ—‰™—´åŽÈœ‹çš„程度。这ž®±å¦‚åŒæˆ‘们的åŒÈ–—体系。早先的åŒÈ”Ÿ˜q˜è¦æœ›é—»é—®åˆ‡åQŒåœ¨ž®‘é‡çš„æ•°æ®ä¸åQŒè®¾æ³•æå–ã€ç»„åˆå‡ºæœ€å¥½çš„æ²È–—æ–ÒŽ(gu¨©)¡ˆã€‚现在则是一个å医,一上åˆè¦åœ¨é—¨è¯ŠåŒÀL²»ä¸€ç™¾äº”å个病äh以上。他åªèƒ½å‡æŸ¿U算法ã€ä¹Ÿž®±æ˜¯¾l验æ¥çœ‹ç—…:(x¨¬)问一两个问题åQŒå¬ä¸€ä¸¤ä¸ªé—®é¢˜åQŒç„¶åŽå¼€è¯ã€‚è¿™¿U对数æ®çš„ä¸åŒçš„å¤„ç†æ–¹å¼æ˜¯æ•°æ®æŒ–æŽ˜å’Œä¼ ç»Ÿçš„æ•°æ®åˆ†æžçš„主è¦åŒºåˆ«ã€?
  说实在的åQŒæˆ‘们已¾l在æŸäº›æ–šw¢å…ähœ‰ç›¸å½“的信æ¯åŒ–½E‹åº¦äº†ã€‚ä½ åŽÖM“Qä½•ä¸€å®¶åŒ»é™¢çœ‹ç—…ï¼Œå“ªä¸€ä¸ªçª—å£æ²¡æ”„¡€ä¸€å°PCåQŸåŒ»ç”Ÿæš—½CÞZ½ å¯ä»¥¼›Õd¼€çš„æ—¶å€™ï¼Œå€¼ç的护士已¾l在她的 PC ä¸Šé”®å…¥äº†è®¸å¤šä½ çš„èµ„æ–™ã€‚äºŽæ˜¯ä½ ç›´æŽ¥å¯ä»¥åŽÕdˆ’ä»—÷€å–è¯ï¼Œ˜qžä¸‹ä¸€‹Æ¡çš„预约也有人安排好了。å‰å¤©ï¼Œæˆ‘åŽ»åŒ»é™¢å€Ÿäº†ä¸€å¼ X光片åQŒä¸€ä½äº”å多å²çš„è€èŒå‘˜ç”¨â€œä¸€é˜ÏxŒ‡â€åœ¨é”®ç›˜ä¸Šä¸€æ¥ä¸€ä¸ªâ€œè„šå°â€åœ°æ•²äº†ä¸çŸ¥å¤šä¹…åQŒæ‰è¾“入了该有的个ähä¿¡æ¯åQŒç„¶åŽå¤§å®¶å°±éƒ½æ¾ä¸€å£ä¼¼åœ°è®©è®¡ç®—æœ?/a>去跑åQŒæœ€åŽå½“然是拿到X光片。这时回™å¾èínåŽï¼Œå·²æŽ’了一æ¡é•¿é¾™ã€?
  ˜q™ç§æƒ…况åQŒä¹Ÿæš—示ç€ç›®å‰ä¿¡æ¯½C¾ä¼š(x¨¬)的一¾c?/a>ž®´å°¬é—®é¢˜åQšå¾ˆå¤šäº‹æƒ…都˜q˜é…ä¸ä¸Šå¦‚æ¤å¿«çš„计算机—è€èŒå‘˜çš„æ‰‹æŒ‡é€Ÿåº¦å›ºç„¶é…ä¸ä¸Šï¼Œæˆ‘们åšç»Ÿè®¡çš„人和现有的æŸäº›ç»Ÿè®¡æ–¹æ³•也é…ä¸ä¸Šï¼Œç”šè‡³äºŽå¾ˆå¤šç»Ÿè®¡è§‚忉|怕也都é…ä¸ä¸Šã€‚于æ˜?IT çš„ähž®ÞpŸ©˜q›æ¥åšäº†ä¸ªé¡¹ç›®ï¼š(x¨¬)既然有了花大钱åšå‡ºæ¥çš?a target="_new">æ•°æ®åº?/a>åQŒè€Œä¸”˜q™ä¹ˆå¤šå¹´ä¸‹æ¥æ•°æ®å †å¾—æ»¡å‘æ»¡è°·åQŒå¥½æ¹è¦å‘Šè¯‰å‡ºé’±çš„è€æ¿â€œè¿™æœ‰ä»€ä¹ˆç”¨â€ã€‚于是,DM便应˜q而生了ã€?
  
å¦‚ä½•çœ‹å¾…æ•°æ®æŒ–掘
ã€€ã€€æ•°æ®æŒ–æŽ˜æ˜¯å…ˆæœ‰äº†æ•°æ®æ‰å…´èµïL(f¨¥ng)š„è¡Œä¸šã€‚æˆ‘ä¸æƒ³è¯´â€œå¦é—®â€ï¼Œå› 䨓(f¨´)åˆ°çŽ°åœ¨äØ“(f¨´)æ¢ï¼Œæˆ‘好åƒéƒ½çœ‹ä¸åˆ°å¤§å¦é—®ã€‚æ•°æ®æŒ–掘能帮我åšä»€ä¹ˆï¼Ÿä¸åŒçš„äh有ä¸åŒçš„看法åQŒæ¯”较ä¹è§‚的是Berry and Linoff (1997) 的说法:(x¨¬)åˆ†æžæŠ¥å‘Š¾l™ä½ åŽè§ä¹‹æ˜Ž (hindsight)åQ›ç»Ÿè®¡åˆ†æžç»™ä½ å…ˆæœ?(forESight)åQ›æ•°æ®æŒ–æŽ˜ç»™ä½ æ´žå¯ŸåŠ› (insight)ã€?
  ˜q™è¯è¯´å¾—太强åQŒæˆ‘䏿˜¯é‚£ä¹ˆåœ°ç›¸ä¿¡ã€‚å› ä¸ø™¿™ä¸‰è€…都是在既有的数æ®ä¸Šåšåˆ†æžï¼Œåœ¨æ¦‚念上应该òq¶æ— 本质区别åQŒå·®åˆ«åªæ˜¯æ‰‹ä¸Šçš„æ•°æ®é›†çš„大å°å’Œæ€§è´¨åQŒå› æ¤ï¼Œç”±æ–¹æ³•çš„ä¸åŒæ‰æœ‰å®šä¹‰çš„ä¸åŒã€?
  较负é¢çš„ç†è§£æ¥è‡ªFriedman (1997)åQŒä»–è¯ß_(d¨¢)¼š(x¨¬)“Data mining is a commercial enterprise that seeks to mine the minersã€‚ï¼ˆæ•°æ®æŒ–掘ž®±æ˜¯å•†ä¸šä¼ä¸šç«åŠ›åŽÕd¯»æ‰¾æŒ–掘者的˜q‡ç¨‹ã€‚)â€è¿™å¥è¯æœ‰å¤šž®‘真实的æˆåˆ†åQŒæˆ‘òq¶ä¸æ¸…楚åQŒä½†æ˜¯é…¸å‘Œ™¿˜æ˜¯æœ‰ä¸€ç‚¹çš„。在雅虎上键入“Data Miningâ€ï¼Œç«‹åˆ»ä¾¿æ‰¾åˆîC¸€ç™¾äº”å多个网å€ã€‚如果用GOOgle æœå¯»åQŒå®ƒåœ?.34¿U’内ž®±æ‰¾åˆ?,260,000™åÒŽ(gu¨©)Ÿ¥è¯¢ç»“果。这是在æ–ÒŽ(gu¨©)³•论都˜q˜æ²¡æœ‰æˆç†Ÿä¹‹å‰ä¾¿å·²æœ‰å¤§é‡å•†å“充斥的情形。看èµäh¥çœŸæ˜¯å•†æœºæ— é™ã€‚在å¦ä¸€æ–šw¢åQŒæˆ‘å´åœ¨æ–‡çŒ®ä¸Šè¯»åˆŽÍ¼š(x¨¬)“…â€?while I apprECiate the importance of data mining, in practice the profit it brings hAS turned out to be surprisingly limited in many key businesses.åQˆè™½ç„¶æˆ‘è®¤å¯æ•°æ®æŒ–掘é‡è¦æ€§ï¼Œäº‹å®žä¸Šï¼Œåœ¨å¾ˆå¤šå…³é”®çš„业务ä¸ï¼Œå®ƒæ‰€å¸¦æ¥çš„åˆ©æ¶¦å·²è¯æ˜Žå‡ºå¥‡æœ‰é™ã€‚â€?(Kann 2000)
  多åŠçš„æ•°æ®åº“在å¾é€ æ—¶éƒ½å¦æœ‰ç›®çš„,òq¶ä¸æ˜¯è®¾è®¡æ¥¾l™å¤§å®¶æŒ–掘的。上å¸ç»™æˆ‘们大æ“våQŒä¹Ÿè®¸åªæ˜¯æƒ³¾l™æˆ‘们ç›ã€‚现在ç›çš„利润有é™ï¼Œå¤§å®¶ž®±æ‹¼å‘½åŽ»æç‚¼é“€åQŒç»“果自然就ä¸ä¼š(x¨¬)ååˆ†ç†æƒ³ã€?
  我认为,比较ä¸è‚¯çš„æ˜¯ Hand et al. (2000) 的说法:(x¨¬)“Data mining is the process of seeking intereSTing or valuable infORMation in large data bases.åQˆæ•°æ®æŒ–掘是一¿U在大型数æ®åº“ä¸å¯ÀL‰¾ä½ 感兴趣或是有äh(hu¨¢n)å€ég¿¡æ¯çš„˜q‡ç¨‹ã€‚)â€?
  
挖掘需è¦â€œç”¨å¿ƒçœ‹â€?/p>
  DEMming (1943) 曾说˜q‡ï¼š(x¨¬)“æœé›†æ•°æ®çš„ç›®çš„æ˜¯äØ“(f¨´)了行动。â€è¿™æ˜¯åœ¨æ•°æ®çš„æœé›†åÆˆä¸ä¾¿å®œçš„æ—¶å€™æ‰€è¯´çš„è¯ã€‚现在è¦å过æ¥çœ‹åQšå·²¾læœ‰äº†ä¸€å¤§å †æ•°æ®åQŒå½“åˆåªæ˜¯äØ“(f¨´)了æœé›†è€Œæœé›†â”€â”€å› 䨓(f¨´)忣ä¸è´µåQŒè€Œä¸”说ä¸å®šæŸä¸€å¤©ä¼š(x¨¬)有用─现在我们应该问,˜q™äº›æ•°æ®å¯ä»¥æä¾›æ€Žæ ·çš„ä¿¡æ¯ï¼Œèƒ½è®©æ•°æ®çš„æ‰€æœ‰è€…采å–何¿U有效的行动åQŸæˆ‘çš„æ„æ€æ˜¯æˆ‘们需è¦ç”¨å¿ƒåœ°åŽÈœ‹˜q™äº›æ•°æ®ã€‚â€œç”¨å¿ƒçœ‹â€æœ‰ä¸¤ä¸ªè§’度åQšæ•´ä½“å’Œå±€éƒ¨ã€?
  从整体看: 模型
  从整体的角度æ¥çœ‹ä¸€ä¸ªæ•°æ®é›†åQŒæ˜¯é 统计å¦é‡Œé¢çš„æŠ½æ äh–¹æ³•å°±å¯ä»¥å‘挥得ä¸é”™çš„。抽æ ïL(f¨¥ng)š„è¦ç‚¹æ˜¯ç»†åŒ–──用一¾l„较?y¨u)®çš„ã€å®¹æ˜“处ç†çš„¾_ùN€‰çš„æ•°æ®æ¥åæ˜ æ•´ä½“ã€‚åœ¨˜q™é‡Œæˆ‘们å¯ä»¥åšä¸€å¤§å †ä¼ ç»Ÿçš„å¾æ¨¡å·¥ä½œï¼Œä½†è¿™é‡Œé¢æœ€ä¸»è¦çš„观忉|˜¯æŠ½æ ·ã€?
  例如 SAS çš„Enterprise Miner软äšg䏿‰€æž„å¾å‡ºæ¥çš„â€œè¡¨æ ¼â€ï¼Œž®±æ˜¯å…¨éƒ¨æ•°æ®çš„æŠ½æ äh‰€å¾—ã€‚ä»ŽæŠ½æ ·çš„è§‚ç‚ÒŽ(gu¨©)¥çœ‹ï¼Œæ•°æ®é‡å†å¤šä¹Ÿä¸æ˜¯é—®é¢˜â”€â”€å®ƒå而å¯ä½¿æŠ½æ ïL(f¨¥ng)†è®ºæ›´åŠ ç®€å•。在数æ®åº“ä¸ŠæŠ½æ ·åQŒæˆæœ¬ä½ŽåQŒä¸”没有我们最头痛的non-responseåQˆæ— å应åQ‰é—®é¢˜ã€‚这一部分åQŒå¯ä»¥è¯´æ˜¯æ‰€æœ‰æˆ‘们想åšçš„ç†è®ºå’Œæ–¹æ³•都å分æˆç†ŸåQ?åªè¦æ‰¾ä¸€¾Ÿ¤è¿˜ä¸é”™çš„ähåQŒå°†˜q™äº›å·²çŸ¥çš„事物组åˆåŒ…è£…å°±å¥½ã€‚åœ¨è¡¨æ ¼ä¸Šåšä¼ 统分æžåQŒæœ€åŽçš„¾l“果当然是一个å¯ä»¥ç”¨æ¥æ¾l˜æ‰€æœ‰æ•°æ®ä¹‹é—´çš„关系的模型ã€?
  从局部看: 模å¼å‘现
  从局部的角度æ¥çœ‹æ•°æ®æŒ–掘åQŒåˆ°ç›®å‰ä¸ºæ¢åQŒä¸»è¦çš„目的是模å¼å‘现。这和我们常å¬åˆ°çš?a target="_new">模å¼è¯†åˆ«é¢‡æœ‰ä¸åŒã€‚用雯‚¾¾æ‰ùN£žæœºçš„工作åQŒç®—是åŽè€…──我们知é“é£žæœºæ˜¯æˆ‘ä»¬è¦æ‰„¡š„å¯¹è±¡ã€‚ä½†æ˜¯åœ¨æ•°æ®æŒ–掘ä¸ï¼Œæˆ‘ä»¬åœ¨é€šå¸¸æƒ…å†µä¸‹åÆˆä¸çŸ¥é“æˆ‘ä»¬è¦æ‰„¡š„东西是什么。在技术上åQŒè¿™ä¹Ÿä¸èƒ½é€šè¿‡æŠ½æ ·çš„æ–¹æ³•æ¥åšã€‚æ¨¡å¼æ˜¯æ•°æ®çš„局部结构,在这一部分åQŒæ•°æ®æŒ–掘强调的æ–ÒŽ(gu¨©)³•是算法。数æ®ä¸€å¤šï¼Œå…‰å‡äººåŠ›æ˜¯ä¸èƒ½å®Œå…¨è§£å†³é—®é¢˜çš„åQŒæˆ‘ä»¬åªæœ‰é 明确的指令让计算æœÞZ¸€ä¸ªä¸€ä¸ªå¸®æˆ‘们找。那么在˜q™é‡ŒåQŒæˆ‘们就完全用ä¸ä¸Šç»Ÿè®¡æ–¹æ³•å—åQŸä¹Ÿä¸å°½ç„¶ã€‚在æå–è®ç»ƒæ ähœ¬åQˆtrAIning sAMpleåQ‰çš„æ—¶å€™ï¼Œæˆ‘们是å¯ä»¥æŠŠå®žéªŒè®¾è®¡çš„æƒ³æ³•放˜q›åŽ»çš„ã€?
  ¾~–者按åQšã€€ã€€æ•°æ®æŒ–掘应å¾ç«‹åœ¨è”机分æžå¤„ç†(On Line Analytical ProcessingåQ?a target="_new">OLAP)的数æ®çŽ¯å¢ƒåŸº¼‹€ä¹‹ä¸ŠåQŒè€?a target="_new">æ•°æ®ä»“库技术能够满‘Ïx•°æ®æŒ–掘技术对数æ®çŽ¯å¢ƒçš„è¦æ±‚。它ä»?a target="_new">OLTP¾pÈ»Ÿã€å¼‚æž„åˆ†æ•£çš„å¤–éƒ¨æ•°æ®æºã€è„±æœºçš„历å²ä¸šåŠ¡æ•°æ®ä¸èŽ·å–æ•°æ®åƈ˜q›è¡Œå¤„ç†ã€?
  当今数æ®å®šw‡è§„模已ç»è¾‘Öˆ°ä¸‡äº¿å—节åQˆTBåQ‰çš„æ°´åã^。过é‡çš„æ•°æ®è¢«äh们称ä¸ÞZ¿¡æ¯çˆ†ç‚¸ï¼Œå¸¦æ¥çš„æŒ‘战是åQšä¸€æ–šw¢è§„模庞大ã€çº·¾J夿‚的数æ®ä½“系让ä‹É用者æ˜Oæ— å¤´¾lªã€æ— 从下手;å¦ä¸€æ–šw¢åœ¨è¿™äº›å¤§é‡æ•°æ®çš„背åŽå´éšè—ç€å¾ˆå¤šå…ähœ‰å†³ç–æ„义的有价值的信æ¯ã€‚那么,如何å‘现˜q™äº›æœ‰ç”¨çš„知识,使之为管ç†å†³½{–å’Œ¾lè¥æˆ˜ç•¥å‘展æœåŠ¡åQŸè®¡½Ž—机¿U‘妾l™å‡ºçš„æœ€æ–°å›ž½{”是åQšæ•°æ®æŒ–掘(Data MiningåQ‰ã€?
  一般说æ¥ï¼Œæ•°æ®æŒ–掘是一个利用儿Uåˆ†æžæ–¹æ³•和分æžå·¥å…·åœ¨å¤§è§„模‹¹·é‡æ•°æ®ä¸å¾ç«‹æ¨¡åž‹å’Œå‘现数æ®é—´å…³¾pÈš„˜q‡ç¨‹åQŒè¿™äº›æ¨¡åž‹å’Œå…³ç³»å¯ä»¥ç”¨æ¥åšå‡ºå†³ç–和预‹¹‹ã€‚支æŒå¤§è§„模数æ®åˆ†æžçš„æ–¹æ³•å’Œ˜q‡ç¨‹åQŒé€‰æ‹©æˆ–者å¾ç«‹ä¸€¿Ué€‚åˆæ•°æ®æŒ–掘应用的数æ®çŽ¯å¢ƒæ˜¯æ•°æ®æŒ–æŽ˜ç ”ç©¶çš„é‡è¦è¯¾é¢˜ä¹‹ä¸€ã€?
  
建立适åˆçš„æ•°æ®çޝå¢?/p>
ã€€ã€€æ•°æ®æŒ–掘应å¾ç«‹åœ¨è”机分æžå¤„ç†(On Line Analytical ProcessingåQŒOLAP)的数æ®çŽ¯å¢ƒåŸº¼‹€ä¹‹ä¸Šã€‚æ•°æ®æŒ–æŽ˜å¯¹å¤§é‡æ•°æ®çš„æŽ¢ç´¢å¼åˆ†æžçš„è“vç‚ÒŽ(gu¨©)˜¯OLAPã€‚æ•°æ®æŒ–掘需è¦å¯¹å¤§é‡æ•°æ®˜q›è¡Œå夿Ÿ¥è¯¢æ“作åQŒå…³å¿ƒæ•°æ®å˜å–æ–¹å¼çš„æ–¹ä¾¿æ€§ä¸Žå¯æ“作性ã€?
ã€€ã€€è”æœºåˆ†æžå¤„ç†å’Œä¼ ¾lŸçš„è”æœºäº‹åС处ç†(On Line Transaction Processing, OLTP)是两¿U性质ä¸åŒçš„æ•°æ®å¤„ç†æ–¹å¼ã€‚OLTP主è¦ç”¨æ¥å®ŒæˆåŸºç¡€ä¸šåŠ¡æ•°æ®çš„增ã€åˆ ã€æ”¹½{‰æ“作,如民航订¼œ¨ç³»¾lŸã€é“¶è¡Œå‚¨è“„ç³»¾lŸç‰½{‰ï¼Œå¯¹å“åº”æ—¶é—´è¦æ±‚比较高åQŒå¼ºè°ƒçš„æ˜¯å¯†é›†æ•°æ®æ›´æ–°å¤„ç†çš„æ€§èƒ½å’Œç³»¾lŸçš„å¯é æ€§åŠæ•ˆçŽ‡ã€‚è€ŒOLAP应用是对用户当å‰åŠåކ岿•°æ®è¿›è¡Œåˆ†æžã€è¾…助领导决½{–,主è¦é€šè¿‡å¤šç»´æ•°æ®çš„æŸ¥è¯¢ã€æ—‹è½¬ã€?a target="_new">é’Õd–和切片ç‰å…³é”®æŠ€æœ¯å¯¹æ•°æ®˜q›è¡Œåˆ†æžå’ŒæŠ¥è¡¨ã€?
  目å‰åQŒå¤šæ•îC¼ä¸šå†…部的数æ®çŠ¶å†µæ˜¯åˆ†æ•£çš„åQŒä¸šåŠ¡æ•°æ®å¾€å¾€è¢«å˜æ”‘Öœ¨¾~ÞZ¹¾lŸä¸€è®¾è®¡å’Œç®¡ç†çš„异构环境ä¸ï¼Œä¸æ˜“¾l¼åˆæŸ¥è¯¢è®‰K—®åQŒè€Œä¸”˜q˜æœ‰å¤§é‡çš„åŽ†å²æ•°æ®å¤„于脱机状æ€ï¼Œä¸èƒ½åœ¨çº¿é›†ä¸å˜å‚¨æŸ¥è¯¢ã€‚æ•°æ®æŒ–掘在对这些数æ®è¿›è¡Œåˆ†æžå‰åQŒå¿…™åÕd¯¹˜q™äº›æ•°æ®˜q›è¡Œä¸åŒ½E‹åº¦çš„æ•´åˆå’Œæ¸…ç†åQŒè¿™æ˜¯æ•°æ®æŒ–掘的首è¦çŽ¯èŠ‚åQŒä½†ä¸€èˆ¬çš„OLTP¾pÈ»Ÿçš„æ•°æ®çŽ¯å¢ƒæ˜¯ä¸å…·å¤‡è¿™¿U能力的ã€?
ã€€ã€€å› æ¤åQŒåˆç†è€Œç§‘å¦çš„æ•°æ®çŽ¯å¢ƒæ˜¯ç¡®ä¿æ•°æ®æŒ–掘有效和æ£ç¡®å®žæ–½çš„基¼‹€å’Œå…³é”®ã€‚å®ƒéœ€è¦æ”¯æŒOLAP数殾pÈ»Ÿä¸ŽOLTP数殾pÈ»Ÿçš„分¼›»ï¼Œéœ€è¦æœåŠ¡äºŽæ•°æ®æŒ–掘æ€ÖM½“ç›®æ ‡çš„æ•°æ®å†¾l„织åQŒéœ€è¦æœ‰å•独的数æ®åˆ†æžå’Œæ•°æ®å¤„ç†çŽ¯å¢ƒã€‚æ•°æ®ä»“åº“æ£æ˜¯äØ“(f¨´)äº†æž„å»ø™¿™¿U新的分æžå¤„ç†çŽ¯å¢ƒè€Œå‡ºçŽ°çš„ä¸€¿Uæ•°æ®å˜å‚¨å’Œ¾l„织技术äñ”å“ã€?
  
æ•°æ®ä»“库技术的引入
  数æ®ä»“库技术能够满‘Ïx•°æ®æŒ–掘技术对数æ®çŽ¯å¢ƒçš„è¦æ±‚。实际上åQŒæ•°æ®ä»“库技术所è¦ç ”½I¶å’Œè§£å†³çš„问题就是从OLTP¾pÈ»Ÿã€å¼‚æž„åˆ†æ•£çš„å¤–éƒ¨æ•°æ®æºã€è„±æœºçš„历å²ä¸šåŠ¡æ•°æ®ä¸èŽ·å–æ•°æ®ï¼Œå¤„ç†åŽäØ“(f¨´)æ•°æ®åˆ†æžå’Œç®¡ç†å†³½{–æä¾›åº”用æœåŠ¡ã€?
  公认的数æ®ä»“库概忉|˜¯W.H.Inmon在《å¾ç«‹æ•°æ®ä»“åº“ã€‹ä¸€ä¹¦ä¸æå‡ºçš„ï¼š(x¨¬)æ•°æ®ä»“库ž®±æ˜¯é¢å‘主题的ã€é›†æˆçš„ã€ä¸å¯æ›´æ–°çš„(½E›_®šæ€?éšæ—¶é—´ä¸æ–å˜åŒ–(ä¸åŒæ—‰™—´åQ‰çš„æ•°æ®é›†åˆåQŒç”¨ä»¥æ”¯æŒç»è¥ç®¡ç†ä¸çš„决½{–制定过½E‹ã€?
  数æ®ä»“库ä¸çš„æ•°æ®æ˜¯é¢å‘主题的åQŒå®ƒä¸Žä¼ ¾lŸæ•°æ®åº“ä¸çš„é¢å‘应用相对应。数æ®ä»“库的主题是一个在较高层次上将数æ®å½’ç±»çš„æ ‡å‡†ï¼Œæ¯ä¸€ä¸ªä¸»é¢˜å¯¹åº”一个å®è§‚的分æžé¢†åŸŸåQ›æ•°æ®ä»“库的集æˆç‰ÒŽ(gu¨©)€§æ˜¯æŒ‡åœ¨æ•°æ®˜q›å…¥æ•°æ®ä»“库之å‰åQŒå¿…™åÈ»˜q‡æ•°æ®åŠ å·¥å’Œé›†æˆåQŒè¿™æ˜¯å¾ç«‹æ•°æ®ä»“库的关键æ¥éª¤ã€‚它能够¾lŸä¸€åŽŸå§‹æ•°æ®ä¸çš„矛盾之处åQŒè¿˜èƒ½å¤Ÿž®†åŽŸå§‹æ•°æ®ç»“构从é¢å‘应用å‘é¢å‘主题è{å˜ï¼›æ•°æ®ä»“库的稳定性是指数æ®ä»“åº“åæ˜ çš„æ˜¯åŽ†å²æ•°æ®çš„内容åQŒè€Œä¸æ˜¯æ—¥å¸æ€º‹åС处ç†äñ”生的数æ®åQŒæ•°æ®ç»åŠ å·¥å’Œé›†æˆè¿›å…¥æ•°æ®ä»“åº“åŽæ˜¯æžž®‘或æ ÒŽ(gu¨©)œ¬ä¸ä¿®æ”¹çš„åQ›æ•°æ®ä»“库是ä¸åŒæ—‰™—´çš„æ•°æ®é›†åˆï¼Œå®ƒè¦æ±‚æ•°æ®ä»“库ä¸çš„æ•°æ®ä¿å˜æ—¶é™èƒ½æ»¡èƒö˜q›è¡Œå†³ç–分æžçš„需è¦ï¼Œè€Œä¸”æ•°æ®ä»“库ä¸çš„æ•°æ®éƒ½è¦æ ‡æ˜Žè¯¥æ•°æ®çš„æ—‰™—´å±žæ€§ã€?
ã€€ã€€éœ€è¦æŒ‡å‡ºçš„æ˜¯ï¼Œæ•°æ®ä»“库ä¸çš„æ•°æ®òq¶ä¸æ˜¯æœ€æ–°çš„ã€ä¸“有的åQŒè€Œæ˜¯æ¥æºäºŽå…¶å®ƒæ•°æ®åº“的。数æ®ä»“库的建立òq¶ä¸æ˜¯è¦å–代数æ®åº“,它è¦å»ºç«‹åœ¨ä¸€ä¸ªè¾ƒå…¨é¢å’Œå®Œå–„的信æ¯åº”用的基¼‹€ä¸Šï¼Œç”¨äºŽæ”¯æŒé«˜å±‚决ç–分æžåQŒè€ŒåŽŸæœ‰çš„äº‹åŠ¡å¤„ç†æ•°æ®åº“在æ€ÖM½“æ•°æ®çŽ¯å¢ƒä¸æ‰¿æ‹…的是日常基¼‹€ä¸šåŠ¡çš„å¤„ç†ä“Q务。数æ®ä»“库是数æ®åº“技术的一¿U新的应用,而且到目å‰äØ“(f¨´)æ¢ï¼Œæ•°æ®ä»“库大部分还是用关系数æ®åº“管ç†ç³»¾l?/a>æ¥ç®¡ç†å…¶ä¸çš„æ•°æ®ã€?
  与关¾pÀL•°æ®åº“ä¸åŒçš„æ˜¯åQŒæ•°æ®ä»“åº“è‡³ä»ŠåÆˆæ²¡æœ‰ä¸¥æ ¼çš„æ•°å¦ç†è®ºåŸº¼‹€åQŒå®ƒæ›´åå‘于工程。由于数æ®ä»“库的˜q™ç§å·¥ç¨‹ç‰ÒŽ(gu¨©)€§ï¼Œå› 而在技术上å¯ä»¥æ ÒŽ(gu¨©)®å®ƒçš„工作˜q‡ç¨‹åˆ†äØ“(f¨´)åQšæ•°æ®çš„æŠ½å–ã€æ•°æ®çš„å˜å‚¨å’Œç®¡ç†ã€æ•°æ®çš„展现½{‰å…³é”®æŠ€æœ¯ã€?
  â—?æ•°æ®çš„æŠ½å?
  数æ®çš„æŠ½å–是数殘q›å…¥ä»“库的入å£ã€‚由于数æ®ä»“库是一个独立的数æ®çŽ¯å¢ƒåQŒå®ƒéœ€è¦é€šè¿‡æŠ½å–˜q‡ç¨‹ž®†æ•°æ®ä»Žè”机事务处熾pÈ»Ÿã€å¤–éƒ¨æ•°æ®æºã€è„±æœºçš„æ•°æ®å˜å‚¨ä»‹è´¨ä¸å¯¼å…¥æ•°æ®ä»“åº“ã€‚æ•°æ®æŠ½å–åœ¨æŠ€æœ¯ä¸Šä¸»è¦æ¶‰åŠäº’连ã€å¤åˆ¶ã€å¢žé‡ã€è{æ¢ã€è°ƒåº¦å’Œç›‘控½{‰å‡ 个方é¢çš„处ç†ã€‚åœ¨æ•°æ®æŠ½å–æ–šw¢åQŒæœªæ¥çš„æŠ€æœ¯å‘展将集ä¸åœ¨ç³»¾lŸåŠŸèƒ½é›†æˆåŒ–æ–šw¢åQŒä»¥é€‚应数æ®ä»“库本èínæˆ–æ•°æ®æºçš„å˜åŒ–,使系¾lŸæ›´ä¾¿äºŽ½Ž¡ç†å’Œç»´æŠ¤ã€?
  â—?æ•°æ®çš„å˜å‚¨å’Œ½Ž¡ç†
  数æ®ä»“库的组¾l‡ç®¡ç†æ–¹å¼å†³å®šäº†å®ƒæœ‰åˆ«äºŽä¼ 统数æ®åº“çš„ç‰ÒŽ(gu¨©)€§ï¼Œä¹Ÿå†³å®šäº†å…¶å¯¹å¤–部数æ®çš„表现åÅžå¼ã€‚æ•°æ®ä»“åº“ç®¡ç†æ‰€æ¶‰åŠçš„æ•°æ®é‡æ¯”ä¼ ¾lŸäº‹åС处ç†å¤§å¾—多åQŒä¸”éšæ—¶é—´çš„æŽ¨ç§»è€Œå¿«é€Ÿç¯¿U¯ã€‚在数æ®ä»“库的数æ®å˜å‚¨å’Œ½Ž¡ç†ä¸éœ€è¦è§£å†³çš„æ˜¯å¦‚何管ç†å¤§é‡çš„æ•°æ®ã€å¦‚ä½•åÆˆè¡Œå¤„ç†å¤§é‡çš„æ•°æ®ã€å¦‚何优化查询ç‰ã€‚ç›®å‰ï¼Œè®¸å¤šæ•°æ®åº“厂家æä¾›çš„æŠ€æœ¯è§£å†Ïx–¹æ¡ˆæ˜¯æ‰©å±•关系型数æ®åº“的功能,ž®†æ™®é€šå…³¾pÀL•°æ®åº“攚w€ æˆé€‚åˆæ‹…当数æ®ä»“库的æœåС噍ã€?
  ◆数æ®çš„展现
  在数æ®å±•现方é¢ä¸»è¦çš„æ–¹å¼æœ‰ï¼š(x¨¬)
  查询åQšå®žçŽ°é¢„å®šä¹‰æŸ¥è¯¢ã€åŠ¨æ€æŸ¥è¯¢ã€OLAP查询与决½{–æ”¯æŒæ™ºèƒ½æŸ¥è¯¢ï¼›æŠ¥è¡¨åQšäñ”生关¾pÀL•°æ®è¡¨æ ¹{€å¤æ‚è¡¨æ ¹{€OLAPè¡¨æ ¼ã€æŠ¥å‘Šä»¥åŠå„¿Uç»¼åˆæŠ¥è¡¨ï¼›å¯è§†åŒ–:(x¨¬)用易于ç†è§£çš„点线图ã€ç›´æ–¹å›¾ã€é¥¼å›¾ã€ç½‘状图ã€äº¤äº’å¼å¯è§†åŒ–ã€åŠ¨æ€æ¨¡æ‹Ÿã€è®¡½Ž—æœºåŠ¨ç”»æŠ€æœ¯è¡¨çŽ°å¤æ‚æ•°æ®åŠå…¶ç›¸äº’å…³¾p»ï¼›¾lŸè®¡åQšè¿›è¡Œåã^å‡å€¹{€æœ€å¤§å€¹{€æœ€ž®å€¹{€æœŸæœ›ã€æ–¹å·®ã€æ±‡æ€…R€æŽ’åºç‰å„ç§¾lŸè®¡åˆ†æžåQ›æŒ–掘:(x¨¬)åˆ©ç”¨æ•°æ®æŒ–掘½{‰æ–¹æ³•,从数æ®ä¸å¾—到关于数æ®å…³ç³»å’Œæ¨¡å¼çš„知识ã€?
  
æ•°æ®æŒ–掘与数æ®ä»“库èžåˆå‘å±?/p>
ã€€ã€€æ•°æ®æŒ–掘和数æ®ä»“库的ååŒå·¥ä½œåQŒä¸€æ–šw¢åQŒå¯ä»¥è¿Žåˆå’Œ½Ž€åŒ–æ•°æ®æŒ–掘过½E‹ä¸çš„é‡è¦æ¥éª¤ï¼Œæé«˜æ•°æ®æŒ–掘的效率和能力åQŒç¡®ä¿æ•°æ®æŒ–æŽ˜ä¸æ•°æ®æ¥æºçš„广泛性和完整性。å¦ä¸€æ–šw¢åQŒæ•°æ®æŒ–掘技术已¾læˆä¸ºæ•°æ®ä»“åº“åº”ç”¨ä¸æžäØ“(f¨´)é‡è¦å’Œç›¸å¯¹ç‹¬ç«‹çš„æ–šw¢å’Œå·¥å…—÷€?
ã€€ã€€æ•°æ®æŒ–掘和数æ®ä»“库是èžåˆä¸Žäº’动å‘展的åQŒå…¶å¦æœ¯ç ”ç©¶ä»·å€¼å’Œåº”ç”¨ç ”ç©¶å‰æ™¯ž®†æ˜¯ä»¤ähæŒ¯å¥‹çš„ã€‚å®ƒæ˜¯æ•°æ®æŒ–æŽ˜ä¸“å®¶ã€æ•°æ®ä»“库技术äh员和行业专家共åŒåŠªåŠ›çš„æˆæžœï¼Œæ›´æ˜¯òq¿å¤§æ¸´æœ›ä»Žæ•°æ®åº““奴隶â€åˆ°æ•°æ®åº““主人â€è{å˜çš„ä¼ä¸šæœ€¾lˆç”¨æˆïL(f¨¥ng)š„通途ã€?/p>