無為

          無為則可為,無為則至深!

            BlogJava :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
            190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

          ??????????????????????????????????????????????????????????? 周 競 揚
          ???????????????????????????? MG0133041
          ??????????????????????????? 南京大學計算機科學與技術(shù)系分布式與并行系統(tǒng)實驗室
          ???????????????????????????? 江蘇 南京 210093
          摘 要基于WEB 的數(shù)據(jù)挖掘是當前相當熱門的方向之一本文對此作了一個比較全面的
          綜述概括了基于WEB 的數(shù)據(jù)挖掘的主要概念和特點說明各類WEB 挖掘尤其
          是基于WEB 使用的挖掘所常用的技術(shù)最后簡單介紹了XML 在基于WEB 數(shù)據(jù)
          挖掘中的應用
          關(guān)鍵字基于WEB 的數(shù)據(jù)挖掘 基于WEB 使用的數(shù)據(jù)挖掘 半結(jié)構(gòu)化 XML

          Abstract: As web mining is one of the hottest research fields presently, this survey introduces itsbasic concepts and characteristics, including semi-structured data model. Three types ofweb mining and their applications are discussed in this paper, especially the web usagemining. Using XML in web mining is also stated in the last of the article.
          Keywords: Web Mining Web Usage Mining Semi-structured XML

          ?????? 我們現(xiàn)在已經(jīng)生活在一個相當數(shù)字化的時代中,通信、計算機和網(wǎng)絡技術(shù)正極大地影響著整個人類社會。然而,海量信息既給人們帶來方便也帶來了許多問題使我們驚嘆信息爆炸的同時,又不得不面對知識貧乏的苦惱信息過量難以消化信息真假難以辨別,信息安全難以保證,信息形式相異難以統(tǒng)一處理。人們開始考慮:“如何才能不被信息淹沒,而是從中及時發(fā)現(xiàn)有用的知識、提高信息利用率?!泵鎸@一挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)應運而生,并得到長足的發(fā)展,顯示出了強大的生命力.
          ??????? 所謂數(shù)據(jù)挖掘Data Mining 就是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數(shù)據(jù)中提取隱含在其中的、事先未知的、但又是潛在有用的信息和知識的過程[1] 。數(shù)據(jù)挖掘的誕生是人們對數(shù)據(jù)庫技術(shù)進行長期研究和開發(fā)的結(jié)果,而數(shù)據(jù)挖掘技術(shù)發(fā)展的同時它又反過來促使數(shù)據(jù)庫技術(shù)進入了一個更高級的階段:傳統(tǒng)的數(shù)據(jù)環(huán)境基本上是數(shù)據(jù)操作型的傳統(tǒng)的信息系統(tǒng)只負責數(shù)據(jù)的增刪及修改操作而在數(shù)據(jù)庫的基礎(chǔ)上可實現(xiàn)的工作就是OLTP (OnLine Transaction Process 聯(lián)機事務處理)?,F(xiàn)在由于數(shù)據(jù)積累的不斷增多,人們需要分析型的數(shù)據(jù)環(huán)境,于是就出現(xiàn)了由數(shù)據(jù)庫導出的數(shù)據(jù)倉庫,以此為基礎(chǔ)則可以實現(xiàn)OLAP (OnLine Analysis Process 聯(lián)機分析處理):隨著海量數(shù)據(jù)搜集的可能計算機處理技術(shù)的增強和先進數(shù)據(jù)挖掘算法的提出,數(shù)據(jù)挖掘技術(shù)不僅能對過去的數(shù)據(jù)進行查詢和遍歷,而且能夠找出過去數(shù)據(jù)之間潛在有價值的聯(lián)系并以一定的形式表現(xiàn)出來,從而極大的滿足了人們對知識的迫切需求。
          ??????? 數(shù)據(jù)挖掘基于的原始數(shù)據(jù)是形成知識的源泉,它既可以是結(jié)構(gòu)化的如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡上的異構(gòu)型數(shù)據(jù)。本文將著重討論一種針對半結(jié)構(gòu)化數(shù)據(jù)的挖掘—基于WEB 的數(shù)據(jù)挖掘,主要介紹了它的基本概念以及經(jīng)常采用的技術(shù)最后簡單說明了XML 在其中的應用。
          一、 基于WEB 的數(shù)據(jù)挖掘的主要概念
          1、 什么是基于WEB 的數(shù)據(jù)挖掘
          ??????? 當前網(wǎng)絡發(fā)展迅速,各種網(wǎng)站比比皆是。但在競爭日益激烈的網(wǎng)絡經(jīng)濟中,只有贏得用戶,才能最終贏得競爭的優(yōu)勢。作為一個網(wǎng)站的管理員或擁有者,應該知道用戶都在他的網(wǎng)站上干什么,知道網(wǎng)站哪些部分最為用戶喜愛,哪些讓用戶感到厭煩,什么地方出了安全漏洞,什么樣的改動帶來了顯著的用戶滿意度,提高什么樣的改動反而丟失了用戶等等?!爸褐恕?,才能“百戰(zhàn)不殆”。而基于WEB 數(shù)據(jù)挖掘技術(shù)正能滿足這些需求。
          ??????? 就基于WEB 數(shù)據(jù)挖掘的確切定義,到目前為止還沒有很明確而權(quán)威的說法。國外有認為:基于WEB 數(shù)據(jù)挖掘,就是利用數(shù)據(jù)挖掘技術(shù)自動地從網(wǎng)絡文檔以及服務中發(fā)現(xiàn)和抽取信息的過程。國內(nèi)則眾說紛紜,有認為是在大量已知數(shù)據(jù)樣本的基礎(chǔ)上得到數(shù)據(jù)對象間的內(nèi)在特性,并以此為依據(jù)在WEB 中進行有目的的信息提取過程。同時,也有學者將網(wǎng)絡環(huán)境下的數(shù)據(jù)挖掘歸入網(wǎng)絡信息檢索與網(wǎng)絡信息內(nèi)容的開發(fā)等等??傊?,基于WEB 的數(shù)據(jù)挖掘(Web Mining) 正是從萬維網(wǎng)(World Wide Web )上獲取原始數(shù)據(jù)中從中挖掘出隱含其中且潛在可用的知識最終應用于商業(yè)運作以滿足管理者的需要。
          2 、基于WEB 數(shù)據(jù)挖掘的分類
          根據(jù)挖掘的對象不同我們可以把基于WEB 的數(shù)據(jù)挖掘分為三大類:
          ???基于WEB 內(nèi)容的挖掘(Web Content Mining)
          ?? 基于WEB 結(jié)構(gòu)的挖掘(Web Structure Mining)
          ?? 基于WEB 使用的挖掘(Web Usage Mining)
          (1)基于WEB 內(nèi)容的挖掘
          ??????? 所謂基于WEB 內(nèi)容的挖掘?qū)嶋H上就是從WEB 文檔及其描述中獲取知識, WEB 文檔文件挖掘以及基于概念索引或Agent 技術(shù)的資源搜索也應該歸于此類。Web 信息資源類型眾多,目前WWW 信息資源已經(jīng)成為網(wǎng)絡信息資源的主體,然而除了大量的人們可以直接從網(wǎng)上抓取、建立索引、實現(xiàn)查詢服務的資源之外,相當一部分信息是隱藏著的數(shù)據(jù)(如由用戶的提問而動態(tài)生成的結(jié)果,存在于數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù),或是某些私人數(shù)據(jù))無法被索引,從而無法提供對它們有效的檢索方式,這就迫使我們把這些內(nèi)容挖掘出來。若從信息資源的表現(xiàn)形式來看,WEB 信息內(nèi)容是由文本、圖像、音頻、視頻、元數(shù)據(jù)等種種形式的數(shù)據(jù)組成的,因而我們所說的基于WEB 內(nèi)容的挖掘也是一種針對多媒體數(shù)據(jù)的挖掘。
          2 、基于WEB 結(jié)構(gòu)的挖掘
          ?????? 這一類型的挖掘是從萬維網(wǎng)的整體結(jié)構(gòu)和網(wǎng)頁上的相互鏈接中發(fā)現(xiàn)知識的過程,它主要挖掘WEB 潛在的鏈接結(jié)構(gòu)模式。這種思想源于引文分析,即通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立WEB 自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類并且可以由此獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息。WEB 結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點,而且對網(wǎng)絡資源檢索結(jié)果的排序有很大意義。
          3、 基于WEB 使用的挖掘
          ??????? 基于WEB 使用的挖掘,也稱為WEB 日志挖掘(Web Log Mining)。與前兩種挖掘方式以網(wǎng)上的原始數(shù)據(jù)為挖掘?qū)ο蟛煌赪EB 使用的挖掘面對的是在用戶和網(wǎng)絡交互的過程中抽取出來的第二手數(shù)據(jù)。這些數(shù)據(jù)包括:網(wǎng)絡服務器訪問記錄、代理服務器日志記錄、用戶注冊信息以及用戶訪問網(wǎng)站時的行為動作等等。WEB 使用挖掘?qū)⑦@些數(shù)據(jù)一一紀錄到日志文件中,然后對積累起來的日志文件進行挖掘,從而了解用戶的網(wǎng)絡行為數(shù)據(jù)所具有的意義。我們前面所舉的例子正屬于這一種類型。
          ????????表1[2]從五個方面對三種挖掘形式做了比較其中的具體內(nèi)容下文將會作進一步介紹。
          ??????????基于WEB 內(nèi)容的挖掘:非結(jié)構(gòu)化 半結(jié)構(gòu)化\文本文檔 超文本文檔\Bag of words n-grams 詞短語 概念或?qū)嶓w 關(guān)系型數(shù)據(jù)\TFIDF 和變體機器學習統(tǒng)計學(包括自然語言處理)\歸類 聚類發(fā)掘 抽取規(guī)則 發(fā)掘文本模式 建立模式.
          ?????????? 基于WEB 結(jié)構(gòu)的挖掘:半結(jié)構(gòu)化 數(shù)據(jù)庫形式的網(wǎng)站 鏈接結(jié)構(gòu)\超文本 文檔鏈接\邊界標志圖 OEM 關(guān)系型數(shù)據(jù) 圖形\Proprietary 算法 ILP (修改后)的關(guān)聯(lián)規(guī)則\發(fā)掘高頻的子結(jié)構(gòu) 發(fā)掘網(wǎng)站體系結(jié)構(gòu) 歸類 聚類.
          ????????? 基于WEB 使用的挖掘:交互形式\服務器日志記錄 瀏覽器日志記錄\關(guān)系型表 圖形\Proprietary 算法 機器學習 統(tǒng)計學 (修改后的)關(guān)聯(lián)規(guī)則\站點建設 改進與管理 銷建立用戶模式.
          3、 基于WEB 數(shù)據(jù)挖掘的特點
          (1) 、什么是半結(jié)構(gòu)化
          ?????? 所謂半結(jié)構(gòu)化是相對于結(jié)構(gòu)化和非結(jié)構(gòu)化而言的。我們稱傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)為完全結(jié)構(gòu)化的數(shù)據(jù),而同時還存在著一些諸如一本書、一張圖片等完全無結(jié)構(gòu)的非結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化則是介于兩者之間,具有隱含模式、信息結(jié)構(gòu)不規(guī)則、無嚴格類型約束等特點。半結(jié)構(gòu)化數(shù)據(jù)模式有如下特征[4]
          ????? 先有數(shù)據(jù),后有模式;
          ????? 半結(jié)構(gòu)化數(shù)據(jù)的模式是用于描述數(shù)據(jù)的結(jié)構(gòu)信息,而不是對數(shù)據(jù)結(jié)構(gòu)進行強制性的約束;
          ???? 半結(jié)構(gòu)化數(shù)據(jù)的模式是非精確的,它只可能描述數(shù)據(jù)的一部分結(jié)構(gòu),也可能根據(jù)數(shù)據(jù)處理的不同階段的視角不同而異;
          ???? 半結(jié)構(gòu)化數(shù)據(jù)的模式,可能規(guī)模很大甚至超過源數(shù)據(jù)的規(guī)模,而且會由于數(shù)據(jù)的不斷更新而處于動態(tài)變化過程中。
          (2)、 WEB 數(shù)據(jù)的特點
          ??????? Web 上的數(shù)據(jù)最大特點就是半結(jié)構(gòu)化。但是Web 上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)不同,傳統(tǒng)的數(shù)據(jù)庫都有一定的數(shù)據(jù)模型,可以根據(jù)模型來具體描述特定的數(shù)據(jù)而且按照一定的組織有規(guī)律的集中或者分布存放,結(jié)構(gòu)性很強;而Web 上的數(shù)據(jù)非常復雜,沒有特定的模型描述每一站點的數(shù)據(jù),都各自獨立設計并且數(shù)據(jù)本身具有自述性和動態(tài)可變性,因而Web 上的數(shù)據(jù)不是強結(jié)構(gòu)性的。但與此同時Web 頁面又是有描述層次的,單個網(wǎng)站也是按照各自的結(jié)構(gòu)構(gòu)架的,從而具有一定的結(jié)構(gòu)性。因此我們認為Web 上存在的數(shù)據(jù)既不是完全結(jié)構(gòu)化的也不是完全非結(jié)構(gòu)化的,而是介于兩者之間,一般稱之為半結(jié)構(gòu)化數(shù)據(jù)。
          ??????? 半結(jié)構(gòu)化是Web 上數(shù)據(jù)的最大特點,顯然面向Web 的數(shù)據(jù)挖掘比面向單個數(shù)據(jù)倉庫或者其他結(jié)構(gòu)化數(shù)據(jù)集的數(shù)據(jù)挖掘要復雜得多。
          4、使用基于WEB 數(shù)據(jù)挖掘能得到什么
          ??????? Web Mining 技術(shù)已經(jīng)應用于解決多方面的問題,比如基于WEB 內(nèi)容和結(jié)構(gòu)的挖掘極大的幫助了我們從浩瀚的網(wǎng)絡資源中更加快速而準確的獲取所需要的資料,而基于使用的數(shù)據(jù)挖掘之威力,更是在商業(yè)運作上發(fā)揮的淋漓盡致,具體表現(xiàn)在:
          (1) 對網(wǎng)站的修改能有目的有依據(jù)穩(wěn)步的提高用戶滿意度
          發(fā)現(xiàn)系統(tǒng)性能瓶頸,找到安全漏洞,查看網(wǎng)站流量模式,找到網(wǎng)站最重要的部分,發(fā)現(xiàn)用戶的需要和興趣,對需求強烈的地方提供優(yōu)化,根據(jù)用戶訪問模式修改網(wǎng)頁之間的連接,把用戶想要的東西以更快且有效的方式提供給用戶,在正確的地方正確的時間把正確的信息提供給正確的人。
          (2) 測定投資回報率
          ????? 測定廣告和促銷計劃的成功度
          ????? 找到最有價值的ISP 和搜索引擎
          ??????測定合作和結(jié)盟網(wǎng)站對自身的價值
          (3) 提供個性化網(wǎng)站
          ????????? 對大多數(shù)WEB 應用來說,讓用戶感到真?zhèn)€網(wǎng)站是完全為他自己定制的個性化網(wǎng)站,是WEB 站點成功的秘訣。針對不同的用戶完全按照其個人的興趣和愛好(數(shù)據(jù)挖掘算法得到的用戶訪問模式)向用戶動態(tài)的提供要瀏覽的建議自動提供個性化的網(wǎng)站。
          ??????? 下面我們將就基于WEB 使用的挖掘,進一步討論它所經(jīng)常采用的技術(shù)。
          二、基于WEB 使用挖掘中的技術(shù)問題
          1、 Web Usage Mining 中非技術(shù)問題
          ?????? 在基于使用的挖掘中,出于商業(yè)目的考量網(wǎng)站的擁有者或者管理者經(jīng)常會對網(wǎng)站的某些方面提出一些分析,比如:流量分析(點擊量)、廣告分析、網(wǎng)站出入口分析、訪問路徑分析、用戶來源分析、瀏覽器和平臺分析等等。
          ?????? 就這些方面作進一步的智能分析,我們可以從中真正與數(shù)據(jù)挖掘相關(guān)的問題:
          (1) 網(wǎng)頁相關(guān)性分析
          ?????? 哪些網(wǎng)頁具有密切的關(guān)系,如果很多人具有a.html-〉b.html-〉c.html 這樣的訪問模式,則我們可以認定a.html 和c.html 之間有一定的關(guān)系,從而考慮是否在a.html 上直接加上c.html的鏈接。
          (2) 用戶訪問模式分析
          ??????? 有哪一些網(wǎng)頁用戶只要訪問了其中的一頁,則可以斷定他也要訪問其他的網(wǎng)頁即按不同的用戶訪問模式,把網(wǎng)頁分組得到一個一個的興趣點。哪些用戶所訪問的網(wǎng)頁組成比較類似(具有類似的興趣)即根據(jù)用戶行為的相似性,把用戶按行為模式分類。
          (3) 用戶歸類
          通過用戶填寫的信息如何把用戶歸入某一特定的類別,然后可對同一類別中的用戶提供相似的服務。
          2 、Web Usage Mining 中的技術(shù)問題
          (1) 數(shù)據(jù)處理
          ???????? 如何得到分析和數(shù)據(jù)挖掘所用的數(shù)據(jù),主要采用兩種方法,一是直接使用Web Server的Log 文件,二是用網(wǎng)絡監(jiān)聽的辦法,在數(shù)據(jù)包中提取出HTTP 請求和應答。最后兩種數(shù)據(jù)源都要轉(zhuǎn)換成固定的格式存放在數(shù)據(jù)庫或數(shù)據(jù)倉庫內(nèi),供統(tǒng)計分析和數(shù)據(jù)挖掘使用。
          (2) 統(tǒng)計分析
          ????????? 在數(shù)據(jù)庫的基礎(chǔ)上,針對不同的數(shù)據(jù)運行各種統(tǒng)計函數(shù)。
          (3) 數(shù)據(jù)挖掘
          ?????????? 數(shù)據(jù)挖掘技術(shù)是實現(xiàn)智能分析得到隱藏在大量繁雜數(shù)據(jù)內(nèi)部知識的關(guān)鍵。通過對用戶訪問網(wǎng)站的歷史數(shù)據(jù)(即我們通過數(shù)據(jù)處理得到的數(shù)據(jù))應用各種數(shù)據(jù)挖掘技術(shù),得到高層知識,提供給用戶作決策支持,或利用這些知識動態(tài)生成網(wǎng)頁,為用戶提供訪問建議。
          (4) 關(guān)聯(lián)規(guī)則Association Rules
          ?????????從服務器會話中發(fā)現(xiàn)請求網(wǎng)頁的相關(guān)性,可用于優(yōu)化網(wǎng)站組織,實現(xiàn)網(wǎng)絡代理中的預取功能等。
          (5) 聚集Clustering
          ???????? 使用分組(Usage Clusters )把具有相似瀏覽模式的用戶分成組,可用于電子商務應用中市場分片(market segmentation) 和為用戶提供個性化服務,而網(wǎng)頁分組(page clusters )按內(nèi)容的相似性把網(wǎng)頁分類,可用于搜索引擎和Web 瀏覽助手(Web assistance providers )為用戶提供推薦鏈接。
          (6) 歸類Classification
          ????????? 根據(jù)用戶的個人資料,將其歸入某一特定的類,可使用決策樹、naive Bayesian
          classifiers、 k-最近鄰居等算法。
          (7) 序列模式Sequential Patterns
          ??????? 發(fā)現(xiàn)一個session 內(nèi)部的網(wǎng)頁間的時間相關(guān)性,可用于預測用戶的訪問趨向而提供建議。
          三、XML 技術(shù)在基于WEB 的數(shù)據(jù)挖掘中的應用
          1 、XML 技術(shù)簡介
          ??????? XML (eXtsible Markup Language) 是SGML (Standard General MarkupLanguage )的一個子集,近年來為IBM Microsoft 等公司大力推崇。和HTML( Hyper Text Markup Language)類似,XML 也是一種標示語言,可提供描述結(jié)構(gòu)化資料的格式,它們都可以用于可視化和用戶界面標準。
          ?????? 當前,Internet 只是文本和圖片的訪問媒體,并沒有智能搜索、數(shù)據(jù)交換、自適應表示和個人化的標準。為了超出設置信息訪問和顯示標準的限制,Internet 必須設置信息理解標準(表示數(shù)據(jù)的通用方式)以便軟件能夠更好地搜索移動顯示和處理上下文中隱藏的信息。由于 HTML 是一種描述如何表示 WEB 頁的格式,并不表示數(shù)據(jù),所以它并不能完成以上處理。而 XML 提供了一種獨立的運行程序的方法來共享數(shù)據(jù)是用來自動描述信息的一種新的標準語言,它通過計算機通信“把Internet 的功能由信息傳遞擴大到人類其他多種多樣的活動中去”[3]。
          2、技術(shù)的特點及其在Web Mining 中的應用
          ?????? 它最大的特點在于其Tag 是具有語義的,可由用戶定義能夠反映一定的數(shù)據(jù)的含義。此外,XML 還具有簡單易用、可擴展性、開發(fā)性、強標準化等特點,非常適合應用于WebMining 。從某種意義上說,XML 非常接近半結(jié)構(gòu)化的數(shù)據(jù)模型它可供操作的基礎(chǔ)要比HTML 好得多。圖二是HTML 和XML 的文檔比較,我們不難看出XML 的文檔描述的語義非常清楚,而且我們很容易就可以將之和關(guān)系數(shù)據(jù)庫中的屬性一一對應起來,能夠支持實施十分精確的查詢,以及其他高級操作。而HTML 文檔只是按顯示方式進行描述的。由此可見,XML 將為在WEB 上的數(shù)據(jù)查詢和模式抽取提供了一個重要的契機。
          ?????? XML 由若干規(guī)則組成,這些規(guī)則可用于創(chuàng)建標記語言,并能用一種被稱作分析程序的簡明程序處理所有新創(chuàng)建的標記語言。XML 解決了HTML 不能解決的兩個Web 問題,即“Internet 發(fā)展速度快而接入速度慢”的問題,以及可利用的信息多但難以找到自己需要的那部分信息”的問題[3]。 XML 能增加結(jié)構(gòu)和語義信息可使計算機和服務器即時處理多種形式的信息。因此,運用XML 的擴展功能不僅能從WEB 服務器下載大量的信息,還能大大減少網(wǎng)絡業(yè)務量。
          ????????以XML 為基礎(chǔ)的新一代WWW 環(huán)境是直接面對WEB 數(shù)據(jù)的,不僅可以很好地兼容原有的WEB 應用而且可以更好地實現(xiàn)WEB 中的信息共享與交換。XML 可看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以很容易地將XML 的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性一一對應起來,實施精確地查詢與模型抽取。
          ???????? 當用標準的HTML 無法完成某些WEB 應用時,XML 便能大顯身手這些應用從大的方面講可以被分成以下四類:需要WEB 客戶端在兩個或更多異質(zhì)數(shù)據(jù)庫之間進行通信的應用;試圖將大部分處理負載從WEB 服務器轉(zhuǎn)到WEB 客戶端的應用;需要WEB 客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶的應用;需要智能WEB 代理根據(jù)個人用戶的需要裁減信息內(nèi)容的應用。顯而易見,這些應用和WEB 的數(shù)據(jù)挖掘技術(shù)有著重要的聯(lián)系,基于WEB 的數(shù)據(jù)挖掘必須依靠它們來實現(xiàn)。
          四、一些著名的Web Mining 產(chǎn)品簡介
          1、Net percerptions
          ?????? Net Perceotion 公司的Net Percerptions ,采用了一個叫做實時建議的技術(shù):讓它的產(chǎn)品對象(主要是網(wǎng)站)能夠根據(jù)用戶以往的瀏覽行為(比如以前的購買記錄) 在其他用戶(稱做Community 中)找出與他有相類似瀏覽行為的,根據(jù)這些用戶的瀏覽行為來預測該用戶以后的瀏覽行為,從而為用戶提供個性化的瀏覽建議。這種技術(shù)利用了網(wǎng)站用戶的瀏覽行為有相似的一面,因此其預言有很高的準確性。并且它是實時運行的,隨著瀏覽量的增加會變得越來越聰明。
          2、 CommerceTrends
          ??????? WebTrends 公司的CommerceTrends 被宣稱為第一個用于VRM (Visitor Relationship Management) 的平臺,它能夠讓電子商務網(wǎng)站更好地理解其網(wǎng)站訪問者的行為,幫助網(wǎng)站采取一些行動來將這些訪問者變?yōu)轭櫩?,將一次性的顧客變?yōu)殚L期的忠實顧客。?CommerceTrends 提供了完全的“browser-based” 方法,使得不同的部門(從市場部門到分析家)能在任何時間得到他所想得到的個性化報表。同時它還利用了強大的數(shù)據(jù)倉庫技術(shù),這樣就不僅僅將原始數(shù)據(jù)存在數(shù)據(jù)庫里而是“Sessionizes ”了原始數(shù)據(jù)。
          3. DBMiner
          ??????? 加拿大Simon Fraser 大學數(shù)據(jù)庫系統(tǒng)研究實驗室Database SystemResearchLaboratory
          的知識發(fā)現(xiàn)研究組在數(shù)據(jù)挖掘技術(shù)領(lǐng)域經(jīng)過多年的研究開發(fā)了名為DBMiner 的知識發(fā)現(xiàn)系統(tǒng)原型。它將機器學習方法學和數(shù)據(jù)庫技術(shù)結(jié)合起來,用于在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫中交互地挖掘多層次的知識。該系統(tǒng)獨特之處在于緊密集成了聯(lián)機分析處理OLAP 和多種數(shù)據(jù)挖掘功能,包括特征化、關(guān)聯(lián)、分類和聚類。
          五 結(jié)束語
          ??????????基于WEB 的數(shù)據(jù)挖掘是當前熱門研究方向之一,而且其應用范疇廣闊,潛力巨大;Web Mining 技術(shù)也在不斷提出和改進之中。但是Web Mining 技術(shù)還有很多缺陷和不足。我們還需要半結(jié)構(gòu)化數(shù)據(jù)模型、Web 數(shù)據(jù)的過濾和轉(zhuǎn)換等方面作進一步研究,才能進一步發(fā)揮Web Mining 的無限威力

          References
          [1] Jiawei Han and Micheline Kamber Data Mining: Concepts and Techniques 2000 Morgan
          Kaufmann Publishers
          [2] 張 燕 淺談網(wǎng)絡信息挖掘
          [3] 徐振航 劉莉芹 XML 與面向Web 的數(shù)據(jù)挖掘技術(shù)
          [4] 王 靜 孟小峰 半結(jié)構(gòu)化數(shù)據(jù)的模式研究綜述 計算機科學 2001 Vol. 28
          [5] 於 丹 數(shù)據(jù)挖掘走向Internet 微電腦世界
          [6] 王聰修 網(wǎng)絡數(shù)據(jù)挖掘
          [7] What is Web Mining Lily BBS
          [8] 李志鋒 網(wǎng)頁數(shù)據(jù)分析 天極網(wǎng) 2001.2
          [9] Web Mining: 第二代網(wǎng)絡信息處理技術(shù) Lily BBS
          [10] 構(gòu)造未來Web 頁面的工具語言XML Lily BBS



          凡是有該標志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
          、轉(zhuǎn)載請注明來處和原文作者。非常感謝。

          posted on 2007-01-03 21:20 草兒 閱讀(5760) 評論(0)  編輯  收藏 所屬分類: Web Data Mining
          主站蜘蛛池模板: 临澧县| 宝山区| 闸北区| 广灵县| 华阴市| 文成县| 灵川县| 吉木萨尔县| 永济市| 长垣县| 高陵县| 三台县| 岚皋县| 呈贡县| 广宁县| 泰兴市| 行唐县| 宣威市| 泸州市| 枣庄市| 阿巴嘎旗| 松溪县| 出国| 个旧市| 嘉定区| 霍城县| 腾冲县| 兰西县| 美姑县| 尤溪县| 东乡族自治县| 射洪县| 新源县| 台安县| 威远县| 绥阳县| 陇川县| 米泉市| 叶城县| 虹口区| 阿拉善右旗|