網站:JavaEye 作者:yuping322 發表時間: 2007-08-24 19:52 此文章來自于 http://www.JavaEye.com
聲明:本文系JavaEye網站原創文章,未經JavaEye網站或者作者本人書面許可,任何其他網站嚴禁擅自發表本文,否則必將追究法律責任!
原文鏈接: http://yuping.javaeye.com/blog/116243

   引言

數據挖掘(Data Mining,DM)是從大量數據中提取或“挖掘”知識,是從存放在數據庫、數據倉庫或其他信息庫中的大量數據中挖掘有趣知識的過程。[1] 隨著網絡的不斷發展,因特網目前已成為一個巨大的、分布廣泛的和全球性的信息服務中心。從海量的網絡信息中尋找有用的知識,早已成為人們的迫切需求。各種類似Google、Baidu等的搜索引擎也層出不窮,Web數據挖掘的應用在現實中不斷體現。

Web數據挖掘建立在對大量的網絡數據進行分析的基礎上,采用相應的數據挖掘算法,在具體的應用模型上進行數據的提取、數據篩選、數據轉換、數據挖掘和模式分析,最后做出歸納性的推理、預測客戶的個性化行為以及用戶習慣,從而幫助進行決策和管理,減少決策的風險。

Web數據挖掘涉及多個領域,除數據挖掘外,還涉及計算機網絡、數據庫與數據倉儲、人工智能、信息檢索、可視化、自然語言理解等技術。


2   Web數據挖掘面臨的問題

Web的巨大、分布廣泛和內容多樣使得目前的Web挖掘面臨著眾多問題和挑戰。首先,對有效的數據倉庫和數據挖掘來說,Web上的數據過于龐大。而且,Web上的數據具有極強的動態性,不僅數量增長快而且更新十分迅速。但是面對如此大量的Web上的信息,有調查卻表明:99%的Web信息對于99%的用戶是無用的。這樣看來,面對網絡上形形色色各式各樣的用戶群體,許多由Web搜索引擎所檢索到的資料將會被淹沒。

另外,由于Web頁面缺乏同一的結構,其結構又比任何傳統文本文檔都要復雜,所以要實現基于Web的數據挖掘和信息檢索在目前來說是非常具有挑戰性的。


 


3   Web數據挖掘的分類

Web數據挖掘是一項具有挑戰性的課題。它實現對Web存取模式,Web結構和規則,以及動態的Web內容的查找。一般來說,Web數據挖掘可分為四類:Web內容挖掘、Web結構挖掘、Web使用記錄挖掘和Web用戶性質挖掘。其中,Web內容挖掘、Web結構挖掘和Web使用記錄挖掘是Web1.0時代就已經有了的,而Web用戶性質挖掘則是伴隨著Web2.0的出現而出現的。


3.1 Web內容挖掘

Web內容挖掘主要包括文本挖掘和多媒體挖掘兩類,其對象包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數據。這些數據一般由非結構化的數據(如文本) 、半結構化的數據(如HTML 文檔) 和結構化的數據(如表格) 構成。對非結構化文本進行的Web挖掘,稱為文本數據挖掘或文本挖掘,是Web挖掘中比較重要的技術領域。Web挖掘中另一個比較重要的技術領域是Web多媒體數據挖掘。

目前,關于Web內容挖掘的研究大體以Web文本內容挖掘為主。Web內容挖掘一般從資源查找和數據庫兩個不同的方面進行研究。

從資源查找的方面來看,Web內容挖掘的任務是從用戶的角度出發,怎樣提高信息質量和幫助用戶過濾信息。主要是對非結構化文檔和半結構化文檔的挖掘。非結構化文檔主要指Web上的自由文本,如小說、新聞等。Web上的半結構化文檔挖掘指在加入了HTML、超鏈接等附加結構的信息上進行挖掘,其應用包括超鏈接文本的分類、聚類、發現文檔之間的關系、提出半結構化文檔中的模式和規則等。

從數據庫的觀點進行Web內容挖掘主要是試圖建立Web站點的數據模型并加以集成, 以支持復雜查詢,而不只是簡單的基于關鍵詞的搜索。這要通過找到Web文檔的模式、建立Web知識庫來實現。

對文本數據進行挖掘的文檔分類和模型質量評價方法與傳統的數據挖掘方法相類似,分類算法主要應用樸素貝葉斯(Naive Bayes Classifier)。對模型的質量評價主要有分類的正確率(Classification Accuracy)、準確率( Precision)和信息估值( Information Score)。 SAAS

Web多媒體數據挖掘從多媒體數據庫中提取隱藏的知識、多媒體數據關聯、或者是其他沒有直接儲存在多媒體數據庫中的模式。多媒體數據挖掘包括對圖像、視頻和聲音的挖掘。多媒體挖掘首先進行特征提取,然后再應用傳統的數據挖掘方法進行進一步的信息挖掘。對網頁中的多媒體數據進行特征的提取,應充分利用HTML的標簽信息。[3]

3.2 Web結構挖掘

由于有用的知識不僅包含在Web頁面的內容中,而且也包含在頁面的結構中。所以Web結構挖掘是從站點的組織結構和頁面結構中推導出知識,對Web頁面間的結構進行挖掘,找出數據鏈的結構進行分類、聚類,從而發現頁面間的關系,進而改進搜索引擎的性能。

Web結構挖掘的對象是Web本身的超鏈接,即對Web文檔的結構進行挖掘。Web結構挖掘的基本思想是將Web看作一個有向圖,他的頂點是Web頁面,頁面間的超鏈就是圖的邊。然后利用圖論對Web的拓撲結構進行分析。常見的算法有HITS ( Hypertext Induced Topic Search) 、PageRank、發現虛擬社區的算法、發現相似頁面的算法、發現地理位置的算法和頁面分類算法。Web結構挖掘的算法一般可分為查詢相關算法和查詢無關算法兩類。查詢相關算法需要為每一個查詢進行一次超鏈分析從而進行一次值的指派;而查詢獨立算法則為每個文檔僅進行一次值的指派,對所有的查詢都使用此值。HITS和PageRank分別是查詢相關算法和查詢獨立算法的代表。




3.3 Web使用記錄挖掘

Web使用記錄挖掘也叫Web日志挖掘或Web訪問信息挖掘。它是通過挖掘相關的Web日志記錄,來發現用戶訪問Web頁面的模式,通過分析日志記錄中的規律,可以識別用戶的喜好、滿意度,可以發現潛在用戶,增強站點的服務競爭力。

Web使用記錄數據除了服務器的日志記錄外, 還包括代理服務器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、等一切用戶與站點之間可能的交互記錄。

Web使用記錄挖掘方法主要有以下兩種:

(1) 將網絡服務器的日志文件作為原始數據,應用特定的預處理方法進行處理后再進行挖掘;

(2) 將網絡服務器的日志文件轉換為圖表,然后再進行進一步的數據挖掘。通常,在對原始數據進行預處理后就可以使用傳統的數據挖掘方法進行挖掘。



3.4 Web用戶性質挖掘

Web用戶性質挖掘是伴隨著Web2.0的出現而出現的?;赗SS、Blog、SNS、Tag以及WiKi等互聯網軟件的廣泛應用,Web2.0幫助人們從Web1.0時代各大門戶網站“填鴨”式的信息轟炸,過渡到了“人人對話”,每個普通用戶既是信息的獲取者,也是信息的提供者。[4]面對Web2.0的誕生,Web數據挖掘技術又面臨著新的挑戰。

如果說Web使用記錄挖掘是挖掘網站訪問者在各大網站上留下的痕跡,那么Web用戶性質挖掘則是要去Web用戶的老巢探尋究竟。在Web2.0時代,網絡徹底個人化了,它完全允許客戶用自己的方式、喜好和個性化的定制服務創造自己的互聯網,它一方面給予互聯網用戶最大的自由度,另一方面給予有心商家有待發掘的高含金量信息數據。通過對Web用戶自建的RSS、Blog等Web2.0功能模塊下客戶信息的統計分析,能夠幫助運營商以較低成本獲得準確度較高的客戶興趣傾向、個性化需求以及新業務發展趨勢等信息。有關Web2.0下的數據挖掘正在進一步的研究中。


 


4   結束語

Web數據挖掘是當今世界上的熱門研究領域,其研究具有廣闊的應用前景和巨大的現實意義。目前國內的Web數據挖掘尚處于學習、跟蹤和探索階段。Web數據挖掘有許多問題有待于進一步的研究和深化。Web2.0的出現給Web數據挖掘提出了新的要求。基于Web2.0的數據挖掘目前還處于起步階段,它必將成為Web數據挖掘中很重要的一個研究領域。




《 Web數據挖掘 》 的評論也很精彩,歡迎您也添加評論。查看詳細 >>





JavaEye推薦
上海樂福狗信息技術有限公司:誠聘技術經理和開發工程師
免費下載IBM社區版軟件--它基于開放的標準,支持廣泛的開發類型,讓您的開發高效自主!
京滬穗蓉四地免費注冊,SOA技術高手匯聚交鋒.
上海:優秀公司德比:高薪誠聘 資深Java工程師
廣州:優易公司:誠聘Java工程師,開發經理
上海:尤恩斯國際集團:誠聘開發工程師
北京:優秀公司NHNChina招聘:WEB開發,系統管理,JAVA開發, DBA



文章來源: http://yuping.javaeye.com/blog/116243