1.引言
Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得,正是鑒于這種,現(xiàn)在的用戶面臨著信息過載的問題[86],現(xiàn)在的信息用戶在與web交互時存在著如下的問題:
(a.) 發(fā)現(xiàn)相關(guān)信息。當(dāng)用戶想在web上查找特定信息而使用搜索服務(wù)時,他會發(fā)現(xiàn)查詢的結(jié)果大部分是不相關(guān)的東西。當(dāng)前的搜索存在著第準確度和低召回率等問題[20]。(b) 在可用的web信息的基礎(chǔ)上生成知識。這可以看作是上個問題的子問題,一些研究[34,85,29] 側(cè)重于把web用作決策的知識庫。(c.) 信息顯示的個性化。(d.) 個性化用戶的學(xué)習(xí)。這實際上是上一個問題的特定子問題。
而 web 挖掘則能直接或間接的解決上述問題。Web挖掘指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計學(xué)、人工智能中的機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。
2.歷史發(fā)展
Web mining,這個術(shù)語是Oren Etzioni,[1]于1996年正式提出來的,這個概念提出來以后,很多研究人員在他們的文章用它來指代不同的含義, Jaideep Srivastava[2]和他的同事的定義為:web 挖掘是利用數(shù)據(jù)挖掘的技術(shù)從web 文檔或服務(wù)上自動的發(fā)現(xiàn)和抽取信息。根據(jù)Etzioni[41] ,web 挖掘可以分解為四個子任務(wù):
a. 查找資源:任務(wù)是從目標(biāo)Web文檔中得到數(shù)據(jù),值得注意的是有時信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網(wǎng)站的日志數(shù)據(jù)甚至是通過Web形成的交易數(shù)據(jù)庫中的數(shù)據(jù)。
b.信息選擇和預(yù)處理:任務(wù)是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如從Web文檔中自動去除廣告連接、去除多余格式標(biāo)記、自動識別段落或者字段并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關(guān)系表。
c.歸類:在同一個站點內(nèi)部或在多個站點之間進行自動進行通用模式發(fā)現(xiàn)。
d.模式分析:驗證、解釋上一步驟產(chǎn)生的模式??梢允菣C器自動完成,也可以是與分析人員進行交互來完成。
Web 挖掘涉及到 從web數(shù)據(jù) 發(fā)現(xiàn)潛在的有用的或沒用的信息或知識的所有過程,它隱含的實現(xiàn)了數(shù)據(jù)知識發(fā)現(xiàn)的標(biāo)準處理過程(KDD)[43],可以看作是KDD在web數(shù)據(jù)上的應(yīng)用擴展。目前,研究人員將web挖掘分為三個大類[2,3]:
a. web 內(nèi)容挖掘。它應(yīng)用數(shù)據(jù)挖掘的技術(shù)來挖掘發(fā)布在因特網(wǎng)上資源的內(nèi)容,通常是html文件(半結(jié)構(gòu)化的),無格式文本和xml文檔(結(jié)構(gòu)化的)。
b.web 結(jié)構(gòu)挖掘依靠web的超鏈接結(jié)構(gòu)。這種圖形結(jié)構(gòu)可以提供關(guān)于page rank的信息[4]或權(quán)威性[5] ,通過過濾能提高搜索的結(jié)果。
c. web用法挖掘 分析用戶和web服務(wù)器的互操作結(jié)果,包括 web日志,點擊流和數(shù)據(jù)庫事務(wù)等。Web用法挖掘涉及到了隱私的問題現(xiàn)在引起了不少的爭論。
Fabrizio Sebastini[6]和Soumen Chakrabarti[7] 詳細的探討了web 內(nèi)容挖掘的技術(shù) Furnkranz 則對web結(jié)構(gòu)挖掘進行了總結(jié)工作
3.現(xiàn)狀評述
Web內(nèi)容挖掘和結(jié)構(gòu)挖掘中,工作多集中在如下:
把web看作是一個數(shù)據(jù)庫,數(shù)據(jù)庫領(lǐng)域的早期研究工作集中在web的層次觀點,在半結(jié)構(gòu)化的web上層置一層包含某些相關(guān)語義信息的抽象層,weblog[10]和webSql[11]正是這種基于數(shù)據(jù)庫的方法,在這個領(lǐng)域,最近大部分的工作重點在實現(xiàn)語義web。
文檔分類同樣是當(dāng)前一個研究的熱點問題,早期的文檔分類工作是把文本挖掘技術(shù)直接到web數(shù)據(jù)上,但是后期的研究工作表明:充分利用web的圖形結(jié)構(gòu)或以html為表現(xiàn)形式的半結(jié)構(gòu)化內(nèi)容,有助于提高分類的結(jié)果[14],Google新聞(http://new.google.com)便是從當(dāng)前的新聞信息中自動的聚合分類的.
網(wǎng)頁權(quán)重問題。Larry Page和他的同事提出了pagerank[4],并通過google的搜尋引擎的成功運用推廣流行,利用pagerank 爬蟲能提前計算出網(wǎng)頁的排序,并將其結(jié)果返回,網(wǎng)頁的pagerank的計算是基于該網(wǎng)頁對其他網(wǎng)頁的鏈接度。Sepandar Kamwar[14]對基本的pagerank算法進行了改進,對計算量代價有明顯的提高。但這種基本的方法并沒有考慮到鏈接的語義。聰明的做法就是利用網(wǎng)頁的內(nèi)容來進行評定。對那些與查詢相似的鏈接給與更高的權(quán)重。Soumen Chakrabarti正是基于這種考慮提出了改進的算法[14]。實驗結(jié)果表明,這種改進比同等方法相比,效果有明顯提高。
Web用法挖掘在電子商務(wù)有許多的應(yīng)用,包括:個性化,交通分析和針對性廣告等。圖形化分析工具如webviz[15]的發(fā)展使得web事務(wù)的挖掘流行起來。這個領(lǐng)域中的主要工作是web日志數(shù)據(jù)的預(yù)處理和從處理的數(shù)據(jù)中發(fā)現(xiàn)有用模式[16,17]。Etzioni[19]將web用法挖掘用在飛機票的購買應(yīng)用上。其方法是根據(jù)時間挖掘出網(wǎng)上可用的飛機票價格以此來推薦用戶在最合適的時間來購票。Web用法挖掘還涉及到個人的隱私問題,不再敘述。
當(dāng)前一個一個比較新的課題是語義web 挖掘,在語義網(wǎng)中,向web資源中添加語義,是通過添加基于本體的注解來實現(xiàn)的,但不能寄希望于人工手動完成,因為這雖然簡單但卻不不能擴展。因此我們必須通過本體學(xué)習(xí),匹配,歸并和實例學(xué)習(xí)來自動實現(xiàn)注解。語義網(wǎng)和web 挖掘相互促進,web 挖掘能促進語義網(wǎng)的出現(xiàn),而語義網(wǎng)則使得web 挖掘的效率更高。 4.發(fā)展前景預(yù)測
根據(jù)目前的研究狀況預(yù)測,今后幾年Web 挖掘研究的主要方向可能會有:
1) 在數(shù)據(jù)預(yù)處理方面,多種Web 數(shù)據(jù)的收集、結(jié)構(gòu)轉(zhuǎn)換等處理技術(shù)的研究 ;
2) Web 挖掘方法和模式識別技術(shù)在構(gòu)造自適應(yīng)站點以及智能站點服務(wù)的個性化和性能優(yōu)化方面的研究;
3) Web 知識庫的動態(tài)維護、更新,各種知識和模式的評價綜合方法的研究;
4) 基于Web 挖掘和信息檢索的,高效的、具有自動導(dǎo)航功能的智能搜索引擎相關(guān)技術(shù)的研究;
5) 半結(jié)構(gòu)、結(jié)構(gòu)的文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)的高效挖掘算法;
6) 研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言及其標(biāo)準化;
7) 研究和開發(fā)基于Web 的多層數(shù)據(jù)體系結(jié)構(gòu)和智能集成系統(tǒng),提供相應(yīng)的查詢語言,優(yōu)化和維護機制;
8) 現(xiàn)有的數(shù)據(jù)挖掘方法與技術(shù)的改進及其向Web 數(shù)據(jù)的擴展,挖掘算法的適應(yīng)性和時效性的研究;
9) Web 文檔內(nèi)的模式發(fā)現(xiàn)及其在信息提取、文本分析中的應(yīng)用研究等;
10) Web 挖掘的相關(guān)技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用研究等 。
5.小結(jié)
不難看出 web 挖掘牽扯到太多的諸如信息檢索 信息抽取 數(shù)據(jù)挖掘 人工智能等技術(shù),現(xiàn)在的掌握的技術(shù)和時間來看,從其中的某一個點選則突破比較好。我比較傾向于web數(shù)據(jù)的收集工作。.................
網(wǎng)頁的自動聚合分類,向網(wǎng)頁自動添加標(biāo)注使其體現(xiàn)語義的特征,都可以作為研究方向進行下去。
6.參考文獻