首頁(yè) 新隨筆新文章聯(lián)系聚合

posts - 4,comments - 0,trackbacks - 0

2007年6月

>

日

一

二

三

四

五

六

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

常用鏈接

留言簿(3)

隨筆分類(4)

隨筆檔案(4)

搜索

積分與排名

積分 - 5616
排名 - 2976

閱讀排行榜

評(píng)論排行榜

2007年6月4日

關(guān)于web mining的調(diào)研報(bào)告

1．引言

Internet/Web技術(shù)的快速普及和迅猛發(fā)展，使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得，正是鑒于這種，現(xiàn)在的用戶面臨著信息過載的問題[86]，現(xiàn)在的信息用戶在與web交互時(shí)存在著如下的問題：

(a.) 發(fā)現(xiàn)相關(guān)信息。當(dāng)用戶想在web上查找特定信息而使用搜索服務(wù)時(shí)，他會(huì)發(fā)現(xiàn)查詢的結(jié)果大部分是不相關(guān)的東西。當(dāng)前的搜索存在著第準(zhǔn)確度和低召回率等問題[20]。(b) 在可用的web信息的基礎(chǔ)上生成知識(shí)。這可以看作是上個(gè)問題的子問題，一些研究[34，85，29] 側(cè)重于把web用作決策的知識(shí)庫(kù)。(c.) 信息顯示的個(gè)性化。(d.) 個(gè)性化用戶的學(xué)習(xí)。這實(shí)際上是上一個(gè)問題的特定子問題。

而 web 挖掘則能直接或間接的解決上述問題。Web挖掘指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個(gè)研究領(lǐng)域，包括數(shù)據(jù)庫(kù)技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。

2．歷史發(fā)展

Web mining，這個(gè)術(shù)語(yǔ)是Oren Etzioni,[1]于1996年正式提出來的，這個(gè)概念提出來以后，很多研究人員在他們的文章用它來指代不同的含義， Jaideep Srivastava[2]和他的同事的定義為：web 挖掘是利用數(shù)據(jù)挖掘的技術(shù)從web 文檔或服務(wù)上自動(dòng)的發(fā)現(xiàn)和抽取信息。根據(jù)Etzioni[41] ，web 挖掘可以分解為四個(gè)子任務(wù)：

a. 查找資源：任務(wù)是從目標(biāo)Web文檔中得到數(shù)據(jù)，值得注意的是有時(shí)信息資源不僅限于在線Web文檔，還包括電子郵件、電子文檔、新聞組，或者網(wǎng)站的日志數(shù)據(jù)甚至是通過Web形成的交易數(shù)據(jù)庫(kù)中的數(shù)據(jù)。
b．信息選擇和預(yù)處理：任務(wù)是從取得的Web資源中剔除無(wú)用信息和將信息進(jìn)行必要的整理。例如從Web文檔中自動(dòng)去除廣告連接、去除多余格式標(biāo)記、自動(dòng)識(shí)別段落或者字段并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關(guān)系表。
c．歸類：在同一個(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行自動(dòng)進(jìn)行通用模式發(fā)現(xiàn)。
d．模式分析：驗(yàn)證、解釋上一步驟產(chǎn)生的模式。可以是機(jī)器自動(dòng)完成，也可以是與分析人員進(jìn)行交互來完成。

Web 挖掘涉及到從web數(shù)據(jù) 發(fā)現(xiàn)潛在的有用的或沒用的信息或知識(shí)的所有過程，它隱含的實(shí)現(xiàn)了數(shù)據(jù)知識(shí)發(fā)現(xiàn)的標(biāo)準(zhǔn)處理過程(KDD)[43]，可以看作是KDD在web數(shù)據(jù)上的應(yīng)用擴(kuò)展。目前，研究人員將web挖掘分為三個(gè)大類[2，3]：

a. web 內(nèi)容挖掘。它應(yīng)用數(shù)據(jù)挖掘的技術(shù)來挖掘發(fā)布在因特網(wǎng)上資源的內(nèi)容，通常是html文件（半結(jié)構(gòu)化的），無(wú)格式文本和xml文檔（結(jié)構(gòu)化的）。

b．web 結(jié)構(gòu)挖掘依靠web的超鏈接結(jié)構(gòu)。這種圖形結(jié)構(gòu)可以提供關(guān)于page rank的信息[4]或權(quán)威性[5] ，通過過濾能提高搜索的結(jié)果。

c. web用法挖掘分析用戶和web服務(wù)器的互操作結(jié)果，包括 web日志，點(diǎn)擊流和數(shù)據(jù)庫(kù)事務(wù)等。Web用法挖掘涉及到了隱私的問題現(xiàn)在引起了不少的爭(zhēng)論。

Fabrizio Sebastini[6]和Soumen Chakrabarti[7] 詳細(xì)的探討了web 內(nèi)容挖掘的技術(shù) Furnkranz 則對(duì)web結(jié)構(gòu)挖掘進(jìn)行了總結(jié)工作

3．現(xiàn)狀評(píng)述

Web內(nèi)容挖掘和結(jié)構(gòu)挖掘中，工作多集中在如下：

把web看作是一個(gè)數(shù)據(jù)庫(kù)，數(shù)據(jù)庫(kù)領(lǐng)域的早期研究工作集中在web的層次觀點(diǎn)，在半結(jié)構(gòu)化的web上層置一層包含某些相關(guān)語(yǔ)義信息的抽象層，weblog[10]和webSql[11]正是這種基于數(shù)據(jù)庫(kù)的方法，在這個(gè)領(lǐng)域，最近大部分的工作重點(diǎn)在實(shí)現(xiàn)語(yǔ)義web。

文檔分類同樣是當(dāng)前一個(gè)研究的熱點(diǎn)問題，早期的文檔分類工作是把文本挖掘技術(shù)直接到web數(shù)據(jù)上，但是后期的研究工作表明：充分利用web的圖形結(jié)構(gòu)或以html為表現(xiàn)形式的半結(jié)構(gòu)化內(nèi)容，有助于提高分類的結(jié)果[14]，Google新聞（http://new.google.com）便是從當(dāng)前的新聞信息中自動(dòng)的聚合分類的.

網(wǎng)頁(yè)權(quán)重問題。Larry Page和他的同事提出了pagerank[4],并通過google的搜尋引擎的成功運(yùn)用推廣流行，利用pagerank 爬蟲能提前計(jì)算出網(wǎng)頁(yè)的排序，并將其結(jié)果返回，網(wǎng)頁(yè)的pagerank的計(jì)算是基于該網(wǎng)頁(yè)對(duì)其他網(wǎng)頁(yè)的鏈接度。Sepandar Kamwar[14]對(duì)基本的pagerank算法進(jìn)行了改進(jìn)，對(duì)計(jì)算量代價(jià)有明顯的提高。但這種基本的方法并沒有考慮到鏈接的語(yǔ)義。聰明的做法就是利用網(wǎng)頁(yè)的內(nèi)容來進(jìn)行評(píng)定。對(duì)那些與查詢相似的鏈接給與更高的權(quán)重。Soumen Chakrabarti正是基于這種考慮提出了改進(jìn)的算法[14]。實(shí)驗(yàn)結(jié)果表明，這種改進(jìn)比同等方法相比，效果有明顯提高。

Web用法挖掘在電子商務(wù)有許多的應(yīng)用，包括：個(gè)性化，交通分析和針對(duì)性廣告等。圖形化分析工具如webviz[15]的發(fā)展使得web事務(wù)的挖掘流行起來。這個(gè)領(lǐng)域中的主要工作是web日志數(shù)據(jù)的預(yù)處理和從處理的數(shù)據(jù)中發(fā)現(xiàn)有用模式[16，17]。Etzioni[19]將web用法挖掘用在飛機(jī)票的購(gòu)買應(yīng)用上。其方法是根據(jù)時(shí)間挖掘出網(wǎng)上可用的飛機(jī)票價(jià)格以此來推薦用戶在最合適的時(shí)間來購(gòu)票。Web用法挖掘還涉及到個(gè)人的隱私問題，不再敘述。

當(dāng)前一個(gè)一個(gè)比較新的課題是語(yǔ)義web 挖掘，在語(yǔ)義網(wǎng)中，向web資源中添加語(yǔ)義，是通過添加基于本體的注解來實(shí)現(xiàn)的，但不能寄希望于人工手動(dòng)完成，因?yàn)檫@雖然簡(jiǎn)單但卻不不能擴(kuò)展。因此我們必須通過本體學(xué)習(xí)，匹配，歸并和實(shí)例學(xué)習(xí)來自動(dòng)實(shí)現(xiàn)注解。語(yǔ)義網(wǎng)和web 挖掘相互促進(jìn)，web 挖掘能促進(jìn)語(yǔ)義網(wǎng)的出現(xiàn)，而語(yǔ)義網(wǎng)則使得web 挖掘的效率更高。 4．發(fā)展前景預(yù)測(cè)

根據(jù)目前的研究狀況預(yù)測(cè),今后幾年Web 挖掘研究的主要方向可能會(huì)有:

1) 在數(shù)據(jù)預(yù)處理方面,多種Web 數(shù)據(jù)的收集、結(jié)構(gòu)轉(zhuǎn)換等處理技術(shù)的研究 ;
2) Web 挖掘方法和模式識(shí)別技術(shù)在構(gòu)造自適應(yīng)站點(diǎn)以及智能站點(diǎn)服務(wù)的個(gè)性化和性能優(yōu)化方面的研究;
3) Web 知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)、更新,各種知識(shí)和模式的評(píng)價(jià)綜合方法的研究;
4) 基于Web 挖掘和信息檢索的,高效的、具有自動(dòng)導(dǎo)航功能的智能搜索引擎相關(guān)技術(shù)的研究;
5) 半結(jié)構(gòu)、結(jié)構(gòu)的文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)的高效挖掘算法;
6) 研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化;
7) 研究和開發(fā)基于Web 的多層數(shù)據(jù)體系結(jié)構(gòu)和智能集成系統(tǒng),提供相應(yīng)的查詢語(yǔ)言,優(yōu)化和維護(hù)機(jī)制;
8) 現(xiàn)有的數(shù)據(jù)挖掘方法與技術(shù)的改進(jìn)及其向Web 數(shù)據(jù)的擴(kuò)展,挖掘算法的適應(yīng)性和時(shí)效性的研究;
9) Web 文檔內(nèi)的模式發(fā)現(xiàn)及其在信息提取、文本分析中的應(yīng)用研究等;
10) Web 挖掘的相關(guān)技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用研究等。

5．小結(jié)

不難看出 web 挖掘牽扯到太多的諸如信息檢索信息抽取數(shù)據(jù)挖掘人工智能等技術(shù)，現(xiàn)在的掌握的技術(shù)和時(shí)間來看，從其中的某一個(gè)點(diǎn)選則突破比較好。我比較傾向于web數(shù)據(jù)的收集工作。.................

網(wǎng)頁(yè)的自動(dòng)聚合分類，向網(wǎng)頁(yè)自動(dòng)添加標(biāo)注使其體現(xiàn)語(yǔ)義的特征，都可以作為研究方向進(jìn)行下去。

6．參考文獻(xiàn)

posted @ 2007-06-04 10:44 Gridking 閱讀(572) | 評(píng)論 (0) | 編輯收藏