1.引言
Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得,正是鑒于這種,現(xiàn)在的用戶面臨著信息過載的問題[86],現(xiàn)在的信息用戶在與web交互時(shí)存在著如下的問題:
(a.) 發(fā)現(xiàn)相關(guān)信息。當(dāng)用戶想在web上查找特定信息而使用搜索服務(wù)時(shí),他會(huì)發(fā)現(xiàn)查詢的結(jié)果大部分是不相關(guān)的東西。當(dāng)前的搜索存在著第準(zhǔn)確度和低召回率等問題[20]。(b) 在可用的web信息的基礎(chǔ)上生成知識(shí)。這可以看作是上個(gè)問題的子問題,一些研究[34,85,29] 側(cè)重于把web用作決策的知識(shí)庫(kù)。(c.) 信息顯示的個(gè)性化。(d.) 個(gè)性化用戶的學(xué)習(xí)。這實(shí)際上是上一個(gè)問題的特定子問題。
而 web 挖掘則能直接或間接的解決上述問題。Web挖掘指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個(gè)研究領(lǐng)域,包括數(shù)據(jù)庫(kù)技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。
2.歷史發(fā)展
Web
mining,這個(gè)術(shù)語(yǔ)是Oren Etzioni,[1]于1996年正式提出來的,這個(gè)概念提出來以后,很多研究人員在他們的文章用它來指代不同的含義, Jaideep Srivastava[2]和他的同事的定義為:web 挖掘是利用數(shù)據(jù)挖掘的技術(shù)從web 文檔或服務(wù)上自動(dòng)的發(fā)現(xiàn)和抽取信息。根據(jù)Etzioni[41] ,web 挖掘可以分解為四個(gè)子任務(wù):
a. 查找資源:任務(wù)是從目標(biāo)Web文檔中得到數(shù)據(jù),值得注意的是有時(shí)信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網(wǎng)站的日志數(shù)據(jù)甚至是通過Web形成的交易數(shù)據(jù)庫(kù)中的數(shù)據(jù)。
b.信息選擇和預(yù)處理:任務(wù)是從取得的Web資源中剔除無(wú)用信息和將信息進(jìn)行必要的整理。例如從Web文檔中自動(dòng)去除廣告連接、去除多余格式標(biāo)記、自動(dòng)識(shí)別段落或者字段并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關(guān)系表。
c.歸類:在同一個(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行自動(dòng)進(jìn)行通用模式發(fā)現(xiàn)。
d.模式分析:驗(yàn)證、解釋上一步驟產(chǎn)生的模式。可以是機(jī)器自動(dòng)完成,也可以是與分析人員進(jìn)行交互來完成。
Web 挖掘涉及到 從web數(shù)據(jù) 發(fā)現(xiàn)潛在的有用的或沒用的信息或知識(shí)的所有過程,它隱含的實(shí)現(xiàn)了數(shù)據(jù)知識(shí)發(fā)現(xiàn)的標(biāo)準(zhǔn)處理過程(KDD)[43],可以看作是KDD在web數(shù)據(jù)上的應(yīng)用擴(kuò)展。目前,研究人員將web挖掘分為三個(gè)大類[2,3]:
a.
web 內(nèi)容挖掘。它應(yīng)用數(shù)據(jù)挖掘的技術(shù)來挖掘發(fā)布在因特網(wǎng)上資源的內(nèi)容,通常是html文件(半結(jié)構(gòu)化的),無(wú)格式文本和xml文檔(結(jié)構(gòu)化的)。
b.web 結(jié)構(gòu)挖掘依靠web的超鏈接結(jié)構(gòu)。這種圖形結(jié)構(gòu)可以提供關(guān)于page rank的信息[4]或權(quán)威性[5]
,通過過濾能提高搜索的結(jié)果。
c.
web用法挖掘 分析用戶和web服務(wù)器的互操作結(jié)果,包括 web日志,點(diǎn)擊流和數(shù)據(jù)庫(kù)事務(wù)等。Web用法挖掘涉及到了隱私的問題現(xiàn)在引起了不少的爭(zhēng)論。
Fabrizio
Sebastini[6]和Soumen
Chakrabarti[7] 詳細(xì)的探討了web 內(nèi)容挖掘的技術(shù) Furnkranz 則對(duì)web結(jié)構(gòu)挖掘進(jìn)行了總結(jié)工作
3.現(xiàn)狀評(píng)述
Web內(nèi)容挖掘和結(jié)構(gòu)挖掘中,工作多集中在如下:
把web看作是一個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)領(lǐng)域的早期研究工作集中在web的層次觀點(diǎn),在半結(jié)構(gòu)化的web上層置一層包含某些相關(guān)語(yǔ)義信息的抽象層,weblog[10]和webSql[11]正是這種基于數(shù)據(jù)庫(kù)的方法,在這個(gè)領(lǐng)域,最近大部分的工作重點(diǎn)在實(shí)現(xiàn)語(yǔ)義web。
文檔分類同樣是當(dāng)前一個(gè)研究的熱點(diǎn)問題,早期的文檔分類工作是把文本挖掘技術(shù)直接到web數(shù)據(jù)上,但是后期的研究工作表明:充分利用web的圖形結(jié)構(gòu)或以html為表現(xiàn)形式的半結(jié)構(gòu)化內(nèi)容,有助于提高分類的結(jié)果[14],Google新聞(http://new.google.com)便是從當(dāng)前的新聞信息中自動(dòng)的聚合分類的.
網(wǎng)頁(yè)權(quán)重問題。Larry Page和他的同事提出了pagerank[4],并通過google的搜尋引擎的成功運(yùn)用推廣流行,利用pagerank 爬蟲能提前計(jì)算出網(wǎng)頁(yè)的排序,并將其結(jié)果返回,網(wǎng)頁(yè)的pagerank的計(jì)算是基于該網(wǎng)頁(yè)對(duì)其他網(wǎng)頁(yè)的鏈接度。Sepandar Kamwar[14]對(duì)基本的pagerank算法進(jìn)行了改進(jìn),對(duì)計(jì)算量代價(jià)有明顯的提高。但這種基本的方法并沒有考慮到鏈接的語(yǔ)義。聰明的做法就是利用網(wǎng)頁(yè)的內(nèi)容來進(jìn)行評(píng)定。對(duì)那些與查詢相似的鏈接給與更高的權(quán)重。Soumen Chakrabarti正是基于這種考慮提出了改進(jìn)的算法[14]。實(shí)驗(yàn)結(jié)果表明,這種改進(jìn)比同等方法相比,效果有明顯提高。
Web用法挖掘在電子商務(wù)有許多的應(yīng)用,包括:個(gè)性化,交通分析和針對(duì)性廣告等。圖形化分析工具如webviz[15]的發(fā)展使得web事務(wù)的挖掘流行起來。這個(gè)領(lǐng)域中的主要工作是web日志數(shù)據(jù)的預(yù)處理和從處理的數(shù)據(jù)中發(fā)現(xiàn)有用模式[16,17]。Etzioni[19]將web用法挖掘用在飛機(jī)票的購(gòu)買應(yīng)用上。其方法是根據(jù)時(shí)間挖掘出網(wǎng)上可用的飛機(jī)票價(jià)格以此來推薦用戶在最合適的時(shí)間來購(gòu)票。Web用法挖掘還涉及到個(gè)人的隱私問題,不再敘述。
當(dāng)前一個(gè)一個(gè)比較新的課題是語(yǔ)義web 挖掘,在語(yǔ)義網(wǎng)中,向web資源中添加語(yǔ)義,是通過添加基于本體的注解來實(shí)現(xiàn)的,但不能寄希望于人工手動(dòng)完成,因?yàn)檫@雖然簡(jiǎn)單但卻不不能擴(kuò)展。因此我們必須通過本體學(xué)習(xí),匹配,歸并和實(shí)例學(xué)習(xí)來自動(dòng)實(shí)現(xiàn)注解。語(yǔ)義網(wǎng)和web 挖掘相互促進(jìn),web 挖掘能促進(jìn)語(yǔ)義網(wǎng)的出現(xiàn),而語(yǔ)義網(wǎng)則使得web 挖掘的效率更高。 4.發(fā)展前景預(yù)測(cè)
根據(jù)目前的研究狀況預(yù)測(cè),今后幾年Web 挖掘研究的主要方向可能會(huì)有:
1) 在數(shù)據(jù)預(yù)處理方面,多種Web 數(shù)據(jù)的收集、結(jié)構(gòu)轉(zhuǎn)換等處理技術(shù)的研究 ;
2) Web 挖掘方法和模式識(shí)別技術(shù)在構(gòu)造自適應(yīng)站點(diǎn)以及智能站點(diǎn)服務(wù)的個(gè)性化和性能優(yōu)化方面的研究;
3) Web 知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)、更新,各種知識(shí)和模式的評(píng)價(jià)綜合方法的研究;
4) 基于Web 挖掘和信息檢索的,高效的、具有自動(dòng)導(dǎo)航功能的智能搜索引擎相關(guān)技術(shù)的研究;
5) 半結(jié)構(gòu)、結(jié)構(gòu)的文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)的高效挖掘算法;
6) 研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化;
7) 研究和開發(fā)基于Web 的多層數(shù)據(jù)體系結(jié)構(gòu)和智能集成系統(tǒng),提供相應(yīng)的查詢語(yǔ)言,優(yōu)化和維護(hù)機(jī)制;
8) 現(xiàn)有的數(shù)據(jù)挖掘方法與技術(shù)的改進(jìn)及其向Web 數(shù)據(jù)的擴(kuò)展,挖掘算法的適應(yīng)性和時(shí)效性的研究;
9) Web 文檔內(nèi)的模式發(fā)現(xiàn)及其在信息提取、文本分析中的應(yīng)用研究等;
10) Web 挖掘的相關(guān)技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用研究等 。
5.小結(jié)
不難看出
web 挖掘牽扯到太多的諸如信息檢索 信息抽取 數(shù)據(jù)挖掘 人工智能等技術(shù),現(xiàn)在的掌握的技術(shù)和時(shí)間來看,從其中的某一個(gè)點(diǎn)選則突破比較好。我比較傾向于web數(shù)據(jù)的收集工作。.................
網(wǎng)頁(yè)的自動(dòng)聚合分類,向網(wǎng)頁(yè)自動(dòng)添加標(biāo)注使其體現(xiàn)語(yǔ)義的特征,都可以作為研究方向進(jìn)行下去。
6.參考文獻(xiàn)
posted @
2007-06-04 10:44 Gridking 閱讀(572) |
評(píng)論 (0) |
編輯 收藏