Gridking
          過深巷,駐門廊,天公欲斷腸,為瑣事黯然神傷。 眼過窗,還流浪,曲終須更張,任瞼婆娑卻彷徨。 看牛郎,獨(dú)惆悵,一碗孟婆湯,與緣商榷將情忘! 枉思量,兩茫茫,半盞曳星光,三杯咖啡未曾糖!
          posts - 4,comments - 0,trackbacks - 0
          <2007年6月>
          272829303112
          3456789
          10111213141516
          17181920212223
          24252627282930
          1234567

          常用鏈接

          留言簿(3)

          隨筆分類(4)

          隨筆檔案(4)

          最新隨筆

          搜索

          •  

          積分與排名

          • 積分 - 5616
          • 排名 - 2976

          最新評(píng)論

          閱讀排行榜

          評(píng)論排行榜

          1.引言

            Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得,正是鑒于這種,現(xiàn)在的用戶面臨著信息過載的問題[86],現(xiàn)在的信息用戶在與web交互時(shí)存在著如下的問題:

          (a.)  發(fā)現(xiàn)相關(guān)信息。當(dāng)用戶想在web上查找特定信息而使用搜索服務(wù)時(shí),他會(huì)發(fā)現(xiàn)查詢的結(jié)果大部分是不相關(guān)的東西。當(dāng)前的搜索存在著第準(zhǔn)確度和低召回率等問題[20]。(b) 在可用的web信息的基礎(chǔ)上生成知識(shí)。這可以看作是上個(gè)問題的子問題,一些研究[34,85,29] 側(cè)重于把web用作決策的知識(shí)庫(kù)。(c.) 信息顯示的個(gè)性化。(d.) 個(gè)性化用戶的學(xué)習(xí)。這實(shí)際上是上一個(gè)問題的特定子問題。

          而 web 挖掘則能直接或間接的解決上述問題。Web挖掘指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個(gè)研究領(lǐng)域,包括數(shù)據(jù)庫(kù)技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。

          2.歷史發(fā)展

          Web mining,這個(gè)術(shù)語(yǔ)是Oren Etzioni,[1]于1996年正式提出來的,這個(gè)概念提出來以后,很多研究人員在他們的文章用它來指代不同的含義, Jaideep Srivastava[2]和他的同事的定義為:web 挖掘是利用數(shù)據(jù)挖掘的技術(shù)從web 文檔或服務(wù)上自動(dòng)的發(fā)現(xiàn)和抽取信息。根據(jù)Etzioni[41] ,web 挖掘可以分解為四個(gè)子任務(wù):

          a. 查找資源:任務(wù)是從目標(biāo)Web文檔中得到數(shù)據(jù),值得注意的是有時(shí)信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網(wǎng)站的日志數(shù)據(jù)甚至是通過Web形成的交易數(shù)據(jù)庫(kù)中的數(shù)據(jù)。
          b.信息選擇和預(yù)處理:任務(wù)是從取得的Web資源中剔除無(wú)用信息和將信息進(jìn)行必要的整理。例如從Web文檔中自動(dòng)去除廣告連接、去除多余格式標(biāo)記、自動(dòng)識(shí)別段落或者字段并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關(guān)系表。
          c.歸類:在同一個(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行自動(dòng)進(jìn)行通用模式發(fā)現(xiàn)。
          d.模式分析:驗(yàn)證、解釋上一步驟產(chǎn)生的模式。可以是機(jī)器自動(dòng)完成,也可以是與分析人員進(jìn)行交互來完成。

           Web 挖掘涉及到 從web數(shù)據(jù) 發(fā)現(xiàn)潛在的有用的或沒用的信息或知識(shí)的所有過程,它隱含的實(shí)現(xiàn)了數(shù)據(jù)知識(shí)發(fā)現(xiàn)的標(biāo)準(zhǔn)處理過程(KDD)[43],可以看作是KDD在web數(shù)據(jù)上的應(yīng)用擴(kuò)展。目前,研究人員將web挖掘分為三個(gè)大類[2,3]:

          a. web 內(nèi)容挖掘。它應(yīng)用數(shù)據(jù)挖掘的技術(shù)來挖掘發(fā)布在因特網(wǎng)上資源的內(nèi)容,通常是html文件(半結(jié)構(gòu)化的),無(wú)格式文本和xml文檔(結(jié)構(gòu)化的)。

          b.web 結(jié)構(gòu)挖掘依靠web的超鏈接結(jié)構(gòu)。這種圖形結(jié)構(gòu)可以提供關(guān)于page rank的信息[4]或權(quán)威性[5] ,通過過濾能提高搜索的結(jié)果。

          c. web用法挖掘 分析用戶和web服務(wù)器的互操作結(jié)果,包括 web日志,點(diǎn)擊流和數(shù)據(jù)庫(kù)事務(wù)等。Web用法挖掘涉及到了隱私的問題現(xiàn)在引起了不少的爭(zhēng)論。

          Fabrizio Sebastini[6]和Soumen Chakrabarti[7] 詳細(xì)的探討了web 內(nèi)容挖掘的技術(shù) Furnkranz 則對(duì)web結(jié)構(gòu)挖掘進(jìn)行了總結(jié)工作

          3.現(xiàn)狀評(píng)述

               Web內(nèi)容挖掘和結(jié)構(gòu)挖掘中,工作多集中在如下:

           把web看作是一個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)領(lǐng)域的早期研究工作集中在web的層次觀點(diǎn),在半結(jié)構(gòu)化的web上層置一層包含某些相關(guān)語(yǔ)義信息的抽象層,weblog[10]和webSql[11]正是這種基于數(shù)據(jù)庫(kù)的方法,在這個(gè)領(lǐng)域,最近大部分的工作重點(diǎn)在實(shí)現(xiàn)語(yǔ)義web。

          文檔分類同樣是當(dāng)前一個(gè)研究的熱點(diǎn)問題,早期的文檔分類工作是把文本挖掘技術(shù)直接到web數(shù)據(jù)上,但是后期的研究工作表明:充分利用web的圖形結(jié)構(gòu)或以html為表現(xiàn)形式的半結(jié)構(gòu)化內(nèi)容,有助于提高分類的結(jié)果[14],Google新聞(http://new.google.com)便是從當(dāng)前的新聞信息中自動(dòng)的聚合分類的.

           網(wǎng)頁(yè)權(quán)重問題。Larry Page和他的同事提出了pagerank[4],并通過google的搜尋引擎的成功運(yùn)用推廣流行,利用pagerank 爬蟲能提前計(jì)算出網(wǎng)頁(yè)的排序,并將其結(jié)果返回,網(wǎng)頁(yè)的pagerank的計(jì)算是基于該網(wǎng)頁(yè)對(duì)其他網(wǎng)頁(yè)的鏈接度。Sepandar Kamwar[14]對(duì)基本的pagerank算法進(jìn)行了改進(jìn),對(duì)計(jì)算量代價(jià)有明顯的提高。但這種基本的方法并沒有考慮到鏈接的語(yǔ)義。聰明的做法就是利用網(wǎng)頁(yè)的內(nèi)容來進(jìn)行評(píng)定。對(duì)那些與查詢相似的鏈接給與更高的權(quán)重。Soumen Chakrabarti正是基于這種考慮提出了改進(jìn)的算法[14]。實(shí)驗(yàn)結(jié)果表明,這種改進(jìn)比同等方法相比,效果有明顯提高。

           Web用法挖掘在電子商務(wù)有許多的應(yīng)用,包括:個(gè)性化,交通分析和針對(duì)性廣告等。圖形化分析工具如webviz[15]的發(fā)展使得web事務(wù)的挖掘流行起來。這個(gè)領(lǐng)域中的主要工作是web日志數(shù)據(jù)的預(yù)處理和從處理的數(shù)據(jù)中發(fā)現(xiàn)有用模式[16,17]。Etzioni[19]將web用法挖掘用在飛機(jī)票的購(gòu)買應(yīng)用上。其方法是根據(jù)時(shí)間挖掘出網(wǎng)上可用的飛機(jī)票價(jià)格以此來推薦用戶在最合適的時(shí)間來購(gòu)票。Web用法挖掘還涉及到個(gè)人的隱私問題,不再敘述。

             當(dāng)前一個(gè)一個(gè)比較新的課題是語(yǔ)義web 挖掘,在語(yǔ)義網(wǎng)中,向web資源中添加語(yǔ)義,是通過添加基于本體的注解來實(shí)現(xiàn)的,但不能寄希望于人工手動(dòng)完成,因?yàn)檫@雖然簡(jiǎn)單但卻不不能擴(kuò)展。因此我們必須通過本體學(xué)習(xí),匹配,歸并和實(shí)例學(xué)習(xí)來自動(dòng)實(shí)現(xiàn)注解。語(yǔ)義網(wǎng)和web 挖掘相互促進(jìn),web 挖掘能促進(jìn)語(yǔ)義網(wǎng)的出現(xiàn),而語(yǔ)義網(wǎng)則使得web 挖掘的效率更高。  4.發(fā)展前景預(yù)測(cè)

          根據(jù)目前的研究狀況預(yù)測(cè),今后幾年Web 挖掘研究的主要方向可能會(huì)有:

             1) 在數(shù)據(jù)預(yù)處理方面,多種Web 數(shù)據(jù)的收集、結(jié)構(gòu)轉(zhuǎn)換等處理技術(shù)的研究 ;
          2) Web 挖掘方法和模式識(shí)別技術(shù)在構(gòu)造自適應(yīng)站點(diǎn)以及智能站點(diǎn)服務(wù)的個(gè)性化和性能優(yōu)化方面的研究;
          3) Web 知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)、更新,各種知識(shí)和模式的評(píng)價(jià)綜合方法的研究;
          4) 基于Web 挖掘和信息檢索的,高效的、具有自動(dòng)導(dǎo)航功能的智能搜索引擎相關(guān)技術(shù)的研究;
          5) 半結(jié)構(gòu)、結(jié)構(gòu)的文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)的高效挖掘算法;
          6) 研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化;
          7) 研究和開發(fā)基于Web 的多層數(shù)據(jù)體系結(jié)構(gòu)和智能集成系統(tǒng),提供相應(yīng)的查詢語(yǔ)言,優(yōu)化和維護(hù)機(jī)制;
          8) 現(xiàn)有的數(shù)據(jù)挖掘方法與技術(shù)的改進(jìn)及其向Web 數(shù)據(jù)的擴(kuò)展,挖掘算法的適應(yīng)性和時(shí)效性的研究;
          9) Web 文檔內(nèi)的模式發(fā)現(xiàn)及其在信息提取、文本分析中的應(yīng)用研究等;
          10) Web 挖掘的相關(guān)技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用研究等 。

          5.小結(jié)

            不難看出 web 挖掘牽扯到太多的諸如信息檢索 信息抽取 數(shù)據(jù)挖掘 人工智能等技術(shù),現(xiàn)在的掌握的技術(shù)和時(shí)間來看,從其中的某一個(gè)點(diǎn)選則突破比較好。我比較傾向于web數(shù)據(jù)的收集工作。.................

           網(wǎng)頁(yè)的自動(dòng)聚合分類,向網(wǎng)頁(yè)自動(dòng)添加標(biāo)注使其體現(xiàn)語(yǔ)義的特征,都可以作為研究方向進(jìn)行下去。

          6.參考文獻(xiàn)




          posted @ 2007-06-04 10:44 Gridking 閱讀(572) | 評(píng)論 (0)編輯 收藏

          您是第Free Web Counters位訪客
          Online Dating Service
          主站蜘蛛池模板: 延川县| 松江区| 郸城县| 隆林| 恩施市| 山西省| 河曲县| 荥经县| 土默特右旗| 锡林浩特市| 新化县| 左贡县| 临泽县| 玉门市| 房产| 芷江| 浑源县| 黄陵县| 郴州市| 潍坊市| 兴安盟| 介休市| 青河县| 黑水县| 黑龙江省| 天镇县| 普格县| 长治市| 永寿县| 高密市| 报价| 胶州市| 白朗县| 舟山市| 万宁市| 克拉玛依市| 龙口市| 西平县| 卫辉市| 郸城县| 阳谷县|