第一章
????????
導論
|
?
信息抽取(
Information Extraction: IE
)的目標是把文本里包含的信息進行結構化處理,變成表格一樣的組織形式。輸入信息抽取系統(tǒng)的是原始文本,輸出的是固定格式的信息點。信息點從各種各樣的文檔中被抽取出來,然后以統(tǒng)一的形式集成在一起。這就是信息抽取的主要任務。
信息以統(tǒng)一的形式集成在一起的好處是方便檢查和比較。例如比較不同的招聘和商品信息。還有一個好處是能對數據作自動化處理。例如用數據挖掘方法發(fā)現和解釋數據模型。
信息抽取技術并不試圖全面理解整篇文檔,只是對文檔中包含相關信息的部分進行分析。至于哪些信息是相關的,那將由系統(tǒng)設計時定下的領域范圍而定。
信息抽取技術對于從大量的文檔中抽取需要的特定事實來說是非常有用的。互聯網上就存在著這么一個文檔庫。在網上,同一主題的信息通常分散存放在不同網站上,表現的形式也各不相同。若能將這些信息收集在一起,用結構化形式儲存,那將是有益的。
由于網上的信息載體主要是文本,所以,信息抽取技術對于那些把因特網當成是知識來源的人來說是至關重要的。信息抽取系統(tǒng)可以看作是把信息從不同文檔中轉換成數據庫記錄的系統(tǒng)。因此,成功的信息抽取系統(tǒng)將把互聯網變成巨大的數據庫!
信息抽取技術是近十年來發(fā)展起來的新領域,遇到許多新的挑戰(zhàn)。
本文首先在第二章簡要介紹信息抽取技術,第三章介紹網頁分裝器
(wrapper)
的開發(fā),第四章介紹已經開發(fā)出來的網站信息抽取系統(tǒng),第五章介紹信息抽取技術的應用范圍以及首批已經進入商業(yè)運作的商用系統(tǒng)。
|
第二章
????????
?
信息抽取技術概述
|
信息抽取原來的目標是從自然語言文檔中找到特定的信息,是自然語言處理領域特別有用的一個子領域。所開發(fā)的信息抽取系統(tǒng)既能處理含有表格信息的結構化文本,又能處理自由式文本(如新聞報道)。
IE
系統(tǒng)中的關鍵組成部分是一系列的抽取規(guī)則或模式,其作用是確定需要抽取的信息
[52]
。網上文本信息的大量增加導致這方面的研究得到高度重視。
本章首先介紹信息抽取領域的發(fā)展。第
2.1.
節(jié)比較了信息抽取和信息檢索的區(qū)別;第
2.2.
節(jié)介紹
IE
的歷史。接下來兩節(jié)解釋評價
IE
系統(tǒng)的指標和常用的兩派技術方法。信息抽取技術所處理的文本類型將在第
2.5.
節(jié)中說明。第
2.6.
節(jié)描述信息抽取技術可利用的網頁特征。
第2.1.節(jié)
?????????
IR
和
IE
IR
的目的是根用戶的查詢請求從文檔庫中找出相關的文檔。用戶必須從找到的文檔中翻閱自己所要的信息。
就其目的而言,
IR
和
IE
的不同可表達如下:
IR
從文檔庫中檢索相關的文檔,而
IE
是從文檔中取出相關信息點。這兩種技術因此是互補的。若結合起來可以為文本處理提供強大的工具
[24]
。
IR
和
IE
不單在目的上不同,而且使用的技術路線也不同。部分原因是因為其目的差異,另外還因為它們的發(fā)展歷史不同。多數
IE
的研究是從以規(guī)則為基礎的計算語言學和自然語言處理技術發(fā)源的。而
IR
則更多地受到信息理論、概率理論和統(tǒng)計學的影響
[24]
。
第2.2.節(jié)
?????????
IE
的歷史
自動信息檢索已是一個成熟的學科,其歷史與文檔數據庫的歷史一樣長。但自動信息抽取技術則是近十年來發(fā)展起來的。有兩個因素對其發(fā)展有重要的影響:一是在線和離線文本數量的幾何級增加,另一是“消息理解研討會”(
MUC
)近十幾年來對該領域的關注和推動。
IE
的前身是文本理解。人工智能研究者一直致力于建造能把握整篇文檔的精確內容的系統(tǒng)。這些系統(tǒng)通常只在很窄的知識領域范圍內運行良好,向其他新領域移植的性能卻很差
[53]
。
八十年代以來,美國政府一直支持
MUC
對信息抽取技術進行評測。各屆
MUC
吸引了許多來自不同學術機構和業(yè)界實驗室的研究者參加信息抽取系統(tǒng)競賽。每個參加單位根據預定的知識領域,開發(fā)一個信息抽取系統(tǒng),然后用該系統(tǒng)處理相同的文檔庫。最后用一個官方的評分系統(tǒng)對結果進行打分。
研討會的目的是探求
IE
系統(tǒng)的量化評價體系。在此之前,評價這些系統(tǒng)的方法沒有章法可循,測試也通常在訓練集上進行。
MUC
首次進行了大規(guī)模的自然語言處理系統(tǒng)的評測。如何評價信息抽取系統(tǒng)由此變成重要的問題,評分標準也隨之制定出來。各屆研討會的測試主題各式各樣,包括拉丁美洲恐怖主義活動、合資企業(yè)、微電子技術和公司管理層的人事更迭。
過去五、六年,
IE
研究成果豐碩。英語和日語姓名識別的成功率達到了人類專家的水平。通過
MUC
用現有的技術水平,我們已有能力建造全自動的
IE
系統(tǒng)。在有些任務方面的性能達到人類專家的水平
[53]
。不過自
1993
年以來,每屆最高組別的有些任務,其成績一直沒有提高(但要記住
MUC
的任務一屆比一屆復雜)。一個顯著的進步是,越來越多的機構可以完成最高組別的任務。這要歸公于技術的普及和整合。目前,建造能達到如此高水平的系統(tǒng)需要大量的時間和專業(yè)人員。另外,目前大部分的研究都是圍繞書面文本,而且只有英語和其他幾種主要的語言。
第2.3.節(jié)
?????????
評價指標
信息抽取技術的評測起先采用經典的信息檢索
(IR)
評價指標,即回召率
(Recall)
和查準率
(Precision)
,但稍稍改變了其定義。經修訂后的評價指標可以反映
IE
可能產生的過度概括現象
(Over-generation)
,即數據在輸入中不存在,但卻可能被系統(tǒng)錯誤地產生出來(
Produced
)
[24]
。
就
IE
而言,回召率可粗略地被看成是測量被正確抽取的信息的比例
(fraction)
,而抽準率用來測量抽出的信息中有多少是正確的。計算公式如下:
P=
抽出的正確信息點數
/
所有抽出的信息點數
R=
抽出的正確信息點數
/
所有正確的信息點數
兩者取值在
0
和
1
之間,通常存在反比的關系,即
P
增大會導致
R
減小,反之亦然。
評價一個系統(tǒng)時,應同時考慮
P
和
R
,但同時要比較兩個數值,畢竟不能做到一目了然。許多人提出合并兩個值的辦法。其中包括
F
值評價方法:
其中
這樣用
F
一個數值就可很看出系統(tǒng)的好壞。
第2.4.節(jié)
?????????
IE
系統(tǒng)設計的兩大方法
IE
系統(tǒng)設計主要有兩大方法:一是知識工程方法(
Knowledge Engineering Approach
),二是自動訓練方法
(Automatic Training Approach)
。
知識工程方法主要靠手工編制規(guī)則使系統(tǒng)能處理特定知識領域的信息抽取問題。這種方法要求編制規(guī)則的知識工程師對該知識領域有深入的了解。這樣的人才有時找不到,且開發(fā)的過程可能非常耗時耗力。
自動訓練方法不一定需要如此專業(yè)的知識工程師。系統(tǒng)主要通過學習已經標記好的語料庫獲取規(guī)則。任何對該知識領域比較熟悉的人都可以根據事先約定的規(guī)范標記語料庫。經訓練后的系統(tǒng)能處理沒有見過的新文本。這種方法要比知識工程方法快,但需要足夠數量的訓練數據,才能保證其處理質量。
第2.5.節(jié)
?????????
自由式、結構化和半結構化文本
自由式文本
:信息抽取最初的目的是開發(fā)實用系統(tǒng),從自由文本中析取有限的主要信息。例如,從報道恐怖襲擊活動的新聞中析取襲擊者、所屬組織、地點、受害者等信息;又如,從醫(yī)藥研究報告的摘要中提取新產品、制造商、專利等主要信息點。
處理自由文本的
IE
系統(tǒng)通常使用自然語言處理技巧,其抽取規(guī)則主要建立在詞或詞類間句法關系的基礎上。需要經過的處理步驟包括:句法分析、語義標注、專有對象的識別(如人物、公司)和抽取規(guī)則。規(guī)則可由人工編制,也可從人工標注的語料庫中自動學習獲得。
自由文本信息點抽取技術的現有水平不可與人的能力同日而語,但還是有用的,不管其抽取規(guī)則是人工編制的還是通過機器學習的
[52]
。雖然自然語言理解是漫長的期待,但是,信息抽取技術確實可行,因為這項技術對其需要搜索的模式類型有很強的限定,而這種限定是有根有據的。
結構化文本
:此種文本是一種數據庫里的文本信息,或者是根據事先規(guī)定的嚴格格式生成的文本。從這樣的文本中抽取信息是非常容易的,準確度也高,通過描述其格式即可達到目的。所用的技巧因而相對簡單。
半結構化文本
:這是一種界于自由文本和結構化文本之間的數據,通常缺少語法,象電報報文,也沒有嚴格的格式。用自然語言處理技巧對這樣的文本并不一定有效,因為這種文本通常連完整的句子都沒有。因此,對于半結構化文本不能使用傳統(tǒng)的
IE
技巧,同時,用來處理結構化文本的簡單的規(guī)則處理方法也不能奏效。
在半結構化文本中確實存在一些結構化的信息,但是,抽取模式通常依賴字符和象
html
標記那樣的分隔標志。句法和語義信息的作用則非常有限。
第2.6.節(jié)
?????????
網頁
因特網提供了一個巨大的信息源。這種信息源往往是半結構化的,雖然中間夾雜著結構化和自由文本。網上的信息還是動態(tài)的,包含超鏈接,以不同的形式出現,而且跨網站和平臺,全網共享。因此,因特網是一個特殊的挑戰(zhàn),一直推動著從結構化和半結構化文本中抽取信息的研究向前邁進。
有些研究者把所有網頁都歸入半結構化文本,但
Hsu[31]
對網頁類型做了頗有用的定義:若能通過識別分隔符或信息點順序等固定的格式信息即可把“屬性
-
值”正確抽取出來,那么,該網頁是結構化的。半結構化的網頁則可能包含缺失的屬性,或一個屬性有多個值,或一個屬性有多個變體等例外的情況。若需要用語言學知識才能正確抽取屬性,則該網頁是非結構化的。
網頁的結構化程度總是取決于用戶想要抽取的屬性是什么。通常,機器產生的網頁是非常結構化的,手工編寫的則結構化程度差些,當然有很多例外。
傳統(tǒng)的
NLP
技巧對抽取半結構化文本的信息并不是很有用,因其缺少規(guī)范的語法結構,而且,
NLP
方法的處理速度通常比較慢,這對于網上海量信息來說是一個大問題。
網上大部分內容都以屬性列表的形式呈現,例如很多可搜索的網頁索引。這種外觀上的規(guī)律性可被利用來抽取信息,避免使用復雜的語言學知識。
網頁上的組織結構和超鏈接特性是需要認真考慮的重要因素。例如,可能需要打開鏈接的內容才能找到你想要的信息。網頁的組織結構不同,抽取規(guī)則也不同。
網上數據庫查詢的結果通常是一系列的包含超級鏈接的網頁。文獻
[14]
把這類網頁分成三類:一層一頁,即一個頁面即包含了所有的查詢結果;一層多頁,即需要調出多個鏈接才能獲得所有的結果;兩層頁面,即第一層是列表式條目鏈接,點擊鏈接后才能看到詳細資料。
第2.7.節(jié)
?????????
小結
IE
領域是近十年來新發(fā)展起來的研究領域,一是由于“消息理解研討會”
(MUC)
的推動,二是由于網上內容的大量增加。
IE
對自由文本和結構化文本都能處理。
NLP
技巧通常用于自由文本,對結構化和半結構化文本并不是太適合。相反,基于分隔符和字符的方法更能奏效。
因特網是包含大量半結構化文本的信息源。網頁與傳統(tǒng)的文本相比,有許多特點:量大,常更新,變化多,頁面的一大半包含結構化的文字塊,還可能有超鏈接。因此,網頁為信息抽取研究帶來新的挑戰(zhàn)。
|
第三章
?
分裝器生成
|
第3.1.
節(jié)
???????????????
分裝器
第3.2.
節(jié)
???????????????
從
IE
發(fā)展成
WG
第3.3.
節(jié)
???????????????
分裝器生成
第3.4.
節(jié)
???????????????
分裝器的歸納學習
第3.5.
節(jié)
???????????????
小結
?
各網站的信息內容互相獨立,要收集起來有困難。信息抽取技術就是沖著解決此困難而來的。
因特網上還存在一個被稱為“暗藏網”(
the hidden web
),即那些網上數據庫系統(tǒng)。文獻
[37]
估計因特網上
80%
的內容存在于這種看不見的因特網中。搜索引擎的“網絡爬蟲”抓不到這些網頁。這就意味著需要一種獨立的工具從這些網頁中收集數據。
從網站中抽取信息的工作通常由一種叫做“分裝器”(
Wrapper
,也譯“包裝器”)的程序完成。以下
3.1.
和
3.2.
節(jié)將介紹分裝器的概念及分其生成(
Wrapper Generation, WG
)研究的歷史。第
3.3
節(jié)總結了構造分裝器的不同方法。手工制造分裝器的工作繁重,因此,自動生成的研究變得非常重要。機器學習的方法非常誘人,第
3.4
節(jié)介紹了歸納式學習的相關技巧。
第3.1.節(jié)
???????????????
分裝器
分裝器是一個程序,用于從特定的信息源中抽取相關內容,并以特定形式加以表示。在數據庫環(huán)境下,分裝器是軟件的組成部分,負責把數據和查詢請求從一種模式轉換成另外一種模式。在因特網環(huán)境下,分裝器的目的是把網頁中儲存的信息用結構化的形式儲存起來,以方便進一步的處理。
因特網分裝器可接受針對特定信息源的查詢請求,并從該信息源中找出相關的網頁,然后把需要的信息提取出來返回給用戶。它由一系列的抽取規(guī)則以及應用這些規(guī)則的計算機程序代碼組成。通常,一個分裝器只能處理一種特定的信息源。從幾個不同信息源中抽取信息,需要一系列的分裝器程序庫。分裝器的運行速度應該很快,因為它們要在線處理用戶的提問。它還要能應付網絡經常變化、運行欠穩(wěn)定的特點。比如,網絡連接失敗、文檔格式混亂、格式變化等。
建造針對網頁的分裝器主要有兩個好處:一是提高了從某一特定信息源獲取相關信息的能力,二是能把不同信息源的信息整合到數據庫中,用通用查詢語言即可查找信息。
第3.2.節(jié)
???????????????
從
IE
發(fā)展成
WG
人們需要能從不同網頁資源抽取并整合數據的工具。這種需求造就了分裝器生成研究領域的發(fā)展。分裝器生成(
WG
)領域獨立于傳統(tǒng)的
IE
領域。典型的
WG
應用系統(tǒng)能從網上數據庫返回的查詢結果網頁中抽取數據。這些網頁構成一個被
WG
業(yè)內人稱之為“半結構化”的信息源。為了能把這些網頁的數據整合在一起,必須把相關的信息從這些網頁中抽取出來。因此,分裝器實質上是針對某一特定信息源的
IE
應用系統(tǒng)。
傳統(tǒng)的
IE
系統(tǒng)采用基于句法和語義條件相結合的抽取模式。如前所述,對于半結構化信息源,基于語言知識的模式并不是很管用。典型的
WG
系統(tǒng)生成的是基于分隔符的抽取模式。由于這類網頁均是在一個統(tǒng)一的模板上即時生成的,因此,只要學習了幾個樣本網頁后,系統(tǒng)即能識別分隔符特征串,構成不同的模板區(qū)域。
從網頁中抽取信息并不容易,要考慮許多問題,例如信息量膨脹的問題、系統(tǒng)靈活性的問題等。
第3.3.節(jié)
???????????????
分裝器生成
可用人工或半自動的辦法生成分裝器。手工生成分裝器通常需要編寫專用的代碼,要花很多時間理解文檔的結構并將其轉換成程序代碼。雖然處理半結構化的網頁要容易一些,但并仍然還是比較煩瑣而且容易出錯。
有一些工具可幫助手工生成分裝器。使用的方法之一是利用描述性語法對網頁結構進行描述,并且提供工具生成代碼。不過,編寫語法本身就是一項很艱巨和耗時的工作,而且需要高水平的專家。
手工構造的
IE
系統(tǒng)不能適應處理對象所屬領域的變化。每個領域都要有相應的分裝器,維護成本很高。對于網上信息源來說,這些缺點尤為明顯,因為網頁數量龐大,內容和結構繁雜,而且新的信息源不斷增加,舊的信息還會改變,因此,幫助生成自動抽取網頁信息的分裝器的技術變得非常重要。
半自動化生成分裝器的技術得益于上述分裝器生成的支持工具。一種方法是使用向導讓用戶告訴系統(tǒng)那些信息是需要抽取的。通過圖形界面,用戶即可以通過演示編寫程序,標示出需要抽取的區(qū)域。這意味著在分裝器編碼過程中不需要專業(yè)知識,而且比手工編碼少產生錯誤。但是,用這種方法也需要對新的站點進行重新的學習,因為這種系統(tǒng)不能自己學習新的網站結構,也不能處理舊網站的結構變化。
全自動分裝器的生成利用機器學習的技巧,開發(fā)學習算法,設計出從非常簡單到相對復雜的分裝器。即使是全自動的方法也需要人工專家的少量參與。系統(tǒng)必須通過學習階段,從例子中歸納出規(guī)則。通常,這個過程是由人工指導的。
分裝器歸納法是一種自動構造分裝器的技術。主要思想是用歸納式學習方法生成抽取規(guī)則。用戶在一系列的網頁中標記出需要抽取的數據,系統(tǒng)在這些例子的基礎上歸納出規(guī)則。這些規(guī)則的精確度如何取決于例子的質量如何。如果能代表那些需要處理的網頁,那么,這些例子就是高質量的。
第3.4.節(jié)
???????????????
分裝器的歸納學習
用于
IE
的機器學習方法有很多,如符號化學習法,
ILP
(歸納邏輯設計法),分裝器歸納法,統(tǒng)計法和語法歸納法。在分裝器歸納法中,分裝器的生成被描述成一種歸納學習問題。
在最高層次,歸納學習法是從一些實例中完成未知目標概念的計算任務,是對現象的一種概括。主要思路是,如果歸納出來的規(guī)則能解釋觀察到的實例,或者在新事例出現時能做出準確的預測,那么,這種歸納是成功的。在分類、知識獲取、知識發(fā)現等任務中被證明是有用的。
歸納學習法是通過推論來完成的。推論是一種從部分到整體、從個別到一般、從個體到普遍的推理過程。老師提供幾個實例給學生,學生則從中歸納出普遍適用的規(guī)則。人類的學習是基于實驗性的觀察過程中的,對于我們來說,提供好的觀察事例要比提供明確的完整的規(guī)則要容易。總的說來,歸納式學習法是一種建立在假設的基礎上的研究方法。
有指導的歸納式學習法可以分為兩類:零階
(zero-order)
和一階
(first-order)
學習法。兩者的區(qū)別在于其訓練數據和所形成的理論的表達方式的不同。
零階學習法所采用的事例是事先分好類的。每個事例都由對應于固定屬性集合的特定值描述。這類系統(tǒng)發(fā)展的理論以決策樹(
Decision Tree
)或生成規(guī)則(
Production Rules
)的形式出現,把事例的類和它的屬性值聯系起來。不幸的是,決策樹的學習系統(tǒng)缺少表達能力,因為它們建立在命題邏輯的基礎上,不能學習到對象之間的關系(如家族成員的關系)之類的概念。從數據庫角度看,他們只能處理“屬性
-
值”這種關系。
關系型一階學習法可在帶有結構信息的例子中進行歸納,例如一階邏輯謂詞和函數,無界限結構體(
Unbounded Structures
,如列表,樹)等。尤其是
ILP
方法,專門研究從例子中歸納一階邏輯形式的規(guī)則,邏輯編程的學習以及其他關系型知識。
ILP
的研究介于機器學習和邏輯編程兩種傳統(tǒng)研究領域之間。許多其他的機器學習算法均限定于處理有限的基于特征表達的例子和概念,而不能處理復雜的關系型和遞歸型知識。但
ILP
借助一階邏輯的表達能力,可以學習關系和遞歸概念。
ILP
還可以學習更豐富的表達式和比決策樹更復雜的概念,因此,已應用于解決從包含復雜結構和關系的文檔中抽取信息的學習中。
ILP
算法采用兩種不同的歸納方法:一是自下而上(概括),另一是自上而下(具體化)。自下而上的方法是數據驅動的。先選擇幾個例子,在此基礎上提出一個假設,使之能處理這些例子。然后把這個假設推而廣之,使之能處理其余例子。自上而下的方法則先從最普遍的假設開始,通過引入反例,把假設規(guī)則不斷具體化。總的說來,自上而下算法可以歸納出一大類的邏輯程序,但需要相對多的樣例。而自下而上算法有為數不多的例子就行了,但只能歸納出一小類的程序。
目前已經有了幾個實驗
ILP
系統(tǒng),包括有名的
FOIL[47]
和
GOLEM[39]
。
FOIL
由
Quinlan
于1989年開發(fā),采用自上而下的算法。在一個既有正又有反的事實的訓練集中,先找出一個只覆蓋正例而不涉及反例的邏輯子句
(clause)
,然后把這個子句覆蓋的事實從訓練集中刪除。如此直到訓練集中沒有正例為止。
GOLEM
(
Muggleton and Feng 1990
)采用貪婪覆蓋算法(
Greedy Covering Algorithm
)。子句的生成是自下而上的,建立在更多具體子句的“最少概括”(
least-general
)的概括生成上。概括一直進行直到所有的正例都被覆蓋而無一個反例被涉及。
第3.5.節(jié)
???????????????
小結
可以預計,網上結構化信息將不斷增加。通過查詢網上數據庫所獲得的網頁也將不斷增加。這些網頁是無法讓搜索引擎獲取的。因此,越來越需要可以把相關信息從這些網頁中抽取出來的工具。
分裝器是專門從特定信息源中抽取需要的信息并返回結果的程序。對于從不同信息源中整合信息資料是非常有用的。由于這種需求不斷增加,分裝器生成的研究領域從傳統(tǒng)的
IE
領域中脫穎而出。相比之下,生成分裝器所采用的技術比較少依賴句子的全面語法分析和
NLP
技術。
分裝器可由程序員直接編寫,或手工指定網站結構再由程序自動生成規(guī)則和代碼。無論是哪種情況,這個過程都是費時費力的,而且網頁的結構經常變化,新網頁層出不窮。這樣,必須建造新的分裝器。為此,網上信息抽取的研究轉向了半自動和自動生成分裝器的工作上。
分裝器歸納法是用機器學習方法自動生成分裝器的方法。在歸納法中,分裝器的生成被看成是歸納學習的問題,其任務是從一組例子中計算出一般規(guī)則,以解釋觀察到的事實。教師提供例子,學生在例子的基礎上作出歸納,推導出規(guī)則。
歸納邏輯編程方法處于傳統(tǒng)的機器學習領域和邏輯編程之間,使用一階邏輯規(guī)則。得益于一階邏輯豐富的表達能力,
ILP
方法可以學習關系型和嵌套概念。這是大多數基于“屬性
-
值”表達方式的機器學習算法所無法達到的。
ILP
方法為此被應用到學習如何從復雜結構和關系的文檔中抽取信息。
|
第四章
????????
分裝器生成系統(tǒng)簡介
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
第
4.1.
節(jié)
???????
處理結構化和半結構化網頁的系統(tǒng)
...
第
4.1.3.
節(jié)
???? SoftMealy.
第
4.2.
節(jié)
???????
處理半結構化和非結構化網頁的系統(tǒng)
...
早期從網站上抽取信息的方法基本上是基于手工操作的。程序員認真研究網站的結構后手工編寫代碼,開發(fā)一個分裝器程序,把網頁的邏輯特征抽取出來并把他們存入到數據庫。
TSIMMIS[13
,
25
,
28
,
29]
系統(tǒng)和“斯坦福
-IBM
多信息源管理系統(tǒng)(
1995
)”是比較早的幫助建造分裝器程序的框架系統(tǒng)。
TSIMMIS
的目標是以一體化的方式獲取不同信息源的信息并且保證所獲取信息一致性。其重點是開發(fā)支持這種包裝過程的語言和工具。
對于數據量大,結構動態(tài)變化的網站而言,需要一種更為有效的分裝器建造方法。一般說來,數據庫領域的人把注意力放在錯綜復雜的信息如何進行整合,分裝器則用手工建造。另一方面,
AI
領域的人則把重點放在機器學習的方法如何能用在網站結構的自動學習上。本章將重點介紹分裝器的自動或半自動的生成系統(tǒng)。
分裝器及其自動生成的復雜度和難易度將取決于網站結構的層次。第
4 .1.
節(jié)介紹的系統(tǒng)主要是針對結構化程度相對好的網站。這類系統(tǒng)多數是源自分裝器生成領域的研究者。第
4.2.
節(jié)介紹了能處理結構缺少規(guī)范化的網頁。這類系統(tǒng)較多地受到傳統(tǒng)的
IE
領域的影響。
第4.1.節(jié)
???????????????
處理結構化和半結構化網頁的系統(tǒng)
本節(jié)介紹
ShopBot, WIEN, SoftMealy
和
STALKER
系統(tǒng)。這類系統(tǒng)可以說是屬于分裝器生成系統(tǒng),專門用來從網站數據庫系統(tǒng)生成的網頁。采用分隔符為主的抽取規(guī)則,無需用到句法和語義知識,局限于處理比較結構化的數據。
第
|
系統(tǒng)
|
結構化
|
半結構化
|
自由式
|
多槽
|
缺失信息
|
次序變化
|
ShopBot |
X |
?
|
?
|
?
|
?
|
?
|
WIEN |
X |
?
|
?
|
X |
?
|
?
|
SoftMealy |
X |
X |
?
|
?
|
X |
X* |
STALKER
|
X
|
X
|
?
|
*
|
X
|
X
|
RAPIER
|
X
|
X
|
?
|
?
|
X
|
X
|
SRV
|
X
|
X
|
?
|
?
|
X
|
X
|
WHISK
|
X
|
X
|
X
|
X
|
X
|
X*
|
第五章
????????
商用系統(tǒng)簡介
|
第
5.1.
節(jié)
???????
應用范圍
...
第
5.2.
節(jié)
???????
商用系統(tǒng)
...
因特網上的海量信息是世界各地的用戶都能獲得的,因此,能幫助完成信息自動收集和分析的代理程序是非常有用的。具有如此技術的應用程序有很多。
本章第
1
節(jié)介紹了信息抽取應用系統(tǒng)已被試用的幾個領域。第
2
節(jié)介紹了首批商用系統(tǒng)。
第5.1.節(jié)
?????????
應用范圍
網上有很多有用的信息,例如電話黃頁、產品目錄、股票行情、天氣預報等。這些信息可能不是由一個網上數據庫提供,而是分散在多個數據庫中。這些數據庫可供用戶輸入關鍵字等查詢條件進行搜索,然后自動生成網頁,把結果顯示出來。
一般說來,把來源分散的數據集中在一起是非常有用的。但是,以瀏覽器為界面的瀏覽方式不直接支持把不同網站的數據集成起來,因此,信息抽取工具便有了用武之地。
前一章節(jié)介紹的系統(tǒng)對幾種不同的網頁信息進行了處理。下面重溫一下其中幾類:
l
??????
產品描述
ShopBot
專為此設計
[17
,
18]
,用于比價購物。所抽取的產品信息按價格排序。
l
??????
餐廳指引
STALKER
被用來抽取不同網站上的餐廳信息,如餐廳名稱、菜肴種類、價格、烹調方法、地址、電話和評價。
[42
,
43]
l
??????
講座通知
SRV
試用在講座信息的抽取任務上,把講者、地點、時間等信息抽取出來。
l
??????
招聘廣告
RAPIER
和
WHISK
被用于招聘廣告的信息抽取。需抽取的信息點包括職位名稱、工資、地點等。
l
??????
人事更迭公告
這項任務需要處理自由式文本,屬于傳統(tǒng)的信息抽取任務。
WHISK
曾被實驗從一堆華爾街金融雜志的文章中分析出公司管理層的人事更迭事件
[52]
。目標是抽取出公司名稱、職位、新任人員的姓名、卸任人的姓名。
以上只是這種技術可發(fā)揮作用的許多應用領域中的很小的一部分。其他還有很多例子,例如,租賃廣告、地理信息、假日旅游信息、天氣預報、參考書目信息等。
總的說來,具有信息抽取和收集功能的代理程序可以用于處理任何列表式的、分散在一堆網頁上的數據。
第5.2.節(jié)
?????????
商用系統(tǒng)
在上節(jié)提到的應用中,比價購物是主要的商用領域之一。其原因之一是近來對電子商務的普遍關注以及因特網上與此相關的應用在不斷增長。
另一原因是這類網上商店網站專門為用戶快速找到商品而設計,具有統(tǒng)一的外觀和風格。這就為比價系統(tǒng)自動處理商品信息帶來了便利。
由于不同商家經常經營同一商品,因此,從不同商家網站中收集并比較同一產品的價格的服務受到網上購物用戶的歡迎。通常,網上商店提供的商品信息是存在數據庫系統(tǒng)中的。用戶需要這些信息時,系統(tǒng)將根據用戶的請求從數據庫中提取數據,當即顯示給用戶。這部分的信息成為了“暗藏網”(
hidden web
),因為搜索引擎查不到這些數據。比價系統(tǒng)成為除手工收集以外的這類信息獲取的唯一途徑。
下面將介紹三種商用比價系統(tǒng):
Junglee
,
Jango
和
MySimon
。它們是市面上最引人注目的系統(tǒng),實現方法各有千秋。
Jango
和
mySimon
用的是在線模式,即當用戶發(fā)出請求時馬上到各網站查找信息。
Junglee
則先把數據收集下來,在必要的時候進行更新。
每個系統(tǒng)都是在用戶的請求下返回產品清單,用戶可對清單上的價格作出比較并決定從哪個商家中購買。下面對以上系統(tǒng)作一簡要介紹。
第
|
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。