posts - 134,comments - 22,trackbacks - 0
          轉(zhuǎn)至CSDN
          所謂“語義”就是文本的含義。語義需要理解文本的意思和結(jié)構(gòu),而與顯示方式無關(guān)。簡單地說,語義網(wǎng)(Semantic Web)是一種能理解人類語言的智能網(wǎng)絡(luò),它不但能夠理解人類的語言,而且還可以使人與電腦之間的交流變得像人與人之間交流一樣輕松。但目前大多數(shù)人對語意網(wǎng)的認(rèn)識(shí)都還存在誤區(qū),因此我們特編輯此文為語意網(wǎng)揭秘。

              記者:常有人說,語義網(wǎng)所要解決的問題,就是30年前人工智能(Artificial Intelligence)里的知識(shí)表示(knowledge representation)及歸納邏輯(inductive logics)所要解決的問題。KL-ONE、Cyc以及Minsky的框架(frames)和Sowa的概念圖(Conceptual Graphs)等,都屬于過去這些工作留下的產(chǎn)物。但是它們都已經(jīng)失敗了。那么語義網(wǎng)以及語義網(wǎng)在本體(ontology)和推理(reasoning)方面的關(guān)注,跟這些失敗的努力有什么不同呢?

            Frank:其實(shí),大家對語義網(wǎng)存在一種誤解,即認(rèn)為語義網(wǎng)是“重復(fù)人工智能的工作”。雖然語義網(wǎng)和人工智能(AI)所用的工具有一些相同(比如本體、推理、邏輯等),但它們的目標(biāo)是完全不同的。實(shí)際上,語義網(wǎng)的目標(biāo)是更為適度的:語義網(wǎng)并不是要構(gòu)建一個(gè)通用的、綜合性的、基于Internet的智能系統(tǒng),而是要實(shí)現(xiàn)Web上數(shù)據(jù)集(datasets)間的互操作(無論數(shù)據(jù)是結(jié)構(gòu)化、非結(jié)構(gòu)化還是半結(jié)構(gòu)化的)——這一目標(biāo)更具實(shí)踐性,更為適度。去年七月,Tim Berners-Lee專門就人工智能與語義網(wǎng)之間的混淆做過一個(gè)報(bào)告。該報(bào)告的摘要如下:語義網(wǎng)不是人工智能,人工智能也不是語義網(wǎng);人工智能是一個(gè)領(lǐng)域,而語義網(wǎng)是一個(gè)項(xiàng)目;語義網(wǎng)采用了人工智能里的某些工具,所以人工智能對語義網(wǎng)有一定功勞;語義網(wǎng)將是人工智能的一個(gè)極好的應(yīng)用場景。Tim Berners-Lee還在報(bào)告中澄清了關(guān)于語義網(wǎng)的其他一些錯(cuò)誤說法,例如“語義網(wǎng)(只或者主要)關(guān)注于手工標(biāo)注的文本文檔”以及“語義網(wǎng)需要一個(gè)可被大家接受的、統(tǒng)一的本體”等。

            記者:Web 2.0是一個(gè)新事物——無論是學(xué)術(shù)界還是工業(yè)界,人人都喜愛它。而另一方面,語義網(wǎng)卻由于眾多諾言未能兌現(xiàn)而失去關(guān)注。關(guān)于這兩個(gè)Web的共存,您有何看法?您認(rèn)為Web 2.0將對語義網(wǎng)的發(fā)展起到什么樣的作用?

            Frank:注意問題中的“語義網(wǎng)由于眾多諾言未能兌現(xiàn)而失去關(guān)注”,這是一個(gè)錯(cuò)誤的前提。

              我們來看一些準(zhǔn)確的信息:

            SemTech大會(huì)(Semantic Technology Conference)是一個(gè)面向工業(yè)界的會(huì)議,目前為止已經(jīng)召開過3屆,前幾屆都是在加利福利亞圣何塞(San Jose)召開的。第一年有300人參加,去年有500人參加,而今年的參會(huì)人數(shù)已經(jīng)超過了700人。相應(yīng)地,在歐洲,首屆歐洲語義技術(shù)大會(huì)(European Semantic Technologies Conference)也于去年5月在維也納召開了。參會(huì)人數(shù)超過了200人,其中75%都是來自公司的。所以,要么你說錯(cuò)了,要么那幾百名公司人士和幾十家公司都“腦袋壞掉了”。你自己判斷吧。

            與此相反的是,語義技術(shù)正處于產(chǎn)業(yè)突破(industrial breakthrough)的過程之中。下面的一段話引自最近(2007年5月)的一篇Gartner報(bào)告(Gartner是不會(huì)熱衷于短命技術(shù)的):“關(guān)鍵結(jié)論:在接下來的10年里,基于Web的技術(shù),將會(huì)提高往文檔里嵌入語義結(jié)構(gòu)、以及創(chuàng)建結(jié)構(gòu)化詞匯表和本體(用于定義術(shù)語、概念及關(guān)系)的能力。這將極大地推動(dòng)信息的可見性及信息的開發(fā)利用(尤其是在無人工干預(yù)下理解文檔與推斷含義的能力)的發(fā)展。”

            幸運(yùn)的是,Gartner相當(dāng)明智,沒有(像你一樣)斷言語義網(wǎng)已經(jīng)夭折,而是對語義網(wǎng)需要多久實(shí)現(xiàn)做出了估計(jì):“實(shí)現(xiàn)語義網(wǎng)的偉大宏圖,需要多個(gè)漸進(jìn)式的步驟,而且小規(guī)模的行動(dòng)常常是最好的起點(diǎn)。”

            回到剛才問題的主題上:學(xué)術(shù)界關(guān)于Web 2.0與語義網(wǎng)(或者說Web 3.0)是相互補(bǔ)充、而不是競爭的關(guān)系,取得了廣泛的認(rèn)同。這是在去年5月于愛丁堡召開的第15屆國際萬維網(wǎng)大會(huì)(WWW2006)上的一個(gè)科學(xué)座談會(huì)上得出的結(jié)論。大家一致認(rèn)為:Web 2.0門檻較低(易于上手使用),不過能力上限也比較低(folksonomy僅限于此);而Web 3.0雖然門檻較高(起初的投入需要較多),但能力上限要高得多。

            在前面提到的那份Gartner報(bào)告里,還有一些重要論斷。它建議將語義網(wǎng)和Web 2.0技術(shù)結(jié)合起來,并預(yù)言目前的Web,將由具備輕量語義但易于使用的Web 2.0技術(shù),逐漸發(fā)展為較高投入/較高產(chǎn)出的Web 3.0技術(shù)。

            記者:您認(rèn)為用自動(dòng)化方法——也就是說,知識(shí)抽取與推理(knowledge extraction and inference)中的自然語言處理(natural language processing)、文本挖掘(text mining)及統(tǒng)計(jì)等方法——來學(xué)習(xí)本體及實(shí)體間的關(guān)系怎么樣?您認(rèn)為這些技術(shù)對手工編輯本體的方法,是一種補(bǔ)充,還是遏止?您認(rèn)為這些技術(shù)能夠起到促進(jìn)作用嗎?還是它們注定會(huì)失敗?

            Frank:我對于本體的獲取以及對這些本體里的數(shù)據(jù)對象的分類的態(tài)度是:有用就好。僅依靠手工來構(gòu)建本體,顯然是成本過高的,而且也限制了可被編纂與分類的知識(shí)的量。所以,我希望你提到這些技術(shù)能為語義技術(shù)作出最大的貢獻(xiàn)。我不覺得這些技術(shù)將“注定失敗”,相反,我認(rèn)為它們的有益貢獻(xiàn)將日益增大,關(guān)于這一點(diǎn)我相當(dāng)樂觀。

            記者:所有重大的技術(shù)發(fā)明與里程碑都是以其 killer?app 的出現(xiàn)為標(biāo)志的。那么語義網(wǎng)的 killer app 會(huì)是什么?究竟有沒有?

            Frank:我覺得關(guān)于“killer app”這一反復(fù)問及的問題總是有些幼稚。舉個(gè)例子:我們同不同意?XML的廣泛采納是一項(xiàng)重要的技術(shù)創(chuàng)新?但誰是XML的“killer app”?這樣一個(gè)“killer app”存在嗎?不。存在的只是許許多多的場合,XML在這些場合下能夠“在背后”起到促進(jìn)作用。語義網(wǎng)技術(shù)主要是基礎(chǔ)設(shè)施技術(shù)(infrastructure technology),而基礎(chǔ)設(shè)施技術(shù)是存在于背后、并非用戶直接可見的。你所能感受到的,只是諸如:網(wǎng)站變得更人性化了(因?yàn)楸澈蟠嬖谡Z義網(wǎng)技術(shù),你的個(gè)人興趣概要(profile)可以與網(wǎng)站的數(shù)據(jù)源進(jìn)行互操作)、搜索引擎對結(jié)果的聚類(clustering of results)做得更好了(因?yàn)樗阉饕嬖诒澈蟛捎镁哂泻x的本體來對搜索結(jié)果加以分類)以及桌面搜索工具能夠把文檔作者的姓名與你的地址簿里的?Email地址關(guān)聯(lián)起來了(因?yàn)檫@些數(shù)據(jù)格式在背后通過暴露其語義來實(shí)現(xiàn)互操作)等,但這些應(yīng)用不會(huì)在其界面上注明“語義網(wǎng)技術(shù)”。語義網(wǎng)技術(shù)就像是發(fā)動(dòng)機(jī)汽缸壁上的Nikasil涂層,雖然很少有司機(jī)知道它,但司機(jī)們能夠察覺到燃料消耗的減少、最高時(shí)速的提升以及引擎壽命的延長等等。語義網(wǎng)技術(shù)就是目前正在開發(fā)著的、下一代人類友好的計(jì)算機(jī)應(yīng)用的Nikasil涂層。

          譯/徐涵

          (來自:《程序員》雜志 http://www.programmer.com.cn/)
          posted on 2009-02-17 18:13 何克勤 閱讀(307) 評(píng)論(0)  編輯  收藏 所屬分類: 新技術(shù)新概念

          只有注冊用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 剑川县| 峨山| 阿城市| 平原县| 固原市| 安岳县| 宁安市| 昆明市| 金塔县| 明星| 呼玛县| 封开县| 清丰县| 白河县| 徐州市| 武义县| 柳河县| 霍山县| 平阴县| 建阳市| 阿拉善盟| 乌拉特中旗| 英超| 呈贡县| 双峰县| 泰兴市| 杂多县| 惠东县| 安庆市| 洪江市| 珲春市| 札达县| 宝清县| 迁安市| 东阿县| 舒兰市| 旺苍县| 鹤庆县| 平利县| 板桥市| 微博|