精彩的人生

          好好工作,好好生活

          BlogJava 首頁 新隨筆 聯(lián)系 聚合 管理
            147 Posts :: 0 Stories :: 250 Comments :: 0 Trackbacks
          原文出處:Google Home Base
          作者:只說? sayonly.com?

          概要:
            本文試圖通過一系列線索揭示Google Base與Semantic Web(語義網(wǎng),以下簡稱SW)的關(guān)系,以此窺探Google在互聯(lián)網(wǎng)服務(wù)的戰(zhàn)略布局。當(dāng)然本文屬于創(chuàng)業(yè)生存手冊系列,在系列的開篇中只說提到這個系列會提到web2.0,所以本文也會比較SW在web2.0的關(guān)系。本文引用的SW的資料大多數(shù)為英文資料,有識之士可以翻譯并推介這部分材料,將是對于國內(nèi)互聯(lián)網(wǎng)整體水平的大的提升。
          Dedicated to another SW - Simon Willison。

          1,Google Base
            Google Base(應(yīng)該是base.google.com,暫時無法訪問)還沒有發(fā)布,謠言已經(jīng)滿天飛了,從webleon的給出的鏈接看到,google的產(chǎn)品拓展經(jīng)理Tom Oliveri列出了一份清單,給出了正式的解釋(只說譯):
          你也許已經(jīng)看到了今天很多關(guān)于我們正在測試的一款新產(chǎn)品的報道,猜測了我們的計劃。在這里我告訴你們我們真正在作的是什么。我們在測試一種內(nèi)容擁有者提交他們的內(nèi)容到google的新方式,通過這種方式,有希望補充我們已經(jīng)使用的方式如google機器人以及SiteMaps(站點地圖)。我們認(rèn)為這是一款讓人激動的產(chǎn)品,有新消息我們會立即通知你們。
            這則簡單的聲明已經(jīng)沒有辦法滿足很多人的好奇心,試用過的人給出截圖,更多的人在猜測google究竟在干什么。
            webleon文中說,應(yīng)該是一個由用戶自行創(chuàng)建網(wǎng)絡(luò)數(shù)據(jù)庫的服務(wù)。這些數(shù)據(jù)可以是任何的內(nèi)容,從可以看到的數(shù)據(jù)內(nèi)容看到,有
          -聚會服務(wù)的描述;
          -網(wǎng)站上關(guān)于時事的文章;
          -二手車出售列表;
          -蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)庫。
            這些內(nèi)容,真的只是網(wǎng)絡(luò)數(shù)據(jù)庫、用戶隱私?或者是google頭腦發(fā)熱的一次作惡(evil)?
            從google的對這個項目的聲明和更多的猜測看,恐怕不這么簡單。種種跡象表明,這是google在作一次SW的試水,是google開始向SW服務(wù)靠攏的一個試探。為什么只說能這么肯定,SW究竟是個什么東西,它怎么有那么大的魔力,讓google這么諱莫如深?這話得從頭說起。
            當(dāng)然,也只有g(shù)oogle,在產(chǎn)品的測試期間就能掀起這么強烈的關(guān)注。


          2,Google與Semantic Web的親密接觸
            幾年前,Simon Willison發(fā)了一個簡短的blog文章,對于google在作一些關(guān)于SW的研究而贊嘆,他看到了一份以未來筆調(diào)描述google如何戰(zhàn)勝Amazon和Ebay這些競爭對手的恢宏論文,作者是 Paul Ford。Simon Willison是一位很geek的程序員,我一直有看他的blog,雖然未必能完全看懂,他現(xiàn)在去了yahoo,有趣的是,它的名字的簡寫也是SW,把本篇文章獻(xiàn)給他(其實應(yīng)該是本章,但那樣說也太失禮了)。
            Paul Ford那篇被多次提到(還有 Stuart)的文章講的是,2009年,Google統(tǒng)治了互聯(lián)網(wǎng)這個媒介,回顧如何擊敗Amazon和Ebay的歷程,其實是一篇比較通俗的整體講述什么是SW的文章,讀起來頗為有趣。同樣有趣的還有那個EPIC,當(dāng)然就與SW無關(guān)了。
            其實美國東岸的幾所學(xué)校對于SW的應(yīng)用研究都很長時間了,最有成果的應(yīng)該是piggy bank

            2003年,google買了一家小公司,叫做Applied Semantic,應(yīng)該用來做Google adsense的。因此有人寫了一篇題為google在SW投資的文章,可以參看。

            google的搜索質(zhì)量總監(jiān)Peter Norvig今年初有一篇文章,題目叫做SW可以做什么,不能做什么是只說讀到關(guān)于SW應(yīng)用最透徹的文章之一,這系列文章很長,從各個方面探討了SW應(yīng)用和概念。Peter Norvig是個非常有眼光的人,我以前也是一直看他的網(wǎng)站,雖然至今他還沒有blog,但是終于有RSS輸出了。他有一篇傳世文章,叫做十年學(xué)編程后來被很多人翻譯過,其實這是他在NASA研究中心時候?qū)懙模呛牵瑫r間過去得真快。

            如今的Google Base的出現(xiàn),必然有Norvig的眼光和推動力來成就這個網(wǎng)站。其實歐洲人比美國人更急于想實現(xiàn)SW,甚至已經(jīng)有了semantic weblog,例如qlogger.com,但是沒有人象norvig一樣技術(shù)滲透,而且身后是google這樣的公司。

            背靠著索引著最大互聯(lián)網(wǎng)網(wǎng)頁數(shù)量的google,在將網(wǎng)絡(luò)爬蟲使用到了極致之后,極有可能是第一個可能局部實現(xiàn)SW的商業(yè)機構(gòu),無論從技術(shù)還是從市場上看。當(dāng)然SW是一種理想,至少google base讓我們初嘗到這種口味。

            讓我們看一看,什么是SW,為什么Google要實現(xiàn)SW?

          3,什么是Semantic Web?
            什么是SW,就得先談?wù)勊陌l(fā)明人Tim Berners-Lee,同時也是WWW的發(fā)明者。

            Tim Berners-Lee在近幾年的報道提到互聯(lián)網(wǎng)發(fā)展時(一般放到Future一頁里面)無一例外的提到了SW,大約是發(fā)明WWW之后再發(fā)明不了其他玩意兒了,或者是其他玩意兒都沒勁了。當(dāng)然也還有其他的,5月的報告指出,目前網(wǎng)絡(luò)在手機上面臨的困境跟96年互聯(lián)網(wǎng)在pc上面臨的困境一樣。當(dāng)然,SW是對于整個互聯(lián)網(wǎng)說的,跟接入的設(shè)備沒有什么關(guān)系。專門關(guān)于SW的報告是題為SW在這里,列出了Nokia、HP、IBM等廠商的SW的進(jìn)展,也可以在這里看到那次會議中談?wù)摰募?xì)節(jié),不過那里看不到那個SW在這里報道中的那個SW的形象圖,畫的是各種材料,包括磚頭和木材,組合成的一頭大象。形象地說明了在SW下,是各種可以識別的材料,組成了整個世界。many things to many people。只說喜歡他們另外一個宣傳口號:Web Evolution causing a quiet revolution

            SW的核心意義在于網(wǎng)絡(luò)內(nèi)容是由多種可以識別的數(shù)據(jù)組成的,在早期的互聯(lián)網(wǎng),93年左右,互聯(lián)網(wǎng)停留在文件形態(tài),組成的是一個個文件,傳送都是使用ftp 等工具;94年左右互聯(lián)網(wǎng)處于文本的形式,出現(xiàn)了html和URI(唯一地址),可以通過這個地址進(jìn)行訪問;而不斷演化,今后將在以XML等可以標(biāo)記的數(shù)據(jù)結(jié)構(gòu)中,而網(wǎng)頁只是展示這些數(shù)據(jù)的一種工具,你可以通過任何其他的形式進(jìn)行展示,甚至機器也可以識別。互聯(lián)網(wǎng)不再是由一篇篇的文檔和頁面組成,而是由一部分一部分細(xì)碎的數(shù)據(jù)構(gòu)成。

            這樣說比較玄妙了,其實還可以解釋得更簡單一點。SW就是把原來的互聯(lián)網(wǎng)內(nèi)容,切成碎片,文章標(biāo)題歸文章標(biāo)題,發(fā)布時間放到發(fā)布時間,文章概要歸文章概要,分別存放,每一個部分都是機器可以識別的(當(dāng)然實際可能更復(fù)雜一點)。在Paul Ford的2002年如何戰(zhàn)勝Amazon和Ebay中提到,它其實就是描述這些內(nèi)容的另一種方式,這種方式下機器可以識別,具體方式雖然不是十分清晰,但是邏輯上,其實跟在你在學(xué)校里面學(xué)習(xí)的方式?jīng)]有什么兩樣:
          -如果A是B的朋友,那么B就是A的朋友;
          -張三有一個朋友叫李四
          -因此,李四將有一個朋友叫張三
          -李四有一個朋友叫張三
          -那么,張三會有一個朋友叫李四
            就是這么簡單。
            在互聯(lián)網(wǎng)上,我們把內(nèi)容放在一些定義好的XML標(biāo)簽指定的文件里面。然后會有程序自動收集這些內(nèi)容,通過這些簡單的規(guī)則,進(jìn)行分析。所有區(qū)別于現(xiàn)在操作的就是,在搜索的時候,服務(wù)器的程序會綜合更多的因素,進(jìn)行更復(fù)雜的判斷,理解你的請求的真實意義,然后給你最準(zhǔn)確的內(nèi)容。
          例如,你輸入只說,他們準(zhǔn)確的判斷出,你要找的是我這個人,而不是錯認(rèn)為,你又說了一句什么話,或者給你一個許如蕓的“只說給你聽”的歌曲應(yīng)付一下你。

          4,Google怎么實現(xiàn)Semantic Web?
            Google究竟怎么實現(xiàn)SW,在Peter Norvig的文章SW可以做什么,不能做什么已經(jīng)可以看出些端倪,Norvig在今年一月份(或者更早)都已經(jīng)想好了應(yīng)該怎么啟動了,或者說,應(yīng)該怎么逐步打造SW。他談到了四個問題:
            1)先有雞還是先有蛋的問題,
            這個問題涉及到如何建立所需的信息,因為要必須有有組織的信息才能打造相應(yīng)的工具,而如果沒有相應(yīng)的工具,怎么把信息放到組織里面去呢?
          這個問題只說要展開說一下,其實google并不是要建立一個Tim Berners-Lee等人理想中的SW,因為其實google其實只需要索引SW中的信息即可,因為如果SW建立起來,索引是一件簡單的事情,甚至產(chǎn)品實現(xiàn)上面比google現(xiàn)在的搜索引擎更簡單,技術(shù)要求更低。然而,問題就出來了,是先建立一個SW,然后來索引呢,還是先索引整個互聯(lián)網(wǎng),然后再生成把它放到有組織的SW里面去呢,這就是為什么google打造SW時遇到了先有雞還是先有蛋的問題。
            那么只說的猜測是,目前Google base的作法是,目前互聯(lián)網(wǎng)上的信息是很難組織,那么讓用戶提交有組織的信息到google,就能形成局部的SW。而這個局部的SW,就可以實現(xiàn)聚會服務(wù)的描述、網(wǎng)站上關(guān)于時事的文章、二手車出售列表等等信息的精確定位,機器也就能夠理解這個范圍內(nèi)的信息。

            在Norvig后面的描述中可以證實只說的說法:
          在正常情況下,定義語義的標(biāo)準(zhǔn)格式(schemas)似乎更好,但是,問題出在把什么內(nèi)容放進(jìn)這些標(biāo)準(zhǔn)格式,還有很多工作要做。
          因為還有以下提到的幾個問題,這些問題在把內(nèi)容放進(jìn)這些標(biāo)準(zhǔn)格式中的時候,這些問題同樣會出現(xiàn),而且,google不能把握住這些環(huán)節(jié),或者從整個互聯(lián)網(wǎng)角度來講,把握這些環(huán)節(jié)的公司服務(wù)或者工具太分散,無法形成標(biāo)準(zhǔn),也無法保證安全和質(zhì)量。Norvig舉了一個google news例子,在前一個晚上google news一共索引了658個不同來源的新聞,google可以根據(jù)這些新聞頁進(jìn)行一個cluster運算,算出其中重要度最高的是Blair的新聞,然而,如果google依據(jù)這些寫入新聞的新聞源來做這件事情,則幾乎是不可能的。
            不過通過他們的頁面上的新聞來索引計算出來的質(zhì)量畢竟不高,所以google現(xiàn)在想到另外一個辦法,也就是,讓用戶通過google base的接口提交到google,提交的數(shù)據(jù)是定義好的一些數(shù)據(jù)標(biāo)準(zhǔn),google來控制這個提交過程并更準(zhǔn)確的判斷提交的質(zhì)量、spam等等情況,并且可以將各種數(shù)據(jù)綜合起來進(jìn)行分析。

            2)競爭問題,你有不同的和相似方法和工具可以選擇。
            這樣子就無法跟蹤用戶行為的全貌。

            3)Cyc問題,
            Cyc是一個專業(yè)術(shù)語,講的是通過廣泛的本題作常識推理。這樣說也許不太明白,舉個例子就很容易了,例如“周杰倫”,這是一個人名,如果以錯輸為“周杰論”,這時機器就識別不出來了,但是如果擁有了一個很大的詞庫,那么這個通過識別出“周杰論”可能就是“周杰倫”,那么這就是一個Cyc問題。如何在SW 中判斷這些Cyc以識別出常識的判斷,這是建立真正意義的SW必須解決的問題。

            4)Spam,
            垃圾,這個不用多說了。但是注意到,由于SW是精確匹配,并且要求根據(jù)意圖來適配,所以對于spam要求更高。
          順便提及,Splog不就是Semantic Spam嘛。


          5,Semantic Web與Web2.0
            web2.0是tim o'reilly的概念,開始這個概念定義很模糊。應(yīng)該是互聯(lián)網(wǎng)應(yīng)用的發(fā)展模式,催生了新一代的應(yīng)用以及人們對于這些應(yīng)用的理解方式和使用方法(這里談到過這幾個概念的分別)。國外也有人撰文web2.0會殺掉SW嗎?,也有稱Semantic Web 2.0。有很有趣的討論。前一篇文章說得有點道理,web2.0是給少數(shù)人用的,SW會提供Accessiblity。Stefan Decker在這里補充了一下,Web2.0重“應(yīng)用”,SW則是標(biāo)準(zhǔn)。這跟只說那邊談到web2.0是應(yīng)用發(fā)展模式不謀而合。其實web2.0用來說明一種公司特性也未嘗不可,不過你大聲的說google是web2.0的公司,而M$是1.0的公司,確實有點怪。

            當(dāng)然SW也作了很多應(yīng)用,例如美國東岸的幾所學(xué)校,例如歐洲連Semantic weblog也搞出來了,deri也做了很多應(yīng)用了。

            另外,gnowsis也是另外一個狂想,只是我還沒看懂它的結(jié)構(gòu)圖,為什么會有一個semantic web server在里面。


          6,結(jié)語
            還有幾點:
            本文并沒有分析google為什么要做SW,只說想這已經(jīng)用不著只說在這里分析。SW對于各種應(yīng)用的好處是顯然的。
            Google對于SW的探索看似給予搜索引擎的,Norvig那篇文章下面也有人回復(fù)說,似乎google只是在搜索的角度看待SW,其實不然,因為互聯(lián)網(wǎng)是一個請求應(yīng)答系統(tǒng),是我們?nèi)藶閷⒒ヂ?lián)網(wǎng)標(biāo)準(zhǔn)定義成一個url指向一個網(wǎng)頁的,這是一個陳舊的標(biāo)準(zhǔn),或者對于更高層次的信息獲取來講,并非是必要的。關(guān)于信息適配的探索,其實google比任何其他人(諂媚呀)都高。
            有人說,Google還是從信息組織的角度來看待整個互聯(lián)網(wǎng)(google的信條就是組織信息),或者,它只是互聯(lián)網(wǎng)的一個信息組織者,以后也將成為SW 的信息組織者。其實,從根本來說,互聯(lián)網(wǎng)整個媒介都是信息,除了信息沒有其他任何東西,當(dāng)然你可以持有另外一個觀點互聯(lián)網(wǎng)應(yīng)用才是主導(dǎo),這到了最深處都是殊途同歸。
            剛寫完,發(fā)現(xiàn)keso的已經(jīng)出來了:
          互聯(lián)網(wǎng)提供了很多破壞規(guī)則的機會。門戶新聞和搜索引擎新聞已經(jīng)破壞了傳統(tǒng)媒體的規(guī)則,分類網(wǎng)站正在破壞一些電子商務(wù)網(wǎng)站和招聘網(wǎng)站的規(guī)則。即將露面的 http://base.google.com/服務(wù),很可能是一個更大的破壞者,它有可能籠絡(luò)更多的個人內(nèi)容提供者,進(jìn)而改變互聯(lián)網(wǎng)長期以來內(nèi)容的組織方式。
            其實規(guī)則很簡單,就是在得到最小的spam的情況下,獲得最有組織并且方便組織的信息,google實現(xiàn)的局部SW當(dāng)然有控制,然而,SW的目標(biāo),不是web2.0那樣的應(yīng)用,而是Accessibility呀。 這場革命如此quiet,甚至談不上“規(guī)則破壞”。(指Web Evolution causing a quiet revolution的quiet)
            本文引用的大量連接都是英文鏈接,由于時間關(guān)系,不能將其中摘錄翻譯,深感抱歉。SW的很多文章并不完全是很技術(shù)化的話題,這些材料對于國內(nèi)互聯(lián)網(wǎng)水平的增長是十分有益的。

            再次強調(diào)一下本文的觀點:很顯然,google base是google在SW的試驗和測試。而SW就是google的本壘(home base)。
          posted on 2006-09-08 15:34 hopeshared 閱讀(829) 評論(1)  編輯  收藏 所屬分類: Job

          Feedback

          # re: Google Base與Semantic Web(語義網(wǎng))的關(guān)系 2007-04-21 22:32 pengbone
          受益。謝謝!  回復(fù)  更多評論
            

          主站蜘蛛池模板: 乌拉特后旗| 来宾市| 洪雅县| 图木舒克市| 治多县| 游戏| 防城港市| 阳春市| 凯里市| 县级市| 德阳市| 鄂伦春自治旗| 东明县| 偏关县| 虹口区| 谢通门县| 隆回县| 大连市| 独山县| 旅游| 莱芜市| 宕昌县| 来安县| 和政县| 论坛| 娄烦县| 龙里县| 屯门区| 饶阳县| 萍乡市| 光山县| 长顺县| 丰顺县| 什邡市| 电白县| 民权县| 沙洋县| 正镶白旗| 上犹县| 武乡县| 称多县|