亚洲精品福利,黄动漫视频高清在线,欧美久久久久免费

概要：
　　本文試圖通過一系列線索揭示Google Base與Semantic Web（語義網，以下簡稱SW）的關系，以此窺探Google在互聯網服務的戰略布局。當然本文屬于創業生存手冊系列，在系列的開篇中只說提到這個系列會提到web2.0，所以本文也會比較SW在web2.0的關系。本文引用的SW的資料大多數為英文資料，有識之士可以翻譯并推介這部分材料，將是對于國內互聯網整體水平的大的提升。
Dedicated to another SW - Simon Willison。

1，Google Base
　　Google Base（應該是base.google.com，暫時無法訪問）還沒有發布，謠言已經滿天飛了，從webleon的給出的鏈接看到，google的產品拓展經理Tom Oliveri列出了一份清單，給出了正式的解釋（只說譯）：

你也許已經看到了今天很多關于我們正在測試的一款新產品的報道，猜測了我們的計劃。在這里我告訴你們我們真正在作的是什么。我們在測試一種內容擁有者提交他們的內容到google的新方式，通過這種方式，有希望補充我們已經使用的方式如google機器人以及SiteMaps（站點地圖）。我們認為這是一款讓人激動的產品，有新消息我們會立即通知你們。

　　這則簡單的聲明已經沒有辦法滿足很多人的好奇心，試用過的人給出截圖，更多的人在猜測google究竟在干什么。

　　webleon文中說，應該是一個由用戶自行創建網絡數據庫的服務。這些數據可以是任何的內容，從可以看到的數據內容看到，有
-聚會服務的描述；
-網站上關于時事的文章；
-二手車出售列表；
-蛋白質結構的數據庫。
　　這些內容，真的只是網絡數據庫、用戶隱私？或者是google頭腦發熱的一次作惡（evil）？
　　從google的對這個項目的聲明和更多的猜測看，恐怕不這么簡單。種種跡象表明，這是google在作一次SW的試水，是google開始向SW服務靠攏的一個試探。為什么只說能這么肯定，SW究竟是個什么東西，它怎么有那么大的魔力，讓google這么諱莫如深？這話得從頭說起。
　　當然，也只有google，在產品的測試期間就能掀起這么強烈的關注。

2，Google與Semantic Web的親密接觸
　　幾年前，Simon Willison發了一個簡短的blog文章，對于google在作一些關于SW的研究而贊嘆，他看到了一份以未來筆調描述google如何戰勝Amazon和Ebay這些競爭對手的恢宏論文，作者是 Paul Ford。Simon Willison是一位很geek的程序員，我一直有看他的blog，雖然未必能完全看懂，他現在去了yahoo，有趣的是，它的名字的簡寫也是SW，把本篇文章獻給他（其實應該是本章，但那樣說也太失禮了）。
　　Paul Ford那篇被多次提到（還有 Stuart）的文章講的是，2009年，Google統治了互聯網這個媒介，回顧如何擊敗Amazon和Ebay的歷程，其實是一篇比較通俗的整體講述什么是SW的文章，讀起來頗為有趣。同樣有趣的還有那個EPIC，當然就與SW無關了。
　　其實美國東岸的幾所學校對于SW的應用研究都很長時間了，最有成果的應該是piggy bank。

　　2003年，google買了一家小公司，叫做Applied Semantic，應該用來做Google adsense的。因此有人寫了一篇題為google在SW投資的文章，可以參看。

　　google的搜索質量總監Peter Norvig今年初有一篇文章，題目叫做SW可以做什么，不能做什么是只說讀到關于SW應用最透徹的文章之一，這系列文章很長，從各個方面探討了SW應用和概念。Peter Norvig是個非常有眼光的人，我以前也是一直看他的網站，雖然至今他還沒有blog，但是終于有RSS輸出了。他有一篇傳世文章，叫做十年學編程后來被很多人翻譯過，其實這是他在NASA研究中心時候寫的，呵呵，時間過去得真快。

　　如今的Google Base的出現，必然有Norvig的眼光和推動力來成就這個網站。其實歐洲人比美國人更急于想實現SW，甚至已經有了semantic weblog，例如qlogger.com，但是沒有人象norvig一樣技術滲透，而且身后是google這樣的公司。

　　背靠著索引著最大互聯網網頁數量的google，在將網絡爬蟲使用到了極致之后，極有可能是第一個可能局部實現SW的商業機構，無論從技術還是從市場上看。當然SW是一種理想，至少google base讓我們初嘗到這種口味。

　　讓我們看一看，什么是SW，為什么Google要實現SW？

3，什么是Semantic Web？
　　什么是SW，就得先談談它的發明人Tim Berners-Lee，同時也是WWW的發明者。

　　Tim Berners-Lee在近幾年的報道提到互聯網發展時（一般放到Future一頁里面）無一例外的提到了SW，大約是發明WWW之后再發明不了其他玩意兒了，或者是其他玩意兒都沒勁了。當然也還有其他的，5月的報告指出，目前網絡在手機上面臨的困境跟96年互聯網在pc上面臨的困境一樣。當然，SW是對于整個互聯網說的，跟接入的設備沒有什么關系。專門關于SW的報告是題為SW在這里，列出了Nokia、HP、IBM等廠商的SW的進展，也可以在這里看到那次會議中談論的細節，不過那里看不到那個SW在這里報道中的那個SW的形象圖，畫的是各種材料，包括磚頭和木材，組合成的一頭大象。形象地說明了在SW下，是各種可以識別的材料，組成了整個世界。many things to many people。只說喜歡他們另外一個宣傳口號：Web Evolution causing a quiet revolution

　　SW的核心意義在于網絡內容是由多種可以識別的數據組成的，在早期的互聯網，93年左右，互聯網停留在文件形態，組成的是一個個文件，傳送都是使用ftp 等工具；94年左右互聯網處于文本的形式，出現了html和URI（唯一地址），可以通過這個地址進行訪問；而不斷演化，今后將在以XML等可以標記的數據結構中，而網頁只是展示這些數據的一種工具，你可以通過任何其他的形式進行展示，甚至機器也可以識別。互聯網不再是由一篇篇的文檔和頁面組成，而是由一部分一部分細碎的數據構成。

　　這樣說比較玄妙了，其實還可以解釋得更簡單一點。SW就是把原來的互聯網內容，切成碎片，文章標題歸文章標題，發布時間放到發布時間，文章概要歸文章概要，分別存放，每一個部分都是機器可以識別的（當然實際可能更復雜一點）。在Paul Ford的2002年如何戰勝Amazon和Ebay文中提到，它其實就是描述這些內容的另一種方式，這種方式下機器可以識別，具體方式雖然不是十分清晰，但是邏輯上，其實跟在你在學校里面學習的方式沒有什么兩樣：
-如果A是B的朋友，那么B就是A的朋友；
-張三有一個朋友叫李四
-因此，李四將有一個朋友叫張三
-李四有一個朋友叫張三
-那么，張三會有一個朋友叫李四
　　就是這么簡單。
　　在互聯網上，我們把內容放在一些定義好的XML標簽指定的文件里面。然后會有程序自動收集這些內容，通過這些簡單的規則，進行分析。所有區別于現在操作的就是，在搜索的時候，服務器的程序會綜合更多的因素，進行更復雜的判斷，理解你的請求的真實意義，然后給你最準確的內容。
例如，你輸入只說，他們準確的判斷出，你要找的是我這個人，而不是錯認為，你又說了一句什么話，或者給你一個許如蕓的“只說給你聽”的歌曲應付一下你。

4，Google怎么實現Semantic Web？
　　Google究竟怎么實現SW，在Peter Norvig的文章SW可以做什么，不能做什么已經可以看出些端倪，Norvig在今年一月份（或者更早）都已經想好了應該怎么啟動了，或者說，應該怎么逐步打造SW。他談到了四個問題：
　　1）先有雞還是先有蛋的問題，
　　這個問題涉及到如何建立所需的信息，因為要必須有有組織的信息才能打造相應的工具，而如果沒有相應的工具，怎么把信息放到組織里面去呢？
這個問題只說要展開說一下，其實google并不是要建立一個Tim Berners-Lee等人理想中的SW，因為其實google其實只需要索引SW中的信息即可，因為如果SW建立起來，索引是一件簡單的事情，甚至產品實現上面比google現在的搜索引擎更簡單，技術要求更低。然而，問題就出來了，是先建立一個SW，然后來索引呢，還是先索引整個互聯網，然后再生成把它放到有組織的SW里面去呢，這就是為什么google打造SW時遇到了先有雞還是先有蛋的問題。
　　那么只說的猜測是，目前Google base的作法是，目前互聯網上的信息是很難組織，那么讓用戶提交有組織的信息到google，就能形成局部的SW。而這個局部的SW，就可以實現聚會服務的描述、網站上關于時事的文章、二手車出售列表等等信息的精確定位，機器也就能夠理解這個范圍內的信息。

　　在Norvig后面的描述中可以證實只說的說法：

在正常情況下，定義語義的標準格式（schemas）似乎更好，但是，問題出在把什么內容放進這些標準格式，還有很多工作要做。

因為還有以下提到的幾個問題，這些問題在把內容放進這些標準格式中的時候，這些問題同樣會出現，而且，google不能把握住這些環節，或者從整個互聯網角度來講，把握這些環節的公司服務或者工具太分散，無法形成標準，也無法保證安全和質量。Norvig舉了一個google news例子，在前一個晚上google news一共索引了658個不同來源的新聞，google可以根據這些新聞頁進行一個cluster運算，算出其中重要度最高的是Blair的新聞，然而，如果google依據這些寫入新聞的新聞源來做這件事情，則幾乎是不可能的。
　　不過通過他們的頁面上的新聞來索引計算出來的質量畢竟不高，所以google現在想到另外一個辦法，也就是，讓用戶通過google base的接口提交到google，提交的數據是定義好的一些數據標準，google來控制這個提交過程并更準確的判斷提交的質量、spam等等情況，并且可以將各種數據綜合起來進行分析。

　　2）競爭問題，你有不同的和相似方法和工具可以選擇。
　　這樣子就無法跟蹤用戶行為的全貌。

　　3）Cyc問題，
　　Cyc是一個專業術語，講的是通過廣泛的本題作常識推理。這樣說也許不太明白，舉個例子就很容易了，例如“周杰倫”，這是一個人名，如果以錯輸為“周杰論”，這時機器就識別不出來了，但是如果擁有了一個很大的詞庫，那么這個通過識別出“周杰論”可能就是“周杰倫”，那么這就是一個Cyc問題。如何在SW 中判斷這些Cyc以識別出常識的判斷，這是建立真正意義的SW必須解決的問題。

　　4）Spam，
　　垃圾，這個不用多說了。但是注意到，由于SW是精確匹配，并且要求根據意圖來適配，所以對于spam要求更高。
順便提及，Splog不就是Semantic Spam嘛。

5，Semantic Web與Web2.0
　　web2.0是tim o'reilly的概念，開始這個概念定義很模糊。應該是互聯網應用的發展模式，催生了新一代的應用以及人們對于這些應用的理解方式和使用方法（這里談到過這幾個概念的分別）。國外也有人撰文web2.0會殺掉SW嗎？，也有稱Semantic Web 2.0。有很有趣的討論。前一篇文章說得有點道理，web2.0是給少數人用的，SW會提供Accessiblity。Stefan Decker在這里補充了一下，Web2.0重“應用”，SW則是標準。這跟只說那邊談到web2.0是應用發展模式不謀而合。其實web2.0用來說明一種公司特性也未嘗不可，不過你大聲的說google是web2.0的公司，而M$是1.0的公司，確實有點怪。

　　當然SW也作了很多應用，例如美國東岸的幾所學校，例如歐洲連Semantic weblog也搞出來了，deri也做了很多應用了。

　　另外，gnowsis也是另外一個狂想，只是我還沒看懂它的結構圖，為什么會有一個semantic web server在里面。

6，結語
　　還有幾點：
　　本文并沒有分析google為什么要做SW，只說想這已經用不著只說在這里分析。SW對于各種應用的好處是顯然的。
　　Google對于SW的探索看似給予搜索引擎的，Norvig那篇文章下面也有人回復說，似乎google只是在搜索的角度看待SW，其實不然，因為互聯網是一個請求應答系統，是我們人為將互聯網標準定義成一個url指向一個網頁的，這是一個陳舊的標準，或者對于更高層次的信息獲取來講，并非是必要的。關于信息適配的探索，其實google比任何其他人（諂媚呀）都高。
　　有人說，Google還是從信息組織的角度來看待整個互聯網（google的信條就是組織信息），或者，它只是互聯網的一個信息組織者，以后也將成為SW 的信息組織者。其實，從根本來說，互聯網整個媒介都是信息，除了信息沒有其他任何東西，當然你可以持有另外一個觀點互聯網應用才是主導，這到了最深處都是殊途同歸。
　　剛寫完，發現keso的文已經出來了：

互聯網提供了很多破壞規則的機會。門戶新聞和搜索引擎新聞已經破壞了傳統媒體的規則，分類網站正在破壞一些電子商務網站和招聘網站的規則。即將露面的 http://base.google.com/服務，很可能是一個更大的破壞者，它有可能籠絡更多的個人內容提供者，進而改變互聯網長期以來內容的組織方式。

　　其實規則很簡單，就是在得到最小的spam的情況下，獲得最有組織并且方便組織的信息，google實現的局部SW當然有控制，然而，SW的目標，不是web2.0那樣的應用，而是Accessibility呀。這場革命如此quiet，甚至談不上“規則破壞”。（指Web Evolution causing a quiet revolution的quiet）
　　本文引用的大量連接都是英文鏈接，由于時間關系，不能將其中摘錄翻譯，深感抱歉。SW的很多文章并不完全是很技術化的話題，這些材料對于國內互聯網水平的增長是十分有益的。

　　再次強調一下本文的觀點：很顯然，google base是google在SW的試驗和測試。而SW就是google的本壘（home base）。

posted on 2006-09-08 15:34 hopeshared 閱讀(835) 評論(1) 編輯收藏所屬分類: Job

Feedback

# re: Google Base與Semantic Web（語義網）的關系 2007-04-21 22:32 pengbone

受益。謝謝！回復更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Google Base與Semantic Web（語義網）的關系一個服務社區的調查如何寫好PPT 轉點DNS的資料 gef布局的一點感想 [轉]網絡話席/Web Presence

精彩的人生

常用鏈接

留言簿(43)

隨筆分類

隨筆檔案

相冊

收藏夾

Friends

Web Site

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

Feedback