作者 Scott Delap譯者 張海龍 發布于 2007年8月17日 上午5時55分
類似Google構架的開源項目Hadoop 已經存在一年多了,現在正受到來自開發社區的廣泛關注。下面是來自Hadoop官網 的消息:
Hadoop是一個軟件平臺,可以讓你很容易地開發和運行處理海量數據的應用……Hadoop是MapReduce 的實現,它使用了Hadoop分布式文件系統(HDFS)。MapReduce將應用切分為許多小任務塊去執行。出于保證可靠性的考慮,HDFS會為數據塊創建多個副本,并放置在群的計算節點中,MapReduce就在數據副本存放的地方進行處理……
Hadoop是由Java編寫的,該項目已到得Yahoo的全面支持,項目的領袖Doug Cutting從2006年一月開始已經被Yahoo全職雇用于此項目中。華盛頓大學也從那時開始了一個以Hadoop為基礎的分布式計算的課程,課程相關的材料也已發布 在Google Code了,以滿足那些對這項技術感興趣的開發者們。
最近,Yahoo的Jeremy Zawodny提供了 一個Hadoop的狀態更新:
在過去的幾年里,每家參與建立大規模Web系統的公司都面臨著一些相同的基礎性挑戰……底層架構從來都是一個挑戰。你不得不去購 買、并大量安裝和管理眾多的服務器,即使你使用的是其他人提供的商業硬件平臺,你也不得不開發軟件對這些任務進行分治處理,并讓其保持運行……要建立一個 必要的軟件基礎結構,我們可以放棄開發自己的技術,這可以認為是一項競爭優勢,先賺到錢再說。但我們已經選擇了一條稍有不同的路,當認識到有越來越多的公 司和組織的需求都很相似的時候,我們發現了Doug Cutting(開源項目Nutch和Lucene的開創者)的工作,于是我們邀請他加入Yahoo,在新的開源項目Hadoop上繼續工作。
Zawodny去年一直工作于提供數據排序的基準評測,在測試中,每一個節點都對相同總和的輸入數量進行排序。 假如有20個節點,每個節點有100條記錄,那么就有2000個記錄需要排序;當有100個節點時,每個節點有100條記錄,那就總共有10000條記 錄。下面是最近的評測結果:
日期 | 節點數 |
耗時(小時) |
|
四月 | 2006 | 188 | 47.9 |
五月 | 2006 | 500 | 42.0 |
十一月 | 2006 | 20 | 1.8 |
十一月 | 2006 | 100 | 3.3 |
十一月 | 2006 | 500 | 5.2 |
十一月 | 2006 | 900 | 7.8 |
七月 |
2007 | 20 | 1.2 |
七月 | 2007 | 100 | 1.3 |
七月 | 2007 | 500 | 2.0 |
七月 | 2007 | 900 | 2.5 |
Tim O'Reilly找出了 Zawodny所發的帖子,并從中發現了來自于Yahoo的高層支持:
……Yahoo! 已經在一月聘用了Hadoop的創始人Doug Cutting,但Doug在開源大會上的談論 ,更像是Hadoop的發布會,Yahoo! 也想以此表明Hadoop項目對他們來講有多么重要。實際上,我還接到David Filo打來的電話,他想確認我是否知道這種支持來自于高層……
…… 為什么Yahoo! 的參與這么重要?首先,這預示一個搜索界第二大的公司認識到開源是在Web 2.0上與一個占統治地位的對手進行競爭的強大武器……支持Hadoop和其它Apache項目不僅僅只是讓Yahoo深入到他們可以使用的開源軟件項目 中,更會幫助他們恢復在極客(geek)心中的形象……其次,或是同樣重要的是,Yahoo! 給了Hadoop一個機會進行規模方面的測試……
John Munsh用一句話總結了
Yahoo的參與:“Hadoop和‘非我發明癥(Not-Invented-Here Syndrome)’之反例”。(譯者注:John
Munsh在這里用“非我發明癥”來指Microsoft那種不愿意接受任何協議,標準,或是其他公司開發的軟件的態度。它認為不是自己創造的東西就是不
值得信任的。而Yahoo! 卻基于競爭對手Google的MapReduce來構造自己的應用,所以這里說是“非我發明癥”之反例。)
微軟的Sriram Krishnan則從那些 轉到類似Hadoop和Amazon EC2這種針對大規模應用并在不斷發展的解決方案的創業者和開發人員所面對的問題的角度,對Hadoop提出了反對意見:
Web 2.0的主要價值來自于由眾多用戶生成的數據,如del.ico.us、Digg、Facebook……它已經超越了任何個人運行大規模的服務器軟件的商 業意義,如Gmail、Google Search、Live、Y! Search……放蕩不羈的極客們根本就不會去碰那些大規模blob存儲(S3,Google文件系統),大規模結構化存儲(Google的 Bigtable),還有在這種微架構之上運行代碼的工具(MapReduct,Dryad)等等……我也不知道Doug Cutting的這種類似的開源產物在這條路上已經走了多遠——也許這就是答案吧……查看英文原文:Open Source Google-Like Infrastructure Project Hadoop Gains Momentum