作者 Scott Delap譯者 張海龍 發(fā)布于 2007年8月17日 上午5時(shí)55分

社區(qū)
Java
主題
網(wǎng)格計(jì)算,
集群與緩存

類似Google構(gòu)架的開源項(xiàng)目Hadoop 已經(jīng)存在一年多了,現(xiàn)在正受到來自開發(fā)社區(qū)的廣泛關(guān)注。下面是來自Hadoop官網(wǎng) 的消息:

Hadoop是一個(gè)軟件平臺(tái),可以讓你很容易地開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用……Hadoop是MapReduce 的實(shí)現(xiàn),它使用了Hadoop分布式文件系統(tǒng)(HDFS)。MapReduce將應(yīng)用切分為許多小任務(wù)塊去執(zhí)行。出于保證可靠性的考慮,HDFS會(huì)為數(shù)據(jù)塊創(chuàng)建多個(gè)副本,并放置在群的計(jì)算節(jié)點(diǎn)中,MapReduce就在數(shù)據(jù)副本存放的地方進(jìn)行處理……

Hadoop是由Java編寫的,該項(xiàng)目已到得Yahoo的全面支持,項(xiàng)目的領(lǐng)袖Doug Cutting從2006年一月開始已經(jīng)被Yahoo全職雇用于此項(xiàng)目中。華盛頓大學(xué)也從那時(shí)開始了一個(gè)以Hadoop為基礎(chǔ)的分布式計(jì)算的課程,課程相關(guān)的材料也已發(fā)布 在Google Code了,以滿足那些對(duì)這項(xiàng)技術(shù)感興趣的開發(fā)者們。
最近,Yahoo的Jeremy Zawodny提供了 一個(gè)Hadoop的狀態(tài)更新:

在過去的幾年里,每家參與建立大規(guī)模Web系統(tǒng)的公司都面臨著一些相同的基礎(chǔ)性挑戰(zhàn)……底層架構(gòu)從來都是一個(gè)挑戰(zhàn)。你不得不去購(gòu) 買、并大量安裝和管理眾多的服務(wù)器,即使你使用的是其他人提供的商業(yè)硬件平臺(tái),你也不得不開發(fā)軟件對(duì)這些任務(wù)進(jìn)行分治處理,并讓其保持運(yùn)行……要建立一個(gè) 必要的軟件基礎(chǔ)結(jié)構(gòu),我們可以放棄開發(fā)自己的技術(shù),這可以認(rèn)為是一項(xiàng)競(jìng)爭(zhēng)優(yōu)勢(shì),先賺到錢再說。但我們已經(jīng)選擇了一條稍有不同的路,當(dāng)認(rèn)識(shí)到有越來越多的公 司和組織的需求都很相似的時(shí)候,我們發(fā)現(xiàn)了Doug Cutting(開源項(xiàng)目Nutch和Lucene的開創(chuàng)者)的工作,于是我們邀請(qǐng)他加入Yahoo,在新的開源項(xiàng)目Hadoop上繼續(xù)工作。

Zawodny去年一直工作于提供數(shù)據(jù)排序的基準(zhǔn)評(píng)測(cè),在測(cè)試中,每一個(gè)節(jié)點(diǎn)都對(duì)相同總和的輸入數(shù)量進(jìn)行排序。 假如有20個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)有100條記錄,那么就有2000個(gè)記錄需要排序;當(dāng)有100個(gè)節(jié)點(diǎn)時(shí),每個(gè)節(jié)點(diǎn)有100條記錄,那就總共有10000條記 錄。下面是最近的評(píng)測(cè)結(jié)果:

日期
節(jié)點(diǎn)數(shù)
耗時(shí)(小時(shí))
四月 2006 188 47.9
五月 2006 500 42.0
十一月 2006 20 1.8
十一月 2006 100 3.3
十一月 2006 500 5.2
十一月 2006 900 7.8
七月
2007 20 1.2
七月 2007 100 1.3
七月 2007 500 2.0
七月 2007 900 2.5

Tim O'Reilly找出了 Zawodny所發(fā)的帖子,并從中發(fā)現(xiàn)了來自于Yahoo的高層支持:

……Yahoo! 已經(jīng)在一月聘用了Hadoop的創(chuàng)始人Doug Cutting,但總結(jié)了 Yahoo的參與:“Hadoop和‘非我發(fā)明癥(Not-Invented-Here Syndrome)’之反例”。(譯者注:John Munsh在這里用“非我發(fā)明癥”來指Microsoft那種不愿意接受任何協(xié)議,標(biāo)準(zhǔn),或是其他公司開發(fā)的軟件的態(tài)度。它認(rèn)為不是自己創(chuàng)造的東西就是不 值得信任的。而Yahoo! 卻基于競(jìng)爭(zhēng)對(duì)手Google的MapReduce來構(gòu)造自己的應(yīng)用,所以這里說是“非我發(fā)明癥”之反例。)

微軟的Sriram Krishnan則從那些 轉(zhuǎn)到類似Hadoop和Amazon EC2這種針對(duì)大規(guī)模應(yīng)用并在不斷發(fā)展的解決方案的創(chuàng)業(yè)者和開發(fā)人員所面對(duì)的問題的角度,對(duì)Hadoop提出了反對(duì)意見:

Web 2.0的主要價(jià)值來自于由眾多用戶生成的數(shù)據(jù),如del.ico.us、Digg、Facebook……它已經(jīng)超越了任何個(gè)人運(yùn)行大規(guī)模的服務(wù)器軟件的商 業(yè)意義,如Gmail、Google Search、Live、Y! Search……放蕩不羈的極客們根本就不會(huì)去碰那些大規(guī)模blob存儲(chǔ)(S3,Google文件系統(tǒng)),大規(guī)模結(jié)構(gòu)化存儲(chǔ)(Google的 Bigtable),還有在這種微架構(gòu)之上運(yùn)行代碼的工具(MapReduct,Dryad)等等……我也不知道Doug Cutting的這種類似的開源產(chǎn)物在這條路上已經(jīng)走了多遠(yuǎn)——也許這就是答案吧……
查看英文原文Open Source Google-Like Infrastructure Project Hadoop Gains Momentum