作者 Scott Delap譯者 張海龍 發(fā)布于 2007年8月17日 上午5時(shí)55分
- 社區(qū)
- Java
- 主題
- 網(wǎng)格計(jì)算,
- 集群與緩存
類似Google構(gòu)架的開源項(xiàng)目Hadoop 已經(jīng)存在一年多了,現(xiàn)在正受到來自開發(fā)社區(qū)的廣泛關(guān)注。下面是來自Hadoop官網(wǎng) 的消息:
Hadoop是一個(gè)軟件平臺(tái),可以讓你很容易地開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用……Hadoop是MapReduce 的實(shí)現(xiàn),它使用了Hadoop分布式文件系統(tǒng)(HDFS)。MapReduce將應(yīng)用切分為許多小任務(wù)塊去執(zhí)行。出于保證可靠性的考慮,HDFS會(huì)為數(shù)據(jù)塊創(chuàng)建多個(gè)副本,并放置在群的計(jì)算節(jié)點(diǎn)中,MapReduce就在數(shù)據(jù)副本存放的地方進(jìn)行處理……
Hadoop是由Java編寫的,該項(xiàng)目已到得Yahoo的全面支持,項(xiàng)目的領(lǐng)袖Doug Cutting從2006年一月開始已經(jīng)被Yahoo全職雇用于此項(xiàng)目中。華盛頓大學(xué)也從那時(shí)開始了一個(gè)以Hadoop為基礎(chǔ)的分布式計(jì)算的課程,課程相關(guān)的材料也已發(fā)布 在Google Code了,以滿足那些對(duì)這項(xiàng)技術(shù)感興趣的開發(fā)者們。
最近,Yahoo的Jeremy Zawodny提供了 一個(gè)Hadoop的狀態(tài)更新:
在過去的幾年里,每家參與建立大規(guī)模Web系統(tǒng)的公司都面臨著一些相同的基礎(chǔ)性挑戰(zhàn)……底層架構(gòu)從來都是一個(gè)挑戰(zhàn)。你不得不去購(gòu) 買、并大量安裝和管理眾多的服務(wù)器,即使你使用的是其他人提供的商業(yè)硬件平臺(tái),你也不得不開發(fā)軟件對(duì)這些任務(wù)進(jìn)行分治處理,并讓其保持運(yùn)行……要建立一個(gè) 必要的軟件基礎(chǔ)結(jié)構(gòu),我們可以放棄開發(fā)自己的技術(shù),這可以認(rèn)為是一項(xiàng)競(jìng)爭(zhēng)優(yōu)勢(shì),先賺到錢再說。但我們已經(jīng)選擇了一條稍有不同的路,當(dāng)認(rèn)識(shí)到有越來越多的公 司和組織的需求都很相似的時(shí)候,我們發(fā)現(xiàn)了Doug Cutting(開源項(xiàng)目Nutch和Lucene的開創(chuàng)者)的工作,于是我們邀請(qǐng)他加入Yahoo,在新的開源項(xiàng)目Hadoop上繼續(xù)工作。
Zawodny去年一直工作于提供數(shù)據(jù)排序的基準(zhǔn)評(píng)測(cè),在測(cè)試中,每一個(gè)節(jié)點(diǎn)都對(duì)相同總和的輸入數(shù)量進(jìn)行排序。 假如有20個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)有100條記錄,那么就有2000個(gè)記錄需要排序;當(dāng)有100個(gè)節(jié)點(diǎn)時(shí),每個(gè)節(jié)點(diǎn)有100條記錄,那就總共有10000條記 錄。下面是最近的評(píng)測(cè)結(jié)果:
日期 | 節(jié)點(diǎn)數(shù) |
耗時(shí)(小時(shí)) |
|
四月 | 2006 | 188 | 47.9 |
五月 | 2006 | 500 | 42.0 |
十一月 | 2006 | 20 | 1.8 |
十一月 | 2006 | 100 | 3.3 |
十一月 | 2006 | 500 | 5.2 |
十一月 | 2006 | 900 | 7.8 |
七月 |
2007 | 20 | 1.2 |
七月 | 2007 | 100 | 1.3 |
七月 | 2007 | 500 | 2.0 |
七月 | 2007 | 900 | 2.5 |
Tim O'Reilly找出了 Zawodny所發(fā)的帖子,并從中發(fā)現(xiàn)了來自于Yahoo的高層支持:
……Yahoo! 已經(jīng)在一月聘用了Hadoop的創(chuàng)始人Doug Cutting,但總結(jié)了 Yahoo的參與:“Hadoop和‘非我發(fā)明癥(Not-Invented-Here Syndrome)’之反例”。(譯者注:John Munsh在這里用“非我發(fā)明癥”來指Microsoft那種不愿意接受任何協(xié)議,標(biāo)準(zhǔn),或是其他公司開發(fā)的軟件的態(tài)度。它認(rèn)為不是自己創(chuàng)造的東西就是不 值得信任的。而Yahoo! 卻基于競(jìng)爭(zhēng)對(duì)手Google的MapReduce來構(gòu)造自己的應(yīng)用,所以這里說是“非我發(fā)明癥”之反例。)
微軟的Sriram Krishnan則從那些 轉(zhuǎn)到類似Hadoop和Amazon EC2這種針對(duì)大規(guī)模應(yīng)用并在不斷發(fā)展的解決方案的創(chuàng)業(yè)者和開發(fā)人員所面對(duì)的問題的角度,對(duì)Hadoop提出了反對(duì)意見:
Web 2.0的主要價(jià)值來自于由眾多用戶生成的數(shù)據(jù),如del.ico.us、Digg、Facebook……它已經(jīng)超越了任何個(gè)人運(yùn)行大規(guī)模的服務(wù)器軟件的商 業(yè)意義,如Gmail、Google Search、Live、Y! Search……放蕩不羈的極客們根本就不會(huì)去碰那些大規(guī)模blob存儲(chǔ)(S3,Google文件系統(tǒng)),大規(guī)模結(jié)構(gòu)化存儲(chǔ)(Google的 Bigtable),還有在這種微架構(gòu)之上運(yùn)行代碼的工具(MapReduct,Dryad)等等……我也不知道Doug Cutting的這種類似的開源產(chǎn)物在這條路上已經(jīng)走了多遠(yuǎn)——也許這就是答案吧……查看英文原文:Open Source Google-Like Infrastructure Project Hadoop Gains Momentum