??xml version="1.0" encoding="utf-8" standalone="yes"?>不卡精品视频,综合久久久久久久,99精品电影http://www.aygfsteel.com/ArcticOcean/archive/2010/08/03/327836.htmlCool JazzCool JazzTue, 03 Aug 2010 09:03:00 GMThttp://www.aygfsteel.com/ArcticOcean/archive/2010/08/03/327836.htmlhttp://www.aygfsteel.com/ArcticOcean/comments/327836.htmlhttp://www.aygfsteel.com/ArcticOcean/archive/2010/08/03/327836.html#Feedback0http://www.aygfsteel.com/ArcticOcean/comments/commentRss/327836.htmlhttp://www.aygfsteel.com/ArcticOcean/services/trackbacks/327836.htmlHadoop上{来的。其中有?/span>介绍HDFS的pdf文档Q对Hadoop介绍的比较全面?br />       先说一下Hadoop的来龙去脉。谈到Hadoop׃得不提到Lucene?/span>Nutch。首先,Luceneq不是一个应用程序,而是提供了一个纯Java的高性能全文索引引擎工具?/span>Q它可以方便的嵌入到各种实际应用中实现全文搜?索引功能?span style="color: rgb(0,0,255)">Nutch是一个应用程序,是一个以Lucene为基实现的搜索引擎应?/span>QLucene 为Nutch提供了文本搜索和索引的APIQNutch不光有搜索的功能Q还有数据抓取的功能。在nutch0.8.0版本之前QHadoopq属?Nutch的一部分Q而从nutch0.8.0开始,其中实现的NDFS和MapReduce剥离出来成立一个新的开源项目,q就是HadoopQ?nutch0.8.0版本较之以前的Nutch在架构上有了Ҏ(gu)性的变化Q那是完全构徏在Hadoop的基之上了。在Hadoop中实C Google的GFS和MapReduce法QHadoop成ؓ(f)了一个分布式的计^台?br />        Hadoopq不仅仅是一个用于存储的分布式文件系l,而是设计用来在由通用计算讑֤l成的大型集上执行分布式应用的框架?br />
   Hadoop包含两个部分Q?/span>

   1、HDFS

      即Hadoop Distributed File System (Hadoop分布式文件系l?
      HDFS h高容错性,q且可以被部|在低h(hun)的硬件设备之上。HDFS很适合那些有大数据集的应用Qƈ且提供了Ҏ(gu)据读写的高吞吐率。HDFS是一?master/slave的结构,通常的部|来_(d)在master上只q行一个NamenodeQ而在每一个slave上运行一个Datanode?br />       HDFS 支持传统的层ơ文件组l结构,同现有的一些文件系l在操作上很cMQ比如你可以创徏和删除一个文Ӟ把一个文件从一个目录移到另一个目录,重命名等{操 作。Namenode理着整个分布式文件系l,Ҏ(gu)件系l的操作Q如建立、删除文件和文g夹)都是通过Namenode来控制?nbsp;
     下面是HDFS的结构:(x)


      从上面的图中可以?出,NamenodeQDatanodeQClient之间的通信都是建立在TCP/IP的基之上的。当Client要执行一个写入的操作的时候,命o(h) 不是马上发送到NamenodeQClient首先在本Z临时文g夹中~存q些数据Q当临时文g夹中的数据块辑ֈ了设定的Block的|默认?64MQ时QClient便会(x)通知NamenodeQNamenode便响应Client的RPChQ将文g名插入文件系l层ơ中q且?Datanode中找C块存放该数据的blockQ同时将该Datanode?qing)对应的数据块信息告诉ClientQClient便这些本C(f)时文件夹?的数据块写入指定的数据节炏V?br />       HDFS采取了副本策略,其目的是Z提高pȝ的可靠性,可用性。HDFS的副本放|策略是三个副本Q?一个放在本节点上,一个放在同一机架中的另一个节点上Q还有一个副本放在另一个不同的机架中的一个节点上。当前版本的hadoop0.12.0中还没有?玎ͼ但是正在q行中,怿不久可以出来了?br />
   2、MapReduce的实?br />
      
MapReduce是Google 的一w要技术,它是一个编E模型,用以q行大数据量的计。对于大数据量的计算Q通常采用的处理手法就是ƈ行计。至现阶段而言Q对许多开发h员来 _(d)q行计算q是一个比较遥q的东西。MapReduce是一U简化ƈ行计的~程模型Q它让那些没有多ƈ行计经验的开发h员也可以开发ƈ行应用?br />       MapReduce的名字源于这个模型中的两Ҏ(gu)心操作:(x)Map?Reduce。也许熟(zhn)Functional ProgrammingQ?/span>函数式编E?/span>Q?的h见到q两个词?x)倍感亲切。简单的说来QMap是把一l数据一对一的映ؓ(f)另外的一l数据,其映的规则׃个函数来指定Q比如对[1, 2, 3, 4]q行?的映就变成了[2, 4, 6, 8]。Reduce是对一l数据进行归U,q个归约的规则由一个函数指定,比如对[1, 2, 3, 4]q行求和的归U得到结果是10Q而对它进行求U的归约l果?4?br />
      关于MapReduce的内容,看看孟岩的这?/span>MapReduce:The Free Lunch Is Not Over! q篇是介绍的比较详l的。MapReduce的算法内容见Google文档Q?a title="MapReduce.pdf" >MapReduce.pdf

        有关其它介绍Hadoop的文章徏议看下:(x)分布式计开源框架Hadoop介绍 。(whatQwhyQhow提的不错Q?br />         
        安装配置可以看:(x)1?a rel="permalink">Hadoop中的集群配置和用技?/a>
                                        2?a >Hadoop应用之Hadoop安装?/a>
                                        3?a title="Hadoop安装部v指南" >Hadoop安装部v指南
         如果要开发的话,初步参考:(x)Hadoop基本程与应用开?/a>
         
         其中用到数据库的部分Q在Hadoop?.19.0开始支撑数据库讉KQ主要采用DBInputFormat来访问数据库。文章可见:(x)
Hadoop中的数据库访?/a>
      

Cool Jazz 2010-08-03 17:03 发表评论
]]>
վ֩ģ壺 | | | | | | | Ϫ| ɽ| ˮ| | | | ű| | | | ƽ| ͨ| | | | | ׿| | | | «ɽ| ͳ| | ˮ| կ| | Ϫ| | | ɽ| | ں| | |