Hadoop 集群配置過程及問題總結

          轉載請注明:
          http://www.aygfsteel.com/roymoro/archive/2012/01/02/367731.html
          Hadoop
          實踐入門

          1           實驗環境搭建

          1.1          準備工作

          ubuntu/redhat

          JDK/openjdk

          Hadoop

          Eclipse

          vmvare/virtureBox

          1.1.1     ubuntu 安裝

                 下載最新版本ubuntu 11.10

                 安裝注意事項:

                 1、關閉防火墻:shell命令 sudo ufw disable。不關閉有可能造成master slave 通信失敗。出現連接超時,重連錯誤。可以通過指定iptables 實現端口過濾。

                 2、安裝ssh(用于masterslave遠程登錄):sudo apt-get install ssh

          1.1.2     安裝jdk

                 1)解壓sun jdk壓縮包到指定的文件夾。

                        sudo vi /etc/profile 或者 etc nano /etc/profile

          •         配置/etc/profile,加入:

          export JAVA_HOME=/usr/java/jdk1.6.0_22

          export JRE_HOME=/usr/java/jdk1.6.0_22/jre

          export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

          export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

              2)可以使用openjdk sudo apt-get insall open-jdk-6 或者通過軟件中心。

           

          驗證 shell命令 java -version 看是否與你的版本號一致

          1.1.3 安裝hadoop

          在每臺機器上相同用戶的home根目錄下解壓,hadoop-0.20.2.tar.gz 配置conf/hadoop-env.sh文件。 增加 export JAVA_HOME =/usr/lib/jvm/java-6-openjdk 這里修改為你的jdk的安裝位置。

           

          1.2          偽分布式搭建

                        Hadoop可以在單電商以為分布分布式模式運行,用不同的java進程模擬分布式中的中的各類節點namenodedatanodejobtrackertasktrackersecondary namenode

          1.2.1     hadoop配置

                 hadoop 0.2.0.2之后需要修改core-site.xml\hdfs-site.xml 以及 mapred-site.xml

          配置文件如下:

          core-site.xml 配置核心內容,其中fs.default.name hdfs地址;tmphadoop.tnp.dir為臨時文件

          <configuration>

               <property>

                   <name>fs.default.name</name>

                   <value>hdfs://localhost:49000</value>

               </property>

          <property>

          <name>hadoop.tmp.dir</name>

           <value>/home/hadooper/hadooptmp</value>

               </property>

          </configuration>

          注意事項:一定要指定,相同的用戶名,并且tmp一定要設置,否則會出現權限問題。導致hadoop啟動失敗。也可以通過chmod 命令來改變默認tmp的權限。默認tmp路徑為:/usr/tmp。推薦第一種方式。

           

          hdfs-site.xml 設置 hdfs 參數

          <configuration>

               <property>

                   <name>dfs.replication</name>

                   <value>1</value>

               </property>

          </configuration>

          這里dfs.replication指塊的副本數。副本數具體策略可參加見hadoop官方指南。

           

          mapred-site.xml 文件的修改

          <configuration>

               <property>

                   <name>mapred.job.tracker</name>

                   <value>localhost:49001</value>

               </property>

          </configuration>

          這個設置了jobtracker的端口。

          注意端口的選擇一定要恰當,尤其是集群的配置。默認的90009001很容易被ubuntu中其他進程占用,導致datanode失效,因此選擇沒有占用的49000 49001。筆者,曾經就曾困擾與此。集群配置中將再次強調。

           

          1.2.2     ssh設置

          因為master需要訪問datanode因此需要免密碼ssh

          設置方法:

          ssh-keygen -t rsa然后一直按回車

          完成后,在home跟目錄下會產生隱藏文件夾.ssh

          cd .ssh

          之后ls 查看文件

          cp id_rsa.pub authorized_keys

          測試:

          ssh localhost發現鏈接成功,并且無需密碼。

          1.2.3     hadoop運行

          hadoop安裝目錄下:

          首先 bin/hadoop namenode -format格式化文件系統

          然后 bin/start-all.sh 來啟動守護進程。

          利用java 命令 jps 查看進程。或者通過 網址:localhost:50070 localhost:50030來查看是否成功。

           

          1.3          集群搭建

          如上所述安裝ubuntu 并且擁有相同用戶。安裝jdk ,安裝hadoop。配置jdk路徑等。

          1.3.1     主機信息:

          機器名

          IP地址

          作用

          Node1

          192.168.234.128

          NameNodeJobTracker

          Node2

          192.168.234.129

          DataNodeTaskTracker

          Node3

          192.168.234.130

          DataNodeTaskTracker

          修改每臺機器上的hosts

          sudo vi /etc/hosts

          192.168.1.31   node1

          192.168.1.32  node2

          192.168.1.33   node3

          1.3.2     ssh 設置

                     NameNode 上的id_dsa.pub 文件追加到DataNode authorized_keys 內:

                     a. 拷貝NameNode id_dsa.pub 文件:

                     $ scp id_dsa.pub hadooper@node2:/home/hadoop/

                     b. 登錄node2,執行

                                 $ cat id_dsa.pub >> .ssh/authorized_keys

                    在所有datanode上執行相同的操作。

                    驗證:從node1

                    ssh node2

                    exit

                    ssh node3

                    exit

                    如果全部免密碼登錄則成功

          1.3.3     配置hadoop

          配置conf/masters conf/slaves 文件

          Masters

          node1

          Slaves

          node2

          node3

           

          core-site mapred-site hdfs-site 和偽分布配置基本相同.只是對應地址,localhost換成了namenode的名稱,node1

          q            配置conf/core-site.xml

          <configuration>

           <property>

              <name>fs.default.name</name>

              <value>hdfs://node1:49000</value>

           </property>

          </configuration>

          仍然注意端口,在運行時如果datanode連接不上namenode,有可能是由于端口問題。換一個端口

          1.3.4     運行hadoop

          首先格式化文件系統:$ bin/hadoop namenode –format

          啟動Hadoop集群:

          $ bin/start-all.sh

          停止Hadoop集群:

          $ bin/stop-all.sh

          查看集群狀態:$ bin/hadoop dfsadmin -report

          Hadoop web 方式查看

          JobTrackerhttp://node1:50030

          NameNodehttp://node1:50070

           

           

                     

           

          1.4          eclipse 插件安裝

          安裝eclipse 只需要把hadoop/contrib/eclipse-plus 下的包考到eclipseplus里即可。(該方法有問題,因為該插件只能部分支持eclipse3.6,如果需要全部支持安裝eclipse3.4以下版本,或修改該插件較復雜)。如果有誰修改了適合3.6以上的插件roymoro@gmail.com.幫我發一份。

           

          posted on 2012-01-02 17:41 scorpio小蝎 閱讀(7621) 評論(2)  編輯  收藏 所屬分類: java

          評論

          # re: Hadoop 集群配置過程及問題總結 2012-01-06 09:46 淘寶特賣

          很好,收藏了  回復  更多評論   

          <2012年1月>
          25262728293031
          1234567
          891011121314
          15161718192021
          22232425262728
          2930311234

          導航

          統計

          常用鏈接

          留言簿

          隨筆分類

          隨筆檔案

          友情鏈接

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 勐海县| 柳江县| 冷水江市| 临泽县| 都江堰市| 抚顺县| 农安县| 琼中| 前郭尔| 万盛区| 黔东| 青冈县| 宜州市| 毕节市| 千阳县| 林甸县| 惠安县| 天峨县| 东安县| 桃源县| 隆安县| 北海市| 定陶县| 密山市| 施甸县| 高台县| 常熟市| 同仁县| 石屏县| 高邮市| 祥云县| 长海县| 象州县| 静乐县| 巴东县| 墨脱县| 宁德市| 永德县| 台东县| 博客| 义乌市|