欧美精品一区二区蜜臀亚洲,亚洲电影激情视频网站,国产经典一区二区

編程小記

scorpio 小蝎

Hadoop 集群配置過程及問題總結(jié)

轉(zhuǎn)載請(qǐng)注明：

http://www.aygfsteel.com/roymoro/archive/2012/01/02/367731.html
Hadoop 實(shí)踐入門

1 實(shí)驗(yàn)環(huán)境搭建

1.1 準(zhǔn)備工作

ubuntu/redhat

JDK/openjdk

Hadoop

Eclipse

vmvare/virtureBox

1.1.1 ubuntu 安裝

下載最新版本ubuntu 11.10。

安裝注意事項(xiàng)：

1、關(guān)閉防火墻：shell命令 sudo ufw disable。不關(guān)閉有可能造成master slave 通信失敗。出現(xiàn)連接超時(shí)，重連錯(cuò)誤。可以通過指定iptables 實(shí)現(xiàn)端口過濾。

2、安裝ssh（用于master和slave遠(yuǎn)程登錄）：sudo apt-get install ssh

1.1.2 安裝jdk

1）解壓sun jdk壓縮包到指定的文件夾。

sudo vi /etc/profile 或者 etc nano /etc/profile

配置/etc/profile，加入：

export JAVA_HOME=/usr/java/jdk1.6.0_22

export JRE_HOME=/usr/java/jdk1.6.0_22/jre

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

2）可以使用openjdk sudo apt-get insall open-jdk-6 或者通過軟件中心。

驗(yàn)證 shell命令：java -version 看是否與你的版本號(hào)一致

1.1.3 安裝hadoop

在每臺(tái)機(jī)器上相同用戶的home根目錄下解壓，hadoop-0.20.2.tar.gz 配置conf/hadoop-env.sh文件。增加 export JAVA_HOME =/usr/lib/jvm/java-6-openjdk 這里修改為你的jdk的安裝位置。

1.2 偽分布式搭建

Hadoop可以在單電商以為分布分布式模式運(yùn)行，用不同的java進(jìn)程模擬分布式中的中的各類節(jié)點(diǎn)namenode，datanode，jobtracker，tasktracker，secondary namenode

1.2.1 hadoop配置

hadoop 0.2.0.2之后需要修改core-site.xml\hdfs-site.xml 以及 mapred-site.xml

配置文件如下：

core-site.xml 配置核心內(nèi)容，其中fs.default.name 為hdfs地址；tmp為hadoop.tnp.dir為臨時(shí)文件

<name>fs.default.name</name>

<value>hdfs://localhost:49000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/home/hadooper/hadooptmp</value>

</property>

</configuration>

注意事項(xiàng)：一定要指定，相同的用戶名，并且tmp一定要設(shè)置，否則會(huì)出現(xiàn)權(quán)限問題。導(dǎo)致hadoop啟動(dòng)失敗。也可以通過chmod 命令來改變默認(rèn)tmp的權(quán)限。默認(rèn)tmp路徑為：/usr/tmp。推薦第一種方式。

hdfs-site.xml 設(shè)置 hdfs 參數(shù)

<name>dfs.replication</name>

</property>

</configuration>

這里dfs.replication指塊的副本數(shù)。副本數(shù)具體策略可參加見hadoop官方指南。

mapred-site.xml 文件的修改

<name>mapred.job.tracker</name>

<value>localhost:49001</value>

</property>

</configuration>

這個(gè)設(shè)置了jobtracker的端口。

注意端口的選擇一定要恰當(dāng)，尤其是集群的配置。默認(rèn)的9000和9001很容易被ubuntu中其他進(jìn)程占用，導(dǎo)致datanode失效，因此選擇沒有占用的49000 和49001。筆者，曾經(jīng)就曾困擾與此。集群配置中將再次強(qiáng)調(diào)。

1.2.2 ssh設(shè)置

因?yàn)?/span>master需要訪問datanode因此需要免密碼ssh

設(shè)置方法：

ssh-keygen -t rsa然后一直按回車

完成后，在home跟目錄下會(huì)產(chǎn)生隱藏文件夾.ssh

cd .ssh

之后ls 查看文件

cp id_rsa.pub authorized_keys

測(cè)試：

ssh localhost發(fā)現(xiàn)鏈接成功，并且無需密碼。

1.2.3 hadoop運(yùn)行

在hadoop安裝目錄下：

首先 bin/hadoop namenode -format格式化文件系統(tǒng)

然后 bin/start-all.sh 來啟動(dòng)守護(hù)進(jìn)程。

利用java 命令 jps 查看進(jìn)程?；蛘咄ㄟ^ 網(wǎng)址：localhost:50070 localhost:50030來查看是否成功。

1.3 集群搭建

如上所述安裝ubuntu 并且擁有相同用戶。安裝jdk ，安裝hadoop。配置jdk路徑等。

1.3.1 主機(jī)信息：

機(jī)器名	IP地址	作用
Node1	192.168.234.128	NameNode、JobTracker
Node2	192.168.234.129	DataNode、TaskTracker
Node3	192.168.234.130	DataNode、TaskTracker

修改每臺(tái)機(jī)器上的hosts

sudo vi /etc/hosts

192.168.1.31 node1

192.168.1.32 node2

192.168.1.33 node3

1.3.2 ssh 設(shè)置

把NameNode 上的id_dsa.pub 文件追加到DataNode 的authorized_keys 內(nèi)：

a. 拷貝NameNode 的id_dsa.pub 文件：

$ scp id_dsa.pub hadooper@node2:/home/hadoop/

b. 登錄node2，執(zhí)行

$ cat id_dsa.pub >> .ssh/authorized_keys

在所有datanode上執(zhí)行相同的操作。

驗(yàn)證：從node1

ssh node2

exit

ssh node3

exit

如果全部免密碼登錄則成功

1.3.3 配置hadoop

配置conf/masters 和conf/slaves 文件

Masters

node1

Slaves

node2

node3

core-site mapred-site 和hdfs-site 和偽分布配置基本相同.只是對(duì)應(yīng)地址，localhost換成了namenode的名稱，node1。

q 配置conf/core-site.xml

<name>fs.default.name</name>

</property>

</configuration>

仍然注意端口，在運(yùn)行時(shí)如果datanode連接不上namenode，有可能是由于端口問題。換一個(gè)端口

1.3.4 運(yùn)行hadoop

首先格式化文件系統(tǒng)：$ bin/hadoop namenode –format

啟動(dòng)Hadoop集群：

$ bin/start-all.sh

停止Hadoop集群：

$ bin/stop-all.sh

查看集群狀態(tài)：$ bin/hadoop dfsadmin -report

Hadoop 的web 方式查看

JobTracker：http://node1:50030

NameNode：http://node1:50070

1.4 eclipse 插件安裝

安裝eclipse 只需要把hadoop/contrib/eclipse-plus 下的包考到eclipse的plus里即可。(該方法有問題，因?yàn)樵摬寮荒懿糠种С?/span>eclipse3.6，如果需要全部支持安裝eclipse3.4以下版本，或修改該插件較復(fù)雜)。如果有誰修改了適合3.6以上的插件roymoro@gmail.com.幫我發(fā)一份。

posted on 2012-01-02 17:41 scorpio小蝎閱讀(7621) 評(píng)論(2) 編輯收藏所屬分類: java

評(píng)論

# re: Hadoop 集群配置過程及問題總結(jié) 2012-01-06 09:46 淘寶特賣

很好，收藏了回復(fù) 更多評(píng)論

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: 基于開源ssh Ganymed 的ssh遠(yuǎn)程連接工具（共同討論版） Hadoop 集群配置過程及問題總結(jié) Java 實(shí)現(xiàn)程序運(yùn)行狀態(tài)監(jiān)控之我的思路（守護(hù)進(jìn)程） JAVA 正則表達(dá)式的溢出問題及不完全解決方案。（感謝Lancelot 在評(píng)論中給出的方法） java 枚舉學(xué)習(xí)--從小程序中學(xué)習(xí) 正則表達(dá)式三十分鐘入門（本文轉(zhuǎn)自http://deerchao.net/tutorials/regex/regex.htm）感謝作者 deerchao

<

2012年1月

>

日

一

二

三

四

五

六

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

導(dǎo)航

統(tǒng)計(jì)

隨筆 - 8
文章 - 0
評(píng)論 - 27
引用 - 0

常用鏈接

留言簿

隨筆分類

隨筆檔案

# re: Hadoop 集群配置過程及問題總結(jié) 2012-01-06 09:46 淘寶特賣

Hadoop 集群配置過程及問題總結(jié)

評(píng)論

導(dǎo)航

統(tǒng)計(jì)

常用鏈接

留言簿

隨筆分類

隨筆檔案

友情鏈接

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜