ivaneeo's blog

自由的力量，自由的生活。

:: 管理

669 Posts :: 0 Stories :: 64 Comments :: 0 Trackbacks

Impala是由Cloudera開發(fā)的高性能實時計算工具，相比Hive性能提升了幾十、甚至近百倍，基本思想是將計算分發(fā)到每個 Datanode所在的節(jié)點，依靠內(nèi)存實現(xiàn)數(shù)據(jù)的緩存進(jìn)行快速計算，類似的系統(tǒng)還有Berkeley的Shark。從實際測試來看，Impala效率確實不錯，由于Impala大量使用C++實現(xiàn)，不使用CDH的Image而自己編譯安裝要費不少功夫，這里記錄一下安裝配置過程和碰到的一些問題。我在測試時候使用的是CentOS6.2。
一些基本的安裝步驟在這里，但我在安裝的時候碰到一些問題，這里再詳細(xì)說明一下過程。

1.安裝所需的依賴lib，這一步?jīng)]有什么不同

sudo yum install boost-test boost-program-options libevent-devel automake libtool flex bison gcc-c++ openssl-devel make cmake doxygen.x86_64 glib-devel boost-devel python-devel bzip2-devel svn libevent-devel cyrus-sasl-devel wget git unzip

2.安裝LLVM，按照流程做即可，注意要在多臺機(jī)器上編譯安裝Impala的話，只用在一臺機(jī)器上執(zhí)行下面藍(lán)色的部分，再把llvm分發(fā)到多臺機(jī)器上執(zhí)行后面紅色部分的指令就可以了，沒必要每個機(jī)器都通過svn下載一遍源代碼，很費時。

wget http://llvm.org/releases/3.2/llvm-3.2.src.tar.gz
tar xvzf llvm-3.2.src.tar.gz
cd llvm-3.2.src/tools
svn co http://llvm.org/svn/llvm-project/cfe/tags/RELEASE_32/final/ clang
cd ../projects
svn co http://llvm.org/svn/llvm-project/compiler-rt/tags/RELEASE_32/final/ compiler-rt

cd ..
./configure –with-pic
make -j4 REQUIRES_RTTI=1
sudo make install

3.安裝Maven，這個沒什么好說的，按照步驟，設(shè)置一下環(huán)境變量即可，Maven是為了后面build impala源代碼用的。

wget http://www.fightrice.com/mirrors/apache/maven/maven-3/3.0.4/binaries/apache-maven-3.0.4-bin.tar.gz
tar xvf apache-maven-3.0.4.tar.gz && sudo mv apache-maven-3.0.4 /usr/local

修改~/.bashrc，增加maven環(huán)境變量

export M2_HOME=/usr/local/apache-maven-3.0.4
export M2=$M2_HOME/bin
export PATH=$M2:$PATH

更新環(huán)境變量，查看mvn版本是否正確

source ~/.bashrc
mvn -version

4.下載Impala源代碼

git clone https://github.com/cloudera/impala.git

5.設(shè)置Impala環(huán)境變量，編譯時需要

cd impala
./bin/impala-config.sh

6.下載impala依賴的第三方package

cd thirdparty
./download_thirdparty.sh

注意這里其中一個包cyrus-sasl-2.1.23可能下載失敗，可以自行搜索(CSDN里面就有)下載下來然后解壓縮到thirdparty 文件夾，最好是在執(zhí)行完download_thirdparty.sh之后做這一步，因為download_thirdparty.sh會把所有目錄下下載下來的tar.gz給刪除掉。

7.理論上現(xiàn)在可以開始build impala了，但是實際build過程中可能會出現(xiàn)問題，我碰到的問題和 Boost相關(guān)的(具體錯誤不記得了)，最后發(fā)現(xiàn)是由于boost版本太低導(dǎo)致的，CentOS 6.2系統(tǒng)默認(rèn)yum源中的boost和boost-devel版本是1.41，但是impala編譯需要1.44以上的版本，因此需要做的是自己重新編譯boost，我用的是boost 1.46版本。

#刪除已安裝的boost和boost-devel
yum remove boost
yum remove boost-devel
#下載boost
#可以去(http://www.boost.org/users/history/)下載boost
#下載后解壓縮
tar xvzf boost_1_46_0.tar.gz
mv boost_1_46_0 /usr/local/
cd /usr/include
./bootstrap.sh
./bjam
#執(zhí)行后若打印以下內(nèi)容，則表示安裝成功
# The Boost C++ Libraries were successfully built!
# The following directory should be added to compiler include paths:
# /usr/local/boost_1_46_0
# The following directory should be added to linker library paths:
# /usr/local/boost_1_46_0/stage/lib
#現(xiàn)在還需要設(shè)置Boost環(huán)境變量和Impala環(huán)境變量

export BOOST_ROOT=’/usr/local/boost_1_46_0′
export IMPALA_HOME=’/home/extend/impala’

#注意一下，這里雖然安裝了boost，但是我在實際使用的時候，編譯還是會報錯的，報的錯誤是找不到這個包：#libboost_filesystem-mt.so，這個包是由boost-devel提供的，所以我的做法是把boost-devel給重新裝上
#我沒有試過如果之前不刪除boost-devel會不會有問題，能確定的是按這里寫的流程做是沒問題的

yum install boost-devel

8.現(xiàn)在終于可以編譯impala了

cd $IMPALA_HOME
./build_public.sh -build_thirdparty
#編譯首先會編譯C++部分，然后再用mvn編譯java部分，整個過程比較慢，我在虛擬機(jī)上大概需要1-2個小時。
#Impala編譯完后的東西在be/build/debug里面

9.啟動impala_shell需要用到的python包

#第一次執(zhí)行impalad_shell可能會報錯，這里需要安裝python的兩個包:thrift和prettytable，使用easy_install即可
easy_install prettytable
easy_install thrift

10.如果你以為到這里就萬事大吉就太天真了，在配置、啟動、使用Impala的時候還會有很多奇葩的問題；

問題1：Hive和Hadoop使用的版本
CDH對版本的依賴要求比較高，為了保證Impala正常運行，強(qiáng)烈建議使用Impala里面thirdparty目錄中自帶的Hadoop(native lib已經(jīng)編譯好的)和Hive版本。
Hadoop的配置文件在$HADOOP_HOME/etc/hadoop中，要注意的是需要啟用native lib

#修改hadoop的core-site.xml，除了這個選項之外，其他配置和問題2中的core-site.xml一致
<property>
<name>hadoop.native.lib</name>
<value>true</value>
<description>Should native hadoop libraries, if present, be used.</description>
</property>

問題2：Impala的配置文件位置
Impala默認(rèn)使用的配置文件路徑是在bin/set-classpath.sh中配置的，建議把CLASSPATH部分改成

CLASSPATH=\
$IMPALA_HOME/conf:\
$IMPALA_HOME/fe/target/classes:\
$IMPALA_HOME/fe/target/dependency:\
$IMPALA_HOME/fe/target/test-classes:\
${HIVE_HOME}/lib/datanucleus-core-2.0.3.jar:\
${HIVE_HOME}/lib/datanucleus-enhancer-2.0.3.jar:\
${HIVE_HOME}/lib/datanucleus-rdbms-2.0.3.jar:\
${HIVE_HOME}/lib/datanucleus-connectionpool-2.0.3.jar:

即要求Impala使用其目錄下的Conf文件夾作為配置文件，然后創(chuàng)建一下Conf目錄，把3樣?xùn)|西拷貝進(jìn)來：core-site.xml、hdfs-site.xml、hive-site.xml。
core-site.xml的配置，下面幾個選項是必須要配置的，

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://10.200.4.11:9000</value>
</property>
<property>
<name>dfs.client.read.shortcircuit</name>
<value>true</value>
</property>
<property>
<name>dfs.client.use.legacy.blockreader.local</name>
<value>false</value>
</property>
<property>
<name>dfs.client.read.shortcircuit.skip.checksum</name>
<value>false</value>
</property>
</configuration>

hdfs-site.xml的配置

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.block.local-path-access.user</name>
<value>${your user}</value>
</property>
<property>
<name>dfs.datanode.hdfs-blocks-metadata.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>${yourdatadir}</value>
</property>
<property>
<name>dfs.client.use.legacy.blockreader.local</name>
<value>false</value>
</property>
<property>
<name>dfs.datanode.data.dir.perm</name>
<value>750</value>
</property>
<property>
<name>dfs.client.file-block-storage-locations.timeout</name>
<value>5000</value>
</property>
<property>
<name>dfs.domain.socket.path</name>
<value>/home/extend/cdhhadoop/dn.8075</value>
</property>
</configuration>

最后是hive-site.xml，這個比較簡單，指定使用DBMS為元數(shù)據(jù)存儲即可(impala必須和hive共享元數(shù)據(jù)，因為impala無法create table)；Hive-site.xml使用mysql作為metastore的說明在很多地方都可以查到，配置如下：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://10.28.0.190:3306/impala?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>

<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
<description>password to use against metastore database</description>
</property>
</configuration>

記得把mysql-connector的jar包給拷貝到hive的lib里面去，同樣也要拷貝給impala ( 拷貝至$IMPALA_HOME/fe/target/dependency)

11.啟動Impala。到此，Impala是可以正常啟動的。這里說明一下，官方文檔沒有說很清楚Impala的Service之間是如何互相協(xié)調(diào)的，按照官方的步驟，最后通過如下方法來在一臺機(jī)器上啟動Impala Service：

#啟動單機(jī)impala service
${IMPALA_HOME}/bin/start-impalad.sh -use_statestore=false
#啟動impala shell
${IMPALA_HOME}/bin/impala-shell.sh

然后impala-shell就可以連接到localhost進(jìn)行查詢了；注意，這里只是單機(jī)查詢，可以用來驗證你的Impala是否正常work 了；如何啟動一個Impala集群，跳到第12步。這里繼續(xù)說一下可能遇到的問題，我遇到的一個比較奇葩的問題是show tables和count(1)沒有問題，但是select * from table的時候impala在讀取數(shù)據(jù)的時候就崩潰了(有時報錯could not find method close from class org/apache/hadoop/fs/FSDataInputStream with signature ()V )，這里修改了兩個地方解決這個問題:

a.修改impala的set-classpath.sh并移除$IMPALA_HOME/fe/target/dependency目錄中除了hadoop-auth-2.0.0-*.jar之外所有hadoop-*開頭的jar包。

#把impala dependency中和hadoop相關(guān)的包給弄出來，只保留auth
mv $IMPALA_HOME/fe/target/dependency/hadoo* $IMPALA_HOME
mv $IMPALA_HOME/hadoop-auth*.jar mv $IMPALA_HOME/fe/target/dependency
#修改bin/set-classpath.sh，將$HADOOP_HOME中的lib給加入，在set-classpath.sh最后一行export CLASSPATH之前#添加
for jar in `ls $HADOOP_HOME/share/hadoop/common/*.jar`; do
CLASSPATH=${CLASSPATH}:$jar
done
for jar in `ls $HADOOP_HOME/share/hadoop/yarn/*.jar`; do
CLASSPATH=${CLASSPATH}:$jar
done
for jar in `ls $HADOOP_HOME/share/hadoop/hdfs/*.jar`; do
CLASSPATH=${CLASSPATH}:$jar
done
for jar in `ls $HADOOP_HOME/share/hadoop/mapreduce/*.jar`; do
CLASSPATH=${CLASSPATH}:$jar
done
for jar in `ls $HADOOP_HOME/share/hadoop/tools/lib/*.jar`; do
CLASSPATH=${CLASSPATH}:$jar
done

b.注意到Impala對待table的時候只能夠使用hive的默認(rèn)列分隔符，如果在hive里面create table的時候使用了自定義的分隔符，Impala servive就會在讀數(shù)據(jù)的時候莫名其妙的崩潰。

12.啟動Impala 集群
Impala實際上由兩部分組成，一個是StateStore，用來協(xié)調(diào)各個機(jī)器計算，相當(dāng)于Master，然后就是Impalad，相當(dāng)于Slave，啟動方法如下：

#啟動statestore
#方法1，直接利用impala/bin下面的這個python腳本
#這個腳本會啟動一個StateStore，同時啟動-s個數(shù)量的Impala Service在本機(jī)
$IMPALA_HOME/bin/start-impala-cluster.py -s 1 –log_dir /home/extend/impala/impalaLogs
#方法2，手動啟動StateStore
$IMPALA_HOME/be/build/debug/statestore/statestored -state_store_port=24000

#啟動impala service
#在每個編譯安裝了impala的節(jié)點上執(zhí)行命令
#參數(shù)-state_store_host指定啟動了stateStore的機(jī)器名
#-nn即namenode，指定hadoop的namenode
#-nn_port是namenode的HDFS入口端口號
$IMPALA_HOME/bin/start-impalad.sh -state_store_host=m11 -nn=m11 -nn_port=9000

正常啟動之后，訪問http://${stateStore_Server}:25010/ 可以看到StateStore的狀態(tài)，其中的subscribers頁面可以看到已經(jīng)連接上的impala service node；

13.使用Impala客戶端
這一步最簡單，隨便找一個機(jī)器啟動

$IMPALA_HOME/bin/impala-shell.sh
#啟動之后可以隨便連接一個impala service
connect m12
#連接上之后就可以執(zhí)行show tables之類的操作了
#需要注意的是，如果hive創(chuàng)建表或更新了表結(jié)構(gòu)，impala的節(jié)點是不知道的
#必須通過客戶端連接各個impala service并執(zhí)行refresh來刷新metadata
#或者重啟所有impala service

posted on 2013-06-29 17:12 ivaneeo 閱讀(1750) 評論(1) 編輯收藏所屬分類: 云

Feedback

# re: Cloudera Impala TarBall 編譯、安裝與配置 2013-07-14 22:19 laoyang

我按照您說的步驟運行，也安裝了boost_1_46_0，但是編譯后還是報了錯誤，如下：
make[2]: *** [be/build/debug/exprs/expr-test] 錯誤 1
make[1]: *** [be/src/exprs/CMakeFiles/expr-test.dir/all] 錯誤 2
make: *** [all] 錯誤 2
您遇到過嗎？求解釋！！！回復(fù) 更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: hadoop生態(tài)圈 mesos調(diào)度框架 centos6.5 docker install docker run restart mincloud install log mysql cluster install faq centos7 testing yum 解決KVM中鼠標(biāo)不同步問題 openstack virt vnc port ceilometer alarm例子

ivaneeo's blog

常用鏈接

留言簿(32)

我參與的團(tuán)隊

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜

Feedback