qileilove

          blog已經轉移至github,大家請訪問 http://qaseven.github.io/

          Spark 0.8 集群(CentOS6.4)-簡單統計測試

           環境:CentOS 6.4, hadoop-2.0.0-cdh4.2.0, JDK 1.6, spark-0.8.0-incubating-bin-cdh4.tar.gz,Scala 2.9.3
            1. 安裝、部署集群環境
            參考前章《安裝Spark 0.8集群(CentOS6.4) - 大數據之內存計算》
            2. 測試描述
            使用在線測試數據生工具,動態生成如下json數據(名稱DATA[1-9].json):
            {"id":10,"first_name":"Ralph","last_name":"Kennedy","country":"Colombia","ip_address":"12.211.41.162","email":"rkennedy@oyonder.net"},
            {"id":11,"first_name":"Gary","last_name":"Cole","country":"Nepal","ip_address":"242.67.150.18","email":"gcole@browsebug.info"},
            …
            可以數據可以先生成100M左右,然后通過linux cp / cat工具進行數據復制、合并,產生不同大小數據,方便測試。
            測試任務:
            對所有*.json數據的ip地址進行簡單統計,包括:ip地址總數統計,“241.*”ip地址段總數統計。將其上傳到HDFS集群上
            2.1啟動 Spark 集群
            在master上執行
          $>cd ~/spark-0.8.0
          $>bin/start-all.sh
            檢測進程是否啟動
          $> jps
          11055 Jps
          2313 SecondaryNameNode
          2409 JobTracker
          2152 NameNode
          4822 Master
            瀏覽master的web UI(默認http://localhost:8080). 這是你應該可以看到所有的word節點,以及他們的CPU個數和內存等信息。
            2.2運行spark-shell從HDFS讀取文件并統計IP地址
          // set the master node of spark cluster and runspark-shell
          $> MASTER=spark://centos01:7077./spark-shell
          // read the json data
          $>val file = sc.textFile("hdfs://sdc/user/hadoop/In/DATA*.json")
          // filter the json data
          $>val ips = file.filter(line => line.contains("ip_address"))
          // Count all the IP
          $>ips.count()
          // Count all the“241.*”IP
          $>ips.filter(line => line.contains("241.")).count()
          $>ips.filter(line => line.contains("241.")).collect()
            2.3 運行結果

          posted on 2014-01-27 10:46 順其自然EVO 閱讀(424) 評論(0)  編輯  收藏 所屬分類: linux

          <2014年1月>
          2930311234
          567891011
          12131415161718
          19202122232425
          2627282930311
          2345678

          導航

          統計

          常用鏈接

          留言簿(55)

          隨筆分類

          隨筆檔案

          文章分類

          文章檔案

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 涿鹿县| 儋州市| 金门县| 汕尾市| 林周县| 平阴县| 涪陵区| 阿城市| 江口县| 独山县| 石屏县| 罗江县| 湖南省| 吉隆县| 图片| 汉中市| 都安| 三原县| 安仁县| 和平县| 和顺县| 措美县| 郁南县| 额尔古纳市| 东丰县| 绥中县| 兴安县| 屏东县| 青岛市| 田林县| 安国市| 汝城县| 沁源县| 崇州市| 家居| 河间市| 呼伦贝尔市| 内乡县| 庆阳市| 青海省| 邻水|