qileilove

          blog已經轉移至github,大家請訪問 http://qaseven.github.io/

          Spark 0.8 集群(CentOS6.4)-簡單統計測試

           環境:CentOS 6.4, hadoop-2.0.0-cdh4.2.0, JDK 1.6, spark-0.8.0-incubating-bin-cdh4.tar.gz,Scala 2.9.3
            1. 安裝、部署集群環境
            參考前章《安裝Spark 0.8集群(CentOS6.4) - 大數據之內存計算》
            2. 測試描述
            使用在線測試數據生工具,動態生成如下json數據(名稱DATA[1-9].json):
            {"id":10,"first_name":"Ralph","last_name":"Kennedy","country":"Colombia","ip_address":"12.211.41.162","email":"rkennedy@oyonder.net"},
            {"id":11,"first_name":"Gary","last_name":"Cole","country":"Nepal","ip_address":"242.67.150.18","email":"gcole@browsebug.info"},
            …
            可以數據可以先生成100M左右,然后通過linux cp / cat工具進行數據復制、合并,產生不同大小數據,方便測試。
            測試任務:
            對所有*.json數據的ip地址進行簡單統計,包括:ip地址總數統計,“241.*”ip地址段總數統計。將其上傳到HDFS集群上
            2.1啟動 Spark 集群
            在master上執行
          $>cd ~/spark-0.8.0
          $>bin/start-all.sh
            檢測進程是否啟動
          $> jps
          11055 Jps
          2313 SecondaryNameNode
          2409 JobTracker
          2152 NameNode
          4822 Master
            瀏覽master的web UI(默認http://localhost:8080). 這是你應該可以看到所有的word節點,以及他們的CPU個數和內存等信息。
            2.2運行spark-shell從HDFS讀取文件并統計IP地址
          // set the master node of spark cluster and runspark-shell
          $> MASTER=spark://centos01:7077./spark-shell
          // read the json data
          $>val file = sc.textFile("hdfs://sdc/user/hadoop/In/DATA*.json")
          // filter the json data
          $>val ips = file.filter(line => line.contains("ip_address"))
          // Count all the IP
          $>ips.count()
          // Count all the“241.*”IP
          $>ips.filter(line => line.contains("241.")).count()
          $>ips.filter(line => line.contains("241.")).collect()
            2.3 運行結果

          posted on 2014-01-27 10:46 順其自然EVO 閱讀(425) 評論(0)  編輯  收藏 所屬分類: linux

          <2014年1月>
          2930311234
          567891011
          12131415161718
          19202122232425
          2627282930311
          2345678

          導航

          統計

          常用鏈接

          留言簿(55)

          隨筆分類

          隨筆檔案

          文章分類

          文章檔案

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 黄浦区| 晋江市| 英山县| 莱西市| 陕西省| 岑巩县| 西峡县| 登封市| 红河县| 朔州市| 邹平县| 西畴县| 手机| 望江县| 盐源县| 子洲县| 辰溪县| 曲麻莱县| 固阳县| 云林县| 高雄市| 大兴区| 营山县| 武穴市| 清徐县| 阳泉市| 昆明市| 鄂尔多斯市| 襄城县| 葫芦岛市| 汾西县| 蓬莱市| 永登县| 军事| 郴州市| 丘北县| 班戈县| 长岭县| 化德县| 都昌县| 武汉市|