精品av久久久久电影,㊣最新国产の精品bt伙计久久 ,成人免费在线视频观看

blog已經轉移至github,大家請訪問 http://qaseven.github.io/

Spark 0.8 集群(CentOS6.4)-簡單統計測試

　環境:CentOS 6.4, hadoop-2.0.0-cdh4.2.0, JDK 1.6, spark-0.8.0-incubating-bin-cdh4.tar.gz,Scala 2.9.3

　　1. 安裝、部署集群環境

　　參考前章《安裝Spark 0.8集群(CentOS6.4) - 大數據之內存計算》

　　2. 測試描述

　　使用在線測試數據生工具，動態生成如下json數據(名稱DATA[1-9].json)：

　　{"id":10,"first_name":"Ralph","last_name":"Kennedy","country":"Colombia","ip_address":"12.211.41.162","email":"rkennedy@oyonder.net"},

　　{"id":11,"first_name":"Gary","last_name":"Cole","country":"Nepal","ip_address":"242.67.150.18","email":"gcole@browsebug.info"},

　　…

　　可以數據可以先生成100M左右，然后通過linux cp / cat工具進行數據復制、合并，產生不同大小數據，方便測試。

　　測試任務：

　　對所有*.json數據的ip地址進行簡單統計，包括：ip地址總數統計，“241.*”ip地址段總數統計。將其上傳到HDFS集群上

　　2.1啟動 Spark 集群

　　在master上執行

$>cd ~/spark-0.8.0

$>bin/start-all.sh

　　檢測進程是否啟動

$> jps

11055 Jps

2313 SecondaryNameNode

2409 JobTracker

2152 NameNode

4822 Master

　　瀏覽master的web UI(默認http://localhost:8080). 這是你應該可以看到所有的word節點，以及他們的CPU個數和內存等信息。

　　2.2運行spark-shell從HDFS讀取文件并統計IP地址

// set the master node of spark cluster and runspark-shell

$> MASTER=spark://centos01:7077./spark-shell

// read the json data

$>val file = sc.textFile("hdfs://sdc/user/hadoop/In/DATA*.json")

// filter the json data

$>val ips = file.filter(line => line.contains("ip_address"))

// Count all the IP

$>ips.count()

// Count all the“241.*”IP

$>ips.filter(line => line.contains("241.")).count()

$>ips.filter(line => line.contains("241.")).collect()

　　2.3 運行結果

posted on 2014-01-27 10:46 順其自然EVO 閱讀(425) 評論(0) 編輯收藏所屬分類: linux

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Linux解壓有思路 Linux用netstat查看服務及監聽端口 Linux導航神器—autojump Linux安裝FTP服務 Linux CPU實時監控命令mpstat介紹淺談測試rhel7新功能時的感受 Linux修改時間的方法 Linux下添加PATH環境變量初學者應該如何學習乃至玩好Linux系統呢？ Centos下使用gitosis配置管理git服務端

qileilove

Spark 0.8 集群(CentOS6.4)-簡單統計測試

導航

統計

常用鏈接

留言簿(55)

隨筆分類

隨筆檔案

文章分類

文章檔案

搜索

最新評論

閱讀排行榜

評論排行榜