paulwong

My Links

Blog Stats

Posts - 1193
Stories - 10
Comments - 108
Trackbacks - 0

常用鏈接

留言簿(67)

隨筆分類(1388)

隨筆檔案(1146)

文章分類(7)

文章檔案(10)

相冊

Test

收藏夾(2)

AI

AI智能PDF問答工具
CSV數據分析智能工具
docker image
ZLibrary
克隆ChatGPT
爆款小紅書AI寫作助手
視頻腳本生成器

Develop

!!!Event Sourcing
!!!Microservice Patterns
!!!NIO清晰解釋
!!PDF SEARCH
4+1 Architectural View Model
Apache安裝及jboss部署說明文檔
APK自動化測試網站
Command-Query Responsibility Segregation
data source
ELK日志分析平臺搭建全過程
Enterprise Architect中文網
EXT 中文站 ver2.0 since 2006-11-20
GOOGLE
GOOGLE
GOOGLE
Google代理
GOREAD RSS閱讀器
INOREADER RSS閱讀器
JavaScript 全棧工程師培訓教程
JBoss3.0 下配置和部署EJB簡介
Jquery Option Plug-in
LCA
MAVEN最佳實踐-版本管理
microservice-security
Mulity Tenant
MYSQL MHA
OAUTH2.0
RARBG TORRENT
Robin's Java World
Spring Boot Admin的使用
spring cloud
SPRING CLOUD教程
Spring 平臺整合 Activiti 工作流引擎實例
SPRING-BEAN自動組裝解釋
Spring-cloud-OAuth2-0配置
SQL2005客戶端下載
SRPING BOOT教程
TCC
TCC
TCC
一個extjs的好網站
一個優秀的CQRS框架Reveno
一個非常不錯的J2EE框架。
一個非常不錯的J2EE框架，從前端的JSP，到菜單，用戶和權限，都有了，還集成了STRUTS。
東莞源豐印刷
本人設計
中國象棋
中國軟件架構師網
不錯的培訓網，有相關文檔下載。
五行湯好轉反應
五行湯好轉反應
人體自愈的秘密
分布式事務1
分布式架構教學
各種大數據
在SPRING CLOUD中使用JAX-RS發布REST服務
在線思維導圖工具
大數據相關應用
學習課程
學習課程
安徽未名細胞治療有限公司
建模工具EA的使用
開源會議系統
指定MAVEN中的JDK版本
數據層的多租戶淺談
無法連接ITUNES STORE的原因
深圳房網
深圳通余額查詢
甘油三脂高應該用什么樣的食療方法
神級翻譯
簡歷模版
管理學
自動組裝SPRING-BEAN例子
通俗易懂的文章收藏
開放式課程
駕車學習
駕駛教學

E-BOOK

Ebook
ex libgen.io, libgen.org, alternative domains: *.li, *.gs, *.lc
EPDF
http://www.allitebooks.org

搜索

閱讀排行榜

評論排行榜

監控HBASE

@import url(http://www.aygfsteel.com/CuteSoft_Client/CuteEditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css);

Hadoop/Hbase是開源版的google Bigtable, GFS, MapReduce的實現，隨著互聯網的發展，大數據的處理顯得越發重要，Hadoop/Hbase的用武之地也越發廣泛。為了更好的使用Hadoop/Hbase系統，需要有一套完善的監控系統，來了解系統運行的實時狀態，做到一切盡在掌握。Hadoop/Hbase有自己非常完善的metrics framework, 里面包種各種維度的系統指標的統計，另外，這套metrics framework設計的也非常不錯，用戶可以很方便地添加自定義的metrics。更為重要的一點是metrics的展示方式，目前它支持三種方式：一種是落地到本地文件，一種是report給Ganglia系統，另一種是通過JMX來展示。本文主要介紹怎么把Hadoop/Hbase的metrics report給Ganglia系統，通過瀏覽器來查看。

介紹后面的內容之前有必要先簡單介紹一下Ganglia系統。Ganglia是一個開源的用于系統監控的系統，它由三部分組成：gmond, gmetad, webfrontend, 三部分是這樣分工的：

gmond: 是一個守護進程，運行在每一個需要監測的節點上，收集監測統計，發送和接受在同一個組播或單播通道上的統計信息
gmetad: 是一個守護進程，定期檢查gmond，從那里拉取數據，并將他們的指標存儲在RRD存儲引擎中
webfrontend: 安裝在有gmetad運行的機器上，以便讀取RRD文件，用來做前臺展示

簡單總結它們三者的各自的功用，gmond收集數據各個node上的metrics數據，gmetad匯總gmond收集到的數據，webfrontend在前臺展示gmetad匯總的數據。Ganglia缺省是對系統的一些metric進行監控，比如cpu/memory/net等。不過Hadoop/Hbase內部做了對Ganglia的支持，只需要簡單的改配置就可以將Hadoop/Hbase的metrics也接入到ganglia系統中進行監控。

接下來介紹如何把Hadoop/Hbase接入到Ganglia系統，這里的Hadoop/Hbase的版本號是0.94.2，早期的版本可能會有一些不同，請注意區別。Hbase本來是Hadoop下面的子項目，因此所用的metrics framework原本是同一套Hadoop metrics，但后面hadoop有了改進版本的metrics framework:metrics2(metrics version 2), Hadoop下面的項目都已經開始使用metrics2, 而Hbase成了Apache的頂級子項目，和Hadoop成為平行的項目后，目前還沒跟進metrics2，它用的還是原始的metrics.因此這里需要把Hadoop和Hbase的metrics分開介紹。

Hadoop接入Ganglia:

1. Hadoop metrics2對應的配置文件為：hadoop-metrics2.properties
2. hadoop metrics2中引用了source和sink的概念，source是用來收集數據的, sink是用來把source收集的數據consume的（包括落地文件，上報ganglia，JMX等）
3. hadoop metrics2配置支持Ganglia:

#*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink30
*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31

*.sink.ganglia.period=10
*.sink.ganglia.supportsparse=true
*.sink.ganglia.slope=jvm.metrics.gcCount=zero,jvm.metrics.memHeapUsedM=both
*.sink.ganglia.dmax=jvm.metrics.threadsBlocked=70,jvm.metrics.memHeapUsedM=40

#uncomment as your needs
namenode.sink.ganglia.servers=10.235.6.156:8649
#datanode.sink.ganglia.servers=10.235.6.156:8649
#jobtracker.sink.ganglia.servers=10.0.3.99:8649
#tasktracker.sink.ganglia.servers=10.0.3.99:8649
#maptask.sink.ganglia.servers=10.0.3.99:8649
#reducetask.sink.ganglia.servers=10.0.3.99:8649

這里需要注意的幾點：

(1) 因為Ganglia3.1與3.0不兼容，需要根據Ganglia的版本選擇使用GangliaSink30或者GangliaSink31
(2) period配置上報周期，單位是秒(s)
(3) namenode.sink.ganglia.servers指定Ganglia gmetad所在的host:port，用來向其上報數據
(4) 如果同一個物理機器上同時啟動了多個hadoop進程(namenode/datanode, etc)，根據需要把相應的進程的sink.ganglia.servers配置好即可
Hbase接入Ganglia:

1. Hbase所用的hadoop metrics對應的配置文件是: hadoop-metrics.properties
2. hadoop metrics里核心是Context，寫文件有寫文件的TimeStampingFileContext, 向Ganglia上報有GangliaContext/GangliaContext31
3. hadoop metrics配置支持Ganglia:

# Configuration of the "hbase" context for ganglia
# Pick one: Ganglia 3.0 (former) or Ganglia 3.1 (latter)
# hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext
hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
hbase.period=10
hbase.servers=10.235.6.156:8649

這里需要注意幾點：

(1) 因為Ganglia3.1和3.0不兼容，所以如果是3.1以前的版本，需要用GangliaContext, 如果是3.1版的Ganglia，需要用GangliaContext31
(2) period的單位是秒(s)，通過period可以配置向Ganglia上報數據的周期
(3) servers指定的是Ganglia gmetad所在的host:port，把數據上報到指定的gmetad
(4) 對rpc和jvm相關的指標都可以進行類似的配置

posted on 2013-02-04 15:08 paulwong 閱讀(1228) 評論(0) 編輯收藏所屬分類: 分布式、HADOOP 、云計算、HBASE

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: !!!架構網站內容不錯 SPRING CACHE資源使用WILDFLY中的分布式緩存INFISHPAN SPRING-SESSION 分布式調度QUARTZ+SPRING 樂視 TV 載入 4K 片點解咁快？CDN 網絡解構 Java并行處理框架 JPPF 騰訊CKV海量分布式存儲系統【轉載】經典漫畫講解HDFS原理一些數據切分、緩存、rpc框架、nosql方案資料