作者: ecsun  鏈接:http://papa.javaeye.com/blog/228331  發表時間: 2008年08月15日

聲明:本文系JavaEye網站發布的原創博客文章,未經作者書面許可,嚴禁任何網站轉載本文,否則必將追究法律責任!

最近接手了公司的服務器監控部分的工作,一直忙于這方面工作的前期設計.

  公司現在有200多臺分布在全國各地的服務器,有應用的,有搜索引擎的,有數據庫的,有緩存的,有web的,有wap的,等等等,這些服務器有時候不太聽話,多多少少偶爾會搞出點意想不到的問題,而早先做的監控系統,又不能及時的響應這些問題,同時,明年服務器的數量要增加到大約2000臺,所以就需要對這么多服務器進行全面的監控.規則設計新的監控系統對數量眾多的服務器進行管理,勢在必行.

  而對于監控,我是一個新手,可以說一問三不知,早年學習的SNMP,CMIP之類的,早不知道忘記到哪里去了,重新查資料,翻手冊,還好,網上多多少少有一些資料,但優秀的snmp的中文資料,實在是少之又少,找了大半天,在網上可以找到的關于snmp的中文資料,基本都收錄到我的博客里了.
 
   先大致描述一下要做什么吧.

1.監控公司各種搜索產品的運行狀況,這些搜索產品包括,新聞啊,圖片啊,mp3啊,鈴聲啊,游戲啊等等
2.監控公司各主要服務器的實時狀態,這一塊比較多,總的來說有cpu的,內存的,磁盤的,網卡的,網絡連接數端口數的等等,總之服務器上可能出現問題的設備都要監控起來
3.監控公司各個數據庫服務器的狀態
4.監控服務上運行服務的運行狀態
....

總之都是抓數據,抓狀態,然后將狀態實時的展現出來,如果哪一被監控的東東出了問題,要馬上發出警報,郵件啊,短信啊,在線通知啊...就是要第一時間廣播出去異常信息.公司員工手機要求24小時開機,哎,苦了這幫兄弟,監控千萬別誤報,要不每天都要打攏400來個兄弟姐妹的春秋大夢啊~

搞了兩三個星期,總算有點頭緒了,snmp部分的資料,搞的差不多了,對服務器狀態的監控,靠它了.應用的,相對比較成熟,早期就已經實現的很好的,數據庫服務器的,沒問題,服務狀態的,沒問題了,下一步可以考慮一下怎么去實現的問題了.

有兄弟可能會說, cacti做的已經很好啊,干嘛要自己再發明一輪子,是啊cacti已經做的很好了,而且可以很容易的擴展 ,干嘛要再發明一輪子啊?實在不想用cacti,mrgt也可以啊?要不就snmpJ,哎,一言難盡,先折騰吧~

已有 8 人發表留言,猛擊->>這里<<-參與討論


JavaEye推薦