監控工程萬建電子介紹監控知識:
1、監控方法
1.了(le)(le)解(jie)監控對(dui)象(xiang):我們要監控的對(dui)象(xiang)你是否了(le)(le)解(jie)呢?比如CPU到底是如何(he)工作的?
2.性能(neng)基準(zhun)指標:我們要監控這個東西的什么屬(shu)性?比(bi)如(ru)CPU的使用率、負載(zai)、用戶態、內(nei)核(he)態、上下文切換。
3.報警閾值定義:怎么樣才算(suan)是故障,要報警呢?比如CPU的負載到底多(duo)少算(suan)高,用戶態、內核態分別跑(pao)多(duo)少算(suan)高?
4.故障處(chu)理(li)流(liu)程:收到了故障報(bao)警,那(nei)么(me)我(wo)們怎么(me)處(chu)理(li)呢?有(you)什么(me)更高效的處(chu)理(li)流(liu)程嗎?
2、監控核心
1.發(fa)現問題:當系統發(fa)生(sheng)故障報警(jing),我們會收到故障報警(jing)的信息(xi)
2.定位問題(ti):故(gu)障(zhang)郵件一(yi)般都會寫某某主(zhu)機故(gu)障(zhang)、具體(ti)(ti)故(gu)障(zhang)的(de)內容,我(wo)(wo)(wo)們需要(yao)對報警內容進行(xing)分析(xi),比如(ru)一(yi)臺服(fu)務器(qi)連不上:我(wo)(wo)(wo)們就需要(yao)考慮(lv)是網絡(luo)問題(ti)、還是負載(zai)太高導(dao)致長時間無法連接,又(you)或者(zhe)某開發觸(chu)發了防(fang)火(huo)墻(qiang)禁止(zhi)的(de)相關(guan)策略等等,我(wo)(wo)(wo)們就需要(yao)去分析(xi)故(gu)障(zhang)具體(ti)(ti)原因。
3.解(jie)決(jue)(jue)問題:當然我(wo)們(men)了解(jie)到故障的原因后,就需要通過(guo)故障解(jie)決(jue)(jue)的優先(xian)級(ji)去(qu)解(jie)決(jue)(jue)該故障。
4.總結(jie)問題:當我們解(jie)決完重大故障后(hou),需要對故障原(yuan)因以及防范進行總結(jie)歸納,避免以后(hou)重復出現。