隨(sui)著(zhu)電子商務、云計算、大數據、人工智能、互聯網(wang)金融等應(ying)用的快速發展,數據中心(xin)單體(ti)規模越(yue)(yue)來越(yue)(yue)大、系統(tong)越(yue)(yue)來越(yue)(yue)復雜,應(ying)對的挑(tiao)戰也越(yue)(yue)來越(yue)(yue)多。
一個好(hao)的數據中心需(xu)要通過科學(xue)的運維管理(li),充分利用技術和設備資源,將運行成本降到最低,同時能源利用率最大化。
京東(dong)在宿遷的(de)(de)自(zi)建數據中(zhong)心,按照世界一流數據中(zhong)心的(de)(de)理念設計和建設,也按照國際(ji)先(xian)進的(de)(de)運(yun)營管理模式投(tou)入運(yun)行。
作(zuo)為數(shu)據(ju)中心(xin)生命周期中最(zui)重(zhong)要的一環(huan),如何針對基礎設(she)施,各種IT設(she)備,信息與數(shu)據(ju),應用軟件等各方面展開數(shu)據(ju)中心(xin)的運(yun)維管理,為基礎設(she)施和信息系統提供穩定可靠的運(yun)行環(huan)境,確保他們安全(quan),穩定,可靠,持續并高效(xiao)的運(yun)行。
京東IDC建(jian)設的(de)技術專家們,設計并落地了一套先進的(de)、可靠的(de)智能化基礎(chu)設施運維管理體系,進行(xing)系統性的(de)支撐(cheng)。
接下來的(de)內容,我(wo)們(men)將通過(guo)京(jing)東(dong)自(zi)建數(shu)據(ju)中心在運營(ying)維護中的(de)人,制度,流(liu)程規(gui)范,監控管(guan)理(li)等各個方面,一窺這里是如何(he)高(gao)效滿(man)足(zu)京(jing)東(dong)不斷增(zeng)長(chang)的(de)業務需(xu)求。
1人
京(jing)東(dong)IDC建(jian)(jian)設(she)部(bu)技(ji)術(shu)專(zhuan)家劉銘談到:人(ren)是(shi)數(shu)據(ju)(ju)中(zhong)心(xin)IT設(she)施(shi)運(yun)維(wei)(wei)管(guan)理(li)(li)的(de)(de)基礎(chu),也是(shi)管(guan)理(li)(li)的(de)(de)核心(xin),正所謂是(shi)三分靠技(ji)術(shu),七分靠管(guan)理(li)(li)。京(jing)東(dong)在宿(su)遷(qian)的(de)(de)自建(jian)(jian)數(shu)據(ju)(ju)中(zhong)心(xin),設(she)施(shi)運(yun)維(wei)(wei)管(guan)理(li)(li)核心(xin)團隊(dui)組建(jian)(jian)于(yu)數(shu)據(ju)(ju)中(zhong)心(xin)建(jian)(jian)設(she)初期,主(zhu)要的(de)(de)專(zhuan)業技(ji)術(shu)管(guan)理(li)(li)人(ren)員(yuan)都深度參(can)與了整個數(shu)據(ju)(ju)中(zhong)心(xin)園區的(de)(de)工(gong)程(cheng)建(jian)(jian)設(she)以(yi)及測試(shi)驗證等(deng)重要環節。
在數(shu)據(ju)中心(xin)交付之前,他們(men)就已經充分的(de)了解這個數(shu)據(ju)中心(xin)基礎設施(shi)系統(tong)的(de)構(gou)成(cheng),掌(zhang)握了數(shu)據(ju)中心(xin)設計、施(shi)工(gong)、變更、整改的(de)技(ji)術文檔和(he)測試數(shu)據(ju),哪(na)些(xie)是今(jin)后運維(wei)工(gong)作的(de)特(te)別關(guan)注點,都熟記于心(xin)。
京東自建(jian)數(shu)據中心的實(shi)施(shi)運(yun)維團(tuan)隊主要有(you)兩大工(gong)作職能。第(di)一(yi)個是(shi)實(shi)行7*24小(xiao)時(shi)輪崗工(gong)作制(zhi)的運(yun)維巡(xun)檢團(tuan)隊,他們對(dui)基(ji)礎(chu)設備設施(shi)進(jin)行巡(xun)檢,第(di)一(yi)時(shi)間發(fa)現故障(zhang)或問題。
第二個是對數(shu)據中心(xin)基(ji)礎設施提供運(yun)維技術支持,解(jie)決技術問題的(de)技術管(guan)理團隊,他們承擔(dan)數(shu)據中心(xin)場(chang)地基(ji)礎設施的(de)優化改造工(gong)程和(he)項目管(guan)理工(gong)作(zuo),也是運(yun)維管(guan)理的(de)核心(xin)團隊。
2制度
設備臺賬制度
給每個獨立的(de)數據中心(xin)模塊建立完(wan)整(zheng)并實時更新的(de)設備(bei)(bei)臺(tai)賬。臺(tai)賬包括所(suo)有(you)關鍵基礎設施(shi)設備(bei)(bei)的(de)清單(dan),并完(wan)整(zheng)記錄這些設備(bei)(bei)設施(shi)的(de)運(yun)行情(qing)況(kuang)、事件(jian)情(qing)況(kuang)、變更情(qing)況(kuang)、維護(hu)保養頻次等信息。
對影響安全運行的關鍵設備,比如UPS、冷水機組、精密(mi)空調(diao)等的設定參(can)數(shu)以及關鍵點的報(bao)警閥(fa)值制(zhi)定了(le)統一管理制(zhi)度,結合數(shu)據中心實際運行情況與技術(shu),討論后按統一參(can)數(shu)值設定,運維巡檢人(ren)員不可(ke)以隨意(yi)修(xiu)改(gai)。
預防性維護計劃(hua)
為了延長設(she)(she)備的(de)使用壽命(ming),減少設(she)(she)備故障(zhang)的(de)概率(lv),必須對(dui)所(suo)有(you)設(she)(she)備設(she)(she)施進行有(you)計劃的(de)維護。提前制定月度、季度、年度的(de)預防(fang)性維護計劃。
運維(wei)人員會按照設備(bei)和(he)系統的(de)特性(xing)、維(wei)護流程及規范(fan),及時、完整的(de)落實維(wei)護工作(zuo),并(bing)形成客觀實際(ji)的(de)記錄和(he)報告存檔(dang)。
此外,運維(wei)團(tuan)隊還定期對設備(bei)運行狀態的數據進行統(tong)計和趨勢量化(hua)分(fen)析,對于異常的趨勢,及時作出報(bao)警和相關(guan)預案(an)。
通過定期檢查和(he)保養,使(shi)得(de)設備設施的某些(xie)缺陷或隱(yin)患(huan)在變得(de)更嚴重之前被(bei)發現。
維修工單制度
運維(wei)人員(yuan)在(zai)接到(dao)工(gong)單(dan)時(shi),能明確獲悉工(gong)作任務與注意(yi)事項,提前(qian)熟悉操(cao)作流(liu)程,做到(dao)心中有數。在(zai)維(wei)修(xiu)操(cao)作過程中,工(gong)單(dan)也可(ke)以起到(dao)指導(dao)操(cao)作的(de)作用;在(zai)維(wei)修(xiu)工(gong)作結束交單(dan)、備案歸檔。如果(guo)在(zai)維(wei)修(xiu)過程中遇(yu)到(dao)困難,也便于(yu)及(ji)時(shi)通(tong)過上溯的(de)渠道,快(kuai)速解決問題。
3監控
京東在宿遷的自建數據中(zhong)心(xin)(xin)園區中(zhong),包含有4個數據中(zhong)心(xin)(xin)模(mo)塊(kuai),每個模(mo)塊(kuai)都配置(zhi)有一個獨立的監(jian)控中(zhong)心(xin)(xin),整個園區中(zhong)心(xin)(xin)位置(zhi)設置(zhi)了綜合監(jian)控中(zhong)心(xin)(xin)ECC。
ECC的綜合智能(neng)監控管(guan)理(li)平(ping)臺,可(ke)以實現(xian)對數據中心各(ge)設(she)備和(he)系統(tong)的統(tong)一監控與(yu)管(guan)理(li),提(ti)高整個系統(tong)的運行可(ke)靠(kao)性(xing)、穩定性(xing)和(he)擴(kuo)展性(xing),實現(xian)機(ji)房的科學管(guan)理(li)。
作為園區(qu)級的監控平臺,ECC很好的實現(xian)了:
1、可視化展(zhan)示各(ge)設(she)備設(she)施實時狀(zhuang)態,實時掌(zhang)握可用性狀(zhuang)況;
2、業(ye)務流程(cheng)規范化(hua)管理,變更(geng)風險(xian)管控,降低變更(geng)帶給(gei)業(ye)務的影響;
3、復雜事件(jian)分(fen)析處理,準確定位故障;大(da)數據分(fen)析,智(zhi)能預警;
4、設(she)備(bei)部署合理化,平衡各維度容量(liang)綜合利用率,避(bi)免單項容量(liang)短板;
5、可視化容量(liang)管(guan)理,直觀展示(shi)容量(liang)使用情況及趨勢分析,擴容決策及時準(zhun)確;
6、提供多維(wei)度運(yun)(yun)行分析報告,為(wei)運(yun)(yun)營決策提供數據支(zhi)持;
7、重大(da)故障(zhang)可實時準確提(ti)供(gong)數據(ju)中心應(ying)急(ji)預案;
模塊(kuai)級的(de)監控系統對基礎設施(shi)的(de)監控包括電氣,動力,環(huan)境三部分(fen),實時進(jin)行監測和展(zhan)示被監控的(de)設備。
系統的(de)架(jia)構包含現場設備的(de)數(shu)據采集(ji)層(ceng)、現場設備監(jian)控(kong)(kong)層(ceng)和集(ji)中重慶監(jian)控(kong)(kong)</a> //lctw.com.cn監(jian)控(kong)(kong)層(ceng)。
現(xian)場(chang)設備(bei)數(shu)據采(cai)(cai)集層:由各種(zhong)I/O采(cai)(cai)集模(mo)塊組成,連(lian)接(jie)所有傳感器和被(bei)監(jian)控(kong)設備(bei),實現(xian)監(jian)控(kong)平臺與(yu)被(bei)監(jian)控(kong)對(dui)象的(de)數(shu)據通(tong)訊。所有硬件采(cai)(cai)用模(mo)塊化架構,I/O模(mo)塊采(cai)(cai)集傳感器數(shu)據后,通(tong)過系統配(pei)置實現(xian)對(dui)所有傳感器的(de)數(shu)據匹配(pei)對(dui)應,直接(jie)接(jie)入現(xian)場(chang)監(jian)控(kong)層。
現場設(she)備監(jian)控層(ceng):由多臺嵌入式服(fu)務器或獨立(li)網絡控制器組成,負責(ze)收(shou)集(ji)與處(chu)理(li)由現場設(she)備采(cai)集(ji)層(ceng)發(fa)送過來的數據。
模塊集中監(jian)控(kong)層(ceng):采集現場(chang)設備監(jian)控(kong)層(ceng)上(shang)傳的(de)數據,對模塊內的(de)現場(chang)監(jian)控(kong)服務器(qi)進行集中管(guan)理(li),實時監(jian)測組內基礎(chu)設施的(de)參(can)數、狀態(tai),并提供(gong)遠(yuan)程瀏(liu)覽(lan)。在這個模塊中的(de)監(jian)控(kong)數據,可以直接上(shang)傳至園(yuan)區綜合監(jian)控(kong)中心ECC的(de)綜合監(jian)控(kong)層(ceng)。
集(ji)中管理(li)平臺(tai)配置了“雙(shuang)(shuang)服(fu)務(wu)器+雙(shuang)(shuang)數(shu)(shu)據庫(ku)”,實(shi)現容錯(cuo)配置。也開發(fa)了移動終端(duan)操(cao)控平臺(tai),可(ke)以對數(shu)(shu)據中心的基礎業務(wu)進行實(shi)時操(cao)控
京東IT資源服(fu)務部負責人(ren)呂科說:“京東自(zi)建數(shu)(shu)(shu)據(ju)中(zhong)(zhong)(zhong)心(xin)的(de)(de)設施(shi)運維(wei)(wei)管(guan)(guan)理(li)有(you)一個非常重要的(de)(de)目(mu)(mu)標(biao),那就(jiu)是(shi)要“建立一套持續(xu)改(gai)進(jin)的(de)(de)機制”,這(zhe)一點(dian)往(wang)(wang)往(wang)(wang)容(rong)易被行業從業人(ren)員所忽略。數(shu)(shu)(shu)據(ju)中(zhong)(zhong)(zhong)心(xin)設施(shi)運維(wei)(wei)管(guan)(guan)理(li)與數(shu)(shu)(shu)據(ju)中(zhong)(zhong)(zhong)心(xin)設施(shi)系統建設階(jie)段的(de)(de)項(xiang)目(mu)(mu)管(guan)(guan)理(li)有(you)很大的(de)(de)不(bu)(bu)同(tong),項(xiang)目(mu)(mu)管(guan)(guan)理(li)是(shi)一次(ci)性(xing)的(de)(de),必(bi)須保障“當前最佳”。而數(shu)(shu)(shu)據(ju)中(zhong)(zhong)(zhong)心(xin)運維(wei)(wei)管(guan)(guan)理(li)則是(shi)一個不(bu)(bu)斷迭代(dai)的(de)(de)過程,“一套持續(xu)改(gai)進(jin)的(de)(de)機制”可以保障數(shu)(shu)(shu)據(ju)中(zhong)(zhong)(zhong)心(xin)運行效率不(bu)(bu)斷提高、重慶監控(kong)</a> //lctw.com.cn運行成本不(bu)(bu)斷降(jiang)低。數(shu)(shu)(shu)據(ju)中(zhong)(zhong)(zhong)心(xin)的(de)(de)設施(shi)運維(wei)(wei)工(gong)作就(jiu)是(shi)這(zhe)樣(yang)一個不(bu)(bu)斷優化的(de)(de)過程,這(zhe)也是(shi)我們的(de)(de)目(mu)(mu)標(biao):沒有(you)最好,只有(you)更好。”