
LinkSLA智能運(yùn)維管家對(duì)主流數(shù)據(jù)庫(kù)的監(jiān)控,能夠及時(shí)發(fā)現(xiàn)異常,快速響應(yīng),保障業(yè)務(wù)系統(tǒng)的穩(wěn)定。平臺(tái)通過(guò)對(duì)SQL Server數(shù)據(jù)庫(kù)監(jiān)控,幫助用戶在數(shù)據(jù)庫(kù)出現(xiàn)異常時(shí)事件處理。
(資料圖)
1 、數(shù)據(jù)庫(kù)服務(wù)器基本性能監(jiān)控。包括:服務(wù)器的CPU數(shù)量,內(nèi)存大小,服務(wù)器在線時(shí)間,在線數(shù)據(jù)實(shí)例個(gè)數(shù),離線數(shù)據(jù)實(shí)例個(gè)數(shù)和掛起的數(shù)據(jù)實(shí)例個(gè)數(shù)。
2、監(jiān)控?cái)?shù)據(jù)庫(kù)基本統(tǒng)計(jì)信息。比如實(shí)時(shí)用戶連接數(shù),實(shí)時(shí)的活動(dòng)臨時(shí)數(shù)據(jù)表個(gè)數(shù),平均每秒登錄的用戶數(shù)和平均每秒登出的用戶數(shù)等。
3、對(duì)數(shù)據(jù)庫(kù)鎖的監(jiān)控。每秒超值鎖的個(gè)數(shù)和死鎖的個(gè)數(shù)。
4、對(duì)數(shù)據(jù)庫(kù)內(nèi)存使用情況監(jiān)控。包括數(shù)據(jù)庫(kù)運(yùn)行需要的理想的內(nèi)存和實(shí)際使用的內(nèi)存量,以及成功獲取內(nèi)存授權(quán)的進(jìn)程數(shù)和正在等待內(nèi)存授權(quán)的進(jìn)程數(shù)量。
5、數(shù)據(jù)庫(kù)資源池分配,默認(rèn)包括default資源和內(nèi)部資源,內(nèi)部資源是保證數(shù)據(jù)庫(kù)正常運(yùn)行所需消耗的CPU和內(nèi)存資源。
6、對(duì)數(shù)據(jù)庫(kù)內(nèi)存緩沖區(qū)管理監(jiān)控, 包括數(shù)據(jù)庫(kù)命中率,頁(yè)預(yù)期壽命,和每秒物理讀頁(yè)數(shù)和每秒物理寫頁(yè)數(shù),以及每秒物理惰性寫次數(shù)。
數(shù)據(jù)命中率值不能低于 90%,頁(yè)預(yù)期壽命是數(shù)據(jù)頁(yè)在緩存中停留的時(shí)間,當(dāng)數(shù)據(jù)頁(yè)在緩存中低于300S就被置換出去時(shí),需要檢查分配給數(shù)據(jù)庫(kù)使用的內(nèi)存,是否存在內(nèi)存不足問(wèn)題。
7、監(jiān)控?cái)?shù)據(jù)庫(kù)實(shí)例。在這里我們可以看到SQL server中的所有數(shù)據(jù)庫(kù)實(shí)例,以及每個(gè)數(shù)據(jù)實(shí)例的數(shù)據(jù)文件和日志文件大小,并可以根據(jù)時(shí)序圖,對(duì)文件大小進(jìn)行趨勢(shì)預(yù)測(cè)。
8、數(shù)據(jù)庫(kù)的IO監(jiān)控。包括每秒從數(shù)據(jù)庫(kù)讀取的字節(jié)數(shù)和每秒從數(shù)據(jù)庫(kù)寫入的字節(jié)數(shù),這兩個(gè)參數(shù)可以反映反映了數(shù)據(jù)庫(kù)緩存和磁盤之間的IO交換的性能。
9、對(duì)SQL Server中的錯(cuò)誤監(jiān)控。例如DB離線錯(cuò)誤,信息錯(cuò)誤和用戶錯(cuò)誤等。
10、對(duì)數(shù)據(jù)庫(kù)中等待進(jìn)程的統(tǒng)計(jì)監(jiān)控。列出線程所遇到的所有等待的相關(guān)信息。比如等待CPU資源的進(jìn)程數(shù),平均等待時(shí)間。等待內(nèi)存資源的進(jìn)程數(shù),平均等待時(shí)間。以及等待鎖的進(jìn)程數(shù)和等待網(wǎng)絡(luò)IO的進(jìn)程數(shù)等等。對(duì)數(shù)據(jù)庫(kù)每秒錯(cuò)誤數(shù)監(jiān)控和等待時(shí)間監(jiān)控,可以幫助我們來(lái)診斷 SQL Server 以及特定查詢和批處理的性能問(wèn)題。
10月13日,某三甲醫(yī)院新接入4臺(tái)服務(wù)器系統(tǒng)、4個(gè)SQL server數(shù)據(jù)庫(kù),系統(tǒng)對(duì)HIS數(shù)據(jù)庫(kù)進(jìn)行重點(diǎn)監(jiān)控。
自10月15日起,LinkSLA智能運(yùn)維平臺(tái)監(jiān)測(cè)到新接入的HIS/CIS數(shù)據(jù)庫(kù)多次發(fā)生重啟,MOC工程師通知用戶進(jìn)行查看重啟原因;
報(bào)告數(shù)據(jù)庫(kù)有超時(shí)鎖超出閾值告警。鎖等待時(shí)間是一個(gè)進(jìn)程花費(fèi)在等待另一個(gè)進(jìn)程釋放鎖的時(shí)間。
MOC工程師及時(shí)與應(yīng)用廠商的數(shù)據(jù)工程師反饋,對(duì)方未發(fā)現(xiàn)有重啟事件。
MOC工程師將數(shù)據(jù)庫(kù)運(yùn)行時(shí)間展示給應(yīng)用廠商的工程師查看:HIS/CIS DB092172.20.64.xx數(shù)據(jù)庫(kù)運(yùn)行時(shí)間是212分鐘,在6點(diǎn)21分時(shí)重啟,這個(gè)參數(shù)值是數(shù)據(jù)庫(kù)的運(yùn)行指標(biāo)值。請(qǐng)檢查數(shù)據(jù)庫(kù)重啟的原因。
通過(guò)數(shù)據(jù)庫(kù)運(yùn)行時(shí)間,確認(rèn)數(shù)據(jù)庫(kù)發(fā)生重啟,提高問(wèn)題關(guān)注度。
應(yīng)用廠商的工程師通過(guò)登錄數(shù)據(jù)庫(kù)確認(rèn),確認(rèn)數(shù)據(jù)庫(kù)反復(fù)重啟現(xiàn)象。
接下來(lái)的一周,數(shù)據(jù)庫(kù)仍然時(shí)常發(fā)生重啟,每秒超時(shí)鎖數(shù)量超出閾值。由于系統(tǒng)集群沒(méi)有異常報(bào)錯(cuò),應(yīng)用廠商數(shù)據(jù)工程師并未重視。
?
經(jīng)過(guò)MOC工程師反復(fù)通報(bào)數(shù)據(jù)庫(kù)重啟問(wèn)題,引起用戶重視。應(yīng)用廠商的數(shù)據(jù)庫(kù)工程師經(jīng)過(guò)排查,發(fā)現(xiàn)是SQL Server數(shù)據(jù)庫(kù)bug導(dǎo)致反復(fù)重啟,對(duì)數(shù)據(jù)庫(kù)進(jìn)行打補(bǔ)丁升級(jí)。
打補(bǔ)丁升級(jí)后,MOC工程師持續(xù)監(jiān)測(cè)SQL server數(shù)據(jù)庫(kù)問(wèn)題。后期未發(fā)生SQL Server數(shù)據(jù)庫(kù)反復(fù)重啟問(wèn)題,告警得以解除。
從HIS數(shù)據(jù)庫(kù)安裝后,發(fā)生反復(fù)自動(dòng)重啟,應(yīng)用廠商的數(shù)據(jù)工程師未發(fā)現(xiàn)重啟故障。接到MOC工程師告警后,應(yīng)用廠商的數(shù)據(jù)工程師認(rèn)為集群沒(méi)有異常報(bào)錯(cuò),并未著急處理。但是HIS系統(tǒng)是醫(yī)院的核心系統(tǒng),數(shù)據(jù)庫(kù)反復(fù)自動(dòng)重啟,存在很大的安全隱患。平臺(tái)多次告警,鎖定SQL Server數(shù)據(jù)庫(kù)bug導(dǎo)致,并進(jìn)行打補(bǔ)丁升級(jí),數(shù)據(jù)庫(kù)反復(fù)重啟問(wèn)題解決。
通過(guò)這個(gè)案例可以了解到,業(yè)務(wù)系統(tǒng)由應(yīng)用廠商安裝和維護(hù),出現(xiàn)故障隱患時(shí),用戶并不能及時(shí)感知,更無(wú)法及時(shí)解決。LinkSLA智能運(yùn)維管家?guī)椭脩粢徽臼奖O(jiān)控所有業(yè)務(wù)系統(tǒng),及時(shí)發(fā)現(xiàn)故障MOC工程師并持續(xù)跟蹤,直至問(wèn)題解決,形成服務(wù)閉環(huán)。為用戶提供省心、放心的IT運(yùn)維服務(wù),保障用戶系統(tǒng)健康穩(wěn)定運(yùn)行。
聲明:文案&圖片為原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明。
聯(lián)系我們:電話 400-828-1855。
標(biāo)簽: 業(yè)務(wù)系統(tǒng) 運(yùn)行時(shí)間