新聞中心

創(chuàng)新互聯(lián)專注于網(wǎng)站建設(shè),為客戶提供做網(wǎng)站、成都網(wǎng)站制作、網(wǎng)頁(yè)設(shè)計(jì)開發(fā)服務(wù),多年建網(wǎng)站服務(wù)經(jīng)驗(yàn),各類網(wǎng)站都可以開發(fā),成都品牌網(wǎng)站建設(shè),公司官網(wǎng),公司展示網(wǎng)站,網(wǎng)站設(shè)計(jì),建網(wǎng)站費(fèi)用,建網(wǎng)站多少錢,價(jià)格優(yōu)惠,收費(fèi)合理。
?引言
ITIL將IT服務(wù)管理分為十個(gè)核心流程管理和一項(xiàng)管理職能,目前國(guó)內(nèi)銀行的運(yùn)維體系大多基于ITIL規(guī)范建立。在ITIL十個(gè)核心流程之一的事件管理中,事件是指任何不符合標(biāo)準(zhǔn)操作且已經(jīng)引起或可能引起服務(wù)中斷和服務(wù)質(zhì)量下降的操作。銀行的IT系統(tǒng)中,“事件”的表現(xiàn)形式五花八門,但處理事件的要訣只有一個(gè)“天下武功,唯快不破”,根據(jù)事件的分類、影響范圍和緊急程度,用一切可能的辦法“不擇手段”地快速解決。本文想淺談G行應(yīng)用管理中事件的發(fā)現(xiàn)過(guò)程,即應(yīng)用監(jiān)控的建設(shè),以及從應(yīng)用監(jiān)控到可視化運(yùn)營(yíng)的發(fā)展方向。
傳統(tǒng)監(jiān)控體系概況
傳統(tǒng)的應(yīng)用監(jiān)控指從應(yīng)用層對(duì)應(yīng)用交易的處理性能、流量、帶寬占用、用戶行為、渠道來(lái)源、服務(wù)占用等進(jìn)行實(shí)時(shí)監(jiān)控、分析、報(bào)警,下表簡(jiǎn)單羅列了通用的應(yīng)用基礎(chǔ)監(jiān)控。
|
應(yīng)用基礎(chǔ)監(jiān)控 | |||||
|
類別 |
監(jiān)控方式 |
指標(biāo) |
類別 |
監(jiān)控方式 |
指標(biāo) |
|
資源層 |
進(jìn)程 |
進(jìn)程數(shù)量 |
應(yīng)用層 |
應(yīng)用功能 |
健康檢查 |
|
進(jìn)程 |
GC次數(shù)/分鐘 |
業(yè)務(wù)層 |
聯(lián)機(jī)交易 |
整體交易成功率 | |
|
文件 |
COREDUMP |
整體交易響應(yīng)時(shí)間 | |||
|
異常文件 |
整體交易量 | ||||
|
文件 |
缺失關(guān)鍵文件 |
整體交易響應(yīng)率 | |||
|
文件 |
密鑰交換狀態(tài) |
聯(lián)機(jī)交易 |
單支交易成功率 | ||
|
文件 |
日志關(guān)鍵字 |
單支交易響應(yīng)時(shí)間 | |||
|
網(wǎng)絡(luò) |
端口監(jiān)控 |
單支交易量 | |||
|
網(wǎng)絡(luò) |
網(wǎng)絡(luò)長(zhǎng)連接 |
單支交易響應(yīng)率 | |||
|
組件層 |
線程池 |
線程池狀態(tài) |
WEB頁(yè)面 |
頁(yè)面監(jiān)控 | |
|
數(shù)據(jù)庫(kù)連接池 |
JEDIS連接池 |
批量任務(wù) |
批量任務(wù)狀態(tài) | ||
|
應(yīng)用API |
加密API連接 |
集群環(huán)境 |
F5池可用率 | ||
|
應(yīng)用隊(duì)列 |
隊(duì)列深度 |
部署層 |
集群環(huán)境 |
集群狀態(tài) | |
應(yīng)用監(jiān)控主要確保應(yīng)用基礎(chǔ)環(huán)境和運(yùn)行性能正常,并提供積極的用戶體驗(yàn),應(yīng)用監(jiān)控工具為IT管理提供必要的信息,幫助進(jìn)行事件處置:隔離、服務(wù)降級(jí)或重啟。
1. 傳統(tǒng)監(jiān)控體系下的應(yīng)用基礎(chǔ)監(jiān)控
Google SRE 定義了四個(gè)需要監(jiān)控的關(guān)鍵指標(biāo)。延遲(Latency),流量(Traffic),錯(cuò)誤(Errors)和飽和度(Saturation)。
延遲 (Latency)
延遲是服務(wù)處理傳入請(qǐng)求和發(fā)送響應(yīng)所用時(shí)間的度量。測(cè)量服務(wù)延遲有助于及早發(fā)現(xiàn)服務(wù)的緩慢。
- 流量 (Traffic)
流量可以更好地理解服務(wù)需求。通常稱為服務(wù) QPS(每秒查詢數(shù)),流量是服務(wù)請(qǐng)求量的度量。此信號(hào)可幫助您決定何時(shí)需要擴(kuò)大服務(wù)規(guī)模以應(yīng)對(duì)不斷增長(zhǎng)的客戶需求,或縮小服務(wù)規(guī)模以提高成本效益。
- 錯(cuò)誤 (Errors)
錯(cuò)誤是對(duì)客戶端請(qǐng)求失敗的度量。這些故障可以根據(jù)應(yīng)用程序的響應(yīng)返回碼、日志中的關(guān)鍵字輕松識(shí)別。在某些情況下,由于錯(cuò)誤的結(jié)果數(shù)據(jù)或違反了約定,響應(yīng)被認(rèn)為是錯(cuò)誤的。除了響應(yīng)碼之外,可能還需要其他的代碼邏輯輸出的錯(cuò)誤日志來(lái)捕獲錯(cuò)誤。
- 飽和度 (Saturation)
飽和度是服務(wù)器資源利用率的度量。這個(gè)信號(hào)告訴你服務(wù)資源的狀態(tài)以及它們有多“滿”。這些資源包括內(nèi)存、cpu、網(wǎng)絡(luò) I/O 等。在資源利用率達(dá)到 100% 之前,服務(wù)性能也會(huì)緩慢下降。因此,有一個(gè)利用率目標(biāo)很重要。延遲的增加是飽和度的一個(gè)很好的指標(biāo)。
正如Google SRE所討論的,通過(guò)各類技術(shù)工具Zabbix、Prometheus、grafana等實(shí)現(xiàn)衡量服務(wù)的四個(gè)指標(biāo),可以實(shí)現(xiàn)對(duì)一個(gè)業(yè)務(wù)系統(tǒng)最基礎(chǔ)的監(jiān)控。
2. 傳統(tǒng)監(jiān)控體系的痛點(diǎn)
- 以交易為中心而不是以客戶為中心
傳統(tǒng)的應(yīng)用監(jiān)控大多是以技術(shù)組件可用性和交易性能為中心。在Bank4.0時(shí)代,場(chǎng)景金融被廣泛提及,其將視角從傳統(tǒng)以產(chǎn)品和交易為中心投向以客戶為中心,將服務(wù)的物理空間從銀行為中心轉(zhuǎn)向以場(chǎng)景為中心,通過(guò)連接客戶生活、生產(chǎn)場(chǎng)景中產(chǎn)生的金融需求而提供端到端的服務(wù),帶來(lái)金融的創(chuàng)新和業(yè)態(tài)轉(zhuǎn)化。應(yīng)用管理中的監(jiān)控體系也必須不斷的進(jìn)化和迭代以適應(yīng)業(yè)務(wù)的快速發(fā)展,其出發(fā)點(diǎn)也必須轉(zhuǎn)變:從以交易為中心到以客戶為中心,未來(lái)的實(shí)踐方向或?yàn)楸O(jiān)控場(chǎng)景化。
- 業(yè)務(wù)和技術(shù)監(jiān)控視角不統(tǒng)一
另外我們需要討論的一個(gè)問(wèn)題是,在傳統(tǒng)監(jiān)控推送一個(gè)監(jiān)控信息后,如何判斷業(yè)務(wù)影響范圍?由于業(yè)務(wù)人員和IT管理人員的視角存在明顯的偏差,對(duì)業(yè)務(wù)影響的準(zhǔn)確判斷也存在明顯的偏差,這里我們可以通過(guò)埃舍爾的視錯(cuò)覺的圖來(lái)描述這一現(xiàn)象,結(jié)果到底是鴨還是兔?
當(dāng)銀行IT系統(tǒng)監(jiān)控平臺(tái)推送一個(gè)聯(lián)機(jī)服務(wù)擁堵的信息,從應(yīng)用管理的角度事件定義為服務(wù)擁堵,某幾支聯(lián)機(jī)交易無(wú)法正常處理,但是從業(yè)務(wù)管理角度看到的是支付系統(tǒng)貸記往報(bào)出現(xiàn)宕賬。業(yè)務(wù)視角和IT視角的不同,對(duì)事件的重要性和緊迫程度會(huì)有截然不同的判斷,對(duì)事件處置的決策會(huì)產(chǎn)生重大影響。當(dāng)信息不足以準(zhǔn)確分析環(huán)境中的復(fù)雜情況時(shí),我們會(huì)根據(jù)固有的認(rèn)知、邏輯和習(xí)慣進(jìn)行猜測(cè)和補(bǔ)充。如何統(tǒng)一技術(shù)和業(yè)務(wù)視角、精確定位業(yè)務(wù)影響范圍是必須要思考的另一個(gè)難題。
G行從應(yīng)用監(jiān)控到業(yè)務(wù)可視化運(yùn)營(yíng)的探索
為適應(yīng)“科技、敏捷、生態(tài)”戰(zhàn)略轉(zhuǎn)型要求,實(shí)現(xiàn)打造一流財(cái)富管理銀行”戰(zhàn)略目標(biāo),G行投入建設(shè)了“可視化運(yùn)營(yíng)”項(xiàng)目。該項(xiàng)目遵循數(shù)字化轉(zhuǎn)型戰(zhàn)略,切實(shí)做好安全運(yùn)營(yíng)保障、提升運(yùn)維治理能力,為提升信息系統(tǒng)整體可用性、科技賦能業(yè)務(wù)發(fā)展、促進(jìn)數(shù)字化銀行轉(zhuǎn)型提供有力支持。
可視化運(yùn)營(yíng)最大的特點(diǎn)就是:由業(yè)務(wù)人員和IT管理人員共同提出監(jiān)控需求,解決“鴨兔”問(wèn)題;實(shí)現(xiàn)重點(diǎn)應(yīng)用系統(tǒng)重點(diǎn)業(yè)務(wù)場(chǎng)景化監(jiān)控覆蓋、全流程管理。業(yè)務(wù)監(jiān)控功能將從交易量、客戶、商戶等維度,利用生產(chǎn)數(shù)據(jù),通過(guò)全國(guó)熱點(diǎn)地圖、柱狀圖、動(dòng)態(tài)展示圖等形式對(duì)業(yè)務(wù)運(yùn)行現(xiàn)狀進(jìn)行呈現(xiàn),以完成下述目標(biāo):
1. 通過(guò)監(jiān)控掌握業(yè)務(wù)發(fā)展趨勢(shì),對(duì)業(yè)務(wù)發(fā)展方向提供預(yù)判。
2. 通過(guò)對(duì)客戶行為數(shù)據(jù)的監(jiān)控掌握客戶的行為軌跡,促進(jìn)交易量提升。
3. 通過(guò)對(duì)業(yè)務(wù)的實(shí)時(shí)監(jiān)控可及時(shí)發(fā)現(xiàn)業(yè)務(wù)功能是否能夠正常處理,如遇異常可及時(shí)做到科技業(yè)務(wù)聯(lián)動(dòng)、總分行聯(lián)動(dòng)、集中指揮,統(tǒng)一應(yīng)急處理,提高業(yè)務(wù)整體運(yùn)營(yíng)能力。
4. 風(fēng)險(xiǎn)違規(guī)防范的監(jiān)控功能,對(duì)重要業(yè)務(wù)場(chǎng)景深挖可能存在的業(yè)務(wù)風(fēng)險(xiǎn)點(diǎn);通過(guò)對(duì)實(shí)時(shí)數(shù)據(jù)的監(jiān)控,及時(shí)發(fā)現(xiàn)隱患進(jìn)行應(yīng)急處置。
5. 對(duì)監(jiān)管考核事項(xiàng)重點(diǎn)監(jiān)控,確保在各監(jiān)管機(jī)構(gòu)的合規(guī)率100%。
針對(duì)支付清算業(yè)務(wù),G行定義了本幣支付清算5大業(yè)務(wù)場(chǎng)景(分別是:大額支付、小額支付、超級(jí)網(wǎng)銀、CIPS、ACS)和外幣清算場(chǎng)景。與傳統(tǒng)監(jiān)控全流程只需要科技人員不同,可視化業(yè)務(wù)運(yùn)營(yíng)需要業(yè)務(wù)人員、開發(fā)人員和運(yùn)維人員一起來(lái)指定場(chǎng)景的設(shè)定范圍、指標(biāo)、閾值。項(xiàng)目實(shí)施的關(guān)鍵是整體需求的制定,整個(gè)過(guò)程需要大量和業(yè)務(wù)溝通確認(rèn)的工作。G行可視化運(yùn)管管理平臺(tái)在本幣支付清算場(chǎng)景,整體上梳理4個(gè)本幣場(chǎng)景中系統(tǒng)監(jiān)控、系統(tǒng)管理、業(yè)務(wù)管理、統(tǒng)計(jì)分析、工作管理5大類123個(gè)重點(diǎn)需求,具體實(shí)現(xiàn)如下文所述。
對(duì)各場(chǎng)景整體狀態(tài)、交易量、交易金額、系統(tǒng)響應(yīng)率等全面覆蓋。
傳統(tǒng)監(jiān)控更多的是對(duì)一個(gè)點(diǎn)的監(jiān)控,業(yè)務(wù)場(chǎng)景下更注重對(duì)業(yè)務(wù)流程化的運(yùn)營(yíng)管理。重點(diǎn)清算支付業(yè)務(wù)場(chǎng)景分級(jí)層層下鉆,按業(yè)務(wù)類型實(shí)時(shí)分析和統(tǒng)計(jì),異常時(shí)在來(lái)往報(bào)告警信息中予以顯示,處理成功后根據(jù)終態(tài)結(jié)果自動(dòng)核銷,自動(dòng)判斷清算異常、流動(dòng)性異常(頭寸預(yù)警、清算排隊(duì))。
行內(nèi)考核指標(biāo)和監(jiān)管考核指標(biāo)全面覆蓋,G行關(guān)注信息(大額來(lái)往報(bào)異常、小額來(lái)往報(bào)異常、超網(wǎng)來(lái)往報(bào)異常、CIPS來(lái)往報(bào)異常、ACS異常數(shù)據(jù));人行考核數(shù)據(jù)回復(fù)率及發(fā)起應(yīng)答報(bào)文數(shù)量(查詢查復(fù)、退回申請(qǐng)、人行狀態(tài)查詢、客戶信息查詢、支付申請(qǐng))。異常業(yè)務(wù)可自動(dòng)推送通知至總分行管理人員,實(shí)現(xiàn)科技——業(yè)務(wù),總行——分行實(shí)時(shí)聯(lián)動(dòng)。
外幣清算一體化運(yùn)營(yíng)。
結(jié)語(yǔ)
未來(lái)銀行在業(yè)務(wù)及產(chǎn)品服務(wù)模式創(chuàng)新方面,有必要結(jié)合第一性原理進(jìn)行開創(chuàng)性創(chuàng)新。對(duì)銀行本身而言,也應(yīng)以第一原理思想,不斷突破固有思維模式,走出一條適應(yīng)自身發(fā)展的創(chuàng)新之路。未來(lái)銀行的金融服務(wù)與我們的生活場(chǎng)景、消費(fèi)場(chǎng)景深度融合,作為應(yīng)用管理中業(yè)務(wù)監(jiān)控的探索也必將深入場(chǎng)景,實(shí)現(xiàn)從以交易為中心到以客戶為中心的轉(zhuǎn)變:第一時(shí)間發(fā)現(xiàn)問(wèn)題,準(zhǔn)確做出業(yè)務(wù)判斷,及時(shí)解決問(wèn)題,有效提升客戶體驗(yàn),從技術(shù)層面的應(yīng)用監(jiān)控走向業(yè)務(wù)可視化運(yùn)營(yíng)。
名稱欄目:從應(yīng)用監(jiān)控到業(yè)務(wù)可視化運(yùn)營(yíng)的探索
當(dāng)前網(wǎng)址:http://www.5511xx.com/article/cceesce.html


咨詢
建站咨詢
