日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢(xún)
選擇下列產(chǎn)品馬上在線(xiàn)溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案
一篇讀懂分布式數(shù)據(jù)庫(kù)的健康評(píng)估

?前陣子和一個(gè)做數(shù)據(jù)庫(kù)服務(wù)的朋友交流,他們承接了某個(gè)企業(yè)的國(guó)產(chǎn)分布式數(shù)據(jù)庫(kù)的運(yùn)維工作,安排了一個(gè)該數(shù)據(jù)庫(kù)的認(rèn)證工程師駐場(chǎng)做服務(wù),不過(guò)從半年的工作情況來(lái)看,效果并不好。作為分布式數(shù)據(jù)庫(kù)的運(yùn)維,平時(shí)小問(wèn)題也不需要DBA介入,分布式數(shù)據(jù)庫(kù)的故障自愈能力能夠很好的屏蔽這些小問(wèn)題,并且能夠在短時(shí)間內(nèi)完成自愈。如果真的出了大問(wèn)題,DBA面對(duì)數(shù)十個(gè)節(jié)點(diǎn)的分布式數(shù)據(jù)庫(kù)環(huán)境又束手無(wú)策,很難定位問(wèn)題,這種情況讓他們感到很困惑。

創(chuàng)新互聯(lián)建站成都企業(yè)網(wǎng)站建設(shè)服務(wù),提供網(wǎng)站制作、網(wǎng)站建設(shè)網(wǎng)站開(kāi)發(fā),網(wǎng)站定制,建網(wǎng)站,網(wǎng)站搭建,網(wǎng)站設(shè)計(jì),自適應(yīng)網(wǎng)站建設(shè),網(wǎng)頁(yè)設(shè)計(jì)師打造企業(yè)風(fēng)格網(wǎng)站,提供周到的售前咨詢(xún)和貼心的售后服務(wù)。歡迎咨詢(xún)做網(wǎng)站需要多少錢(qián):18980820575

實(shí)際上這個(gè)問(wèn)題還是挺復(fù)雜的,涉及到分布式數(shù)據(jù)庫(kù)這種典型的分布式系統(tǒng)與集中式數(shù)據(jù)庫(kù)之間在架構(gòu)與功能上的巨大差異。在傳統(tǒng)的數(shù)據(jù)庫(kù)運(yùn)維上,我們習(xí)慣于查看一些指標(biāo),例如CPU負(fù)載,鎖超時(shí),活躍會(huì)話(huà)數(shù)、錯(cuò)誤率等。對(duì)于分布式數(shù)據(jù)庫(kù)來(lái)說(shuō),這些指標(biāo)實(shí)際上并沒(méi)有相對(duì)于集中式數(shù)據(jù)庫(kù)環(huán)境那么重要,因?yàn)榉植际綌?shù)據(jù)庫(kù)從體系架構(gòu)上具有極高的容錯(cuò)能力。數(shù)據(jù)庫(kù)的某個(gè)物理節(jié)點(diǎn)、某個(gè)服務(wù)、某個(gè)分區(qū)、某個(gè)副本都可以出故障,此時(shí)數(shù)據(jù)庫(kù)內(nèi)部雖然已經(jīng)存在故障,但是你一點(diǎn)都不需要為此擔(dān)心,數(shù)據(jù)庫(kù)依然能夠很好的對(duì)外提供服務(wù)。這些指標(biāo)實(shí)際上都沒(méi)有正確的反映出數(shù)據(jù)庫(kù)是否能夠?yàn)榭蛻?hù)端流量提供正常的服務(wù),而這些才是用戶(hù)需要關(guān)注的。

在“具有動(dòng)態(tài)糾錯(cuò)能力”并且“可以自動(dòng)擴(kuò)展、動(dòng)態(tài)負(fù)載均衡”的分布式數(shù)據(jù)庫(kù)中,如果單個(gè)服務(wù)無(wú)法實(shí)現(xiàn)完整的數(shù)據(jù)庫(kù)功能,那么單個(gè)服務(wù)是否處于“啟動(dòng)”或者“活躍”狀態(tài)并不重要,因?yàn)檫@些很可能都不會(huì)影響分布式數(shù)據(jù)庫(kù)對(duì)外提供服務(wù),這使得像ping延時(shí)、CPU使用率這樣的簡(jiǎn)單檢查幾乎毫無(wú)用處。雖然利用傳統(tǒng)的監(jiān)控理念,判斷某個(gè)服務(wù)是否宕掉并不復(fù)雜,但要確定處于活動(dòng)狀態(tài)的數(shù)據(jù)庫(kù)服務(wù)是否健康要困難得多。

也可以通過(guò)一些比較簡(jiǎn)單的方式來(lái)判斷分布式數(shù)據(jù)庫(kù)的服務(wù)是否正常。服務(wù)很有可能處于“啟動(dòng)”狀態(tài),并且并能夠?qū)ν馓峁?shù)據(jù)庫(kù)服務(wù),但是它無(wú)法在服務(wù)的 99分位延遲內(nèi)完成給定的工作任務(wù)(比如完成一條標(biāo)準(zhǔn)SQL的執(zhí)行),那么這個(gè)數(shù)據(jù)庫(kù)就是不健康的。

對(duì)于分布式數(shù)據(jù)庫(kù)來(lái)說(shuō),無(wú)法在P99延時(shí)內(nèi)執(zhí)行完某條SQL,但是數(shù)據(jù)庫(kù)服務(wù)還是能承接相關(guān)業(yè)務(wù)的,這種情況是比較常見(jiàn)的故障場(chǎng)景,也是我們的DBA面對(duì)的束手無(wú)策的常見(jiàn)場(chǎng)景。這種場(chǎng)景大多數(shù)情況下與數(shù)據(jù)庫(kù)的某些組件流量過(guò)載有關(guān),在高并發(fā)服務(wù)中,“高并發(fā)的重負(fù)載”會(huì)在分布式數(shù)據(jù)庫(kù)中受到某些串行化機(jī)制的影響,正常情況下,通過(guò)資源管理器與隊(duì)列機(jī)制有序的排序。但是如果某個(gè)組件出現(xiàn)過(guò)載,那么隊(duì)列會(huì)產(chǎn)生溢出,這可能導(dǎo)致 RPC 調(diào)用的延遲增加。一般情況下遇到這種情況,下游服務(wù)將簡(jiǎn)單地使請(qǐng)求超時(shí)并進(jìn)行重試,這種機(jī)制將會(huì)導(dǎo)致高負(fù)載情況下出現(xiàn)分布式系統(tǒng)的效率下降的問(wèn)題,此時(shí)分布式數(shù)據(jù)庫(kù)的總體性能會(huì)有所下降。而如果此時(shí)疊加一些其他的因素,比如某塊硬盤(pán)的IO延時(shí)過(guò)大、某個(gè)網(wǎng)卡出現(xiàn)丟包、某個(gè)節(jié)點(diǎn)的操作系統(tǒng)出現(xiàn)嚴(yán)重?fù)Q頁(yè),那么整個(gè)分布式數(shù)據(jù)庫(kù)環(huán)境就有可能出現(xiàn)了正常的處理邏輯無(wú)法承受的臨界狀態(tài),再疊加上數(shù)據(jù)庫(kù)本身就存在的一些對(duì)此類(lèi)情況處理不周的BUG,那么數(shù)據(jù)庫(kù)出現(xiàn)嚴(yán)重的問(wèn)題,甚至出現(xiàn)無(wú)法對(duì)外提供服務(wù)的情況,也是必然的。

而且分布式數(shù)據(jù)庫(kù)一旦進(jìn)入這樣的狀態(tài),要想通過(guò)自身的容錯(cuò)能力與資源調(diào)度能力恢復(fù)系統(tǒng)運(yùn)行,那就不是秒鐘級(jí)甚至分鐘級(jí)能夠完成的了。此時(shí)最好的方法應(yīng)該是徹底關(guān)閉數(shù)據(jù)庫(kù)系統(tǒng),解決掉出現(xiàn)問(wèn)題的根源問(wèn)題,然后重新啟動(dòng)數(shù)據(jù)庫(kù)。但是對(duì)于分布式數(shù)據(jù)庫(kù)這種大型系統(tǒng)而言,在出現(xiàn)故障的時(shí)候關(guān)閉數(shù)據(jù)庫(kù)在大多數(shù)場(chǎng)景中也是不現(xiàn)實(shí)的。因此我們只有退而求其次,降低數(shù)據(jù)庫(kù)當(dāng)前的復(fù)雜,解決掉故障問(wèn)題是退而求其次的解決方案。如果這個(gè)方法還是無(wú)法執(zhí)行,那么就只能先解決掉導(dǎo)致問(wèn)題的故障,再慢慢等著系統(tǒng)恢復(fù)了。

綜上所述,分布式數(shù)據(jù)庫(kù)的某個(gè)服務(wù)在其生命周期中很可能在不同程度的“健康狀態(tài)”之間波動(dòng),從完全正常,能夠以預(yù)期的并發(fā)級(jí)別運(yùn)行下降到接近不正常,此時(shí)可能某些高負(fù)載導(dǎo)致某的隊(duì)列溢出,如果問(wèn)題持續(xù)惡化,數(shù)據(jù)庫(kù)將進(jìn)入“不正?!睜顟B(tài),此時(shí)數(shù)據(jù)庫(kù)服務(wù)質(zhì)量大幅下降。對(duì)于分布式數(shù)據(jù)庫(kù)而言,自適應(yīng)、自我修復(fù)的能力在大部分情況下可以自動(dòng)處理這種波動(dòng),并力求自動(dòng)恢復(fù)??上У氖沁@種最佳預(yù)期并不總是在生產(chǎn)環(huán)境中得以實(shí)現(xiàn),分布式數(shù)據(jù)庫(kù)可能存在某些BUG;而高并發(fā)負(fù)載的持續(xù)時(shí)間可能超出硬件的能力范圍;面包掉在地上黃油朝下的概率也極高。因此分布式數(shù)據(jù)庫(kù)可以解決一切集中式數(shù)據(jù)庫(kù)運(yùn)維中的問(wèn)題,達(dá)到極高的可用性的說(shuō)法并不成立。

對(duì)于分布式數(shù)據(jù)庫(kù)運(yùn)維來(lái)說(shuō),小問(wèn)題無(wú)需介入,大問(wèn)題介入不了是一種常態(tài)。其最主要的問(wèn)題還是我們無(wú)法對(duì)分布式數(shù)據(jù)庫(kù)的健康狀態(tài)有一個(gè)十分準(zhǔn)確的評(píng)估。如果我們能夠了解分布式數(shù)據(jù)庫(kù)的內(nèi)部狀態(tài),并提前做出預(yù)警,那么很多故障還是可以避免的。比如負(fù)載過(guò)高達(dá)到硬件資源極限可以通過(guò)切斷部分流量來(lái)實(shí)現(xiàn)快速恢復(fù)。而如果能夠在問(wèn)題發(fā)生的更早期介入,數(shù)據(jù)庫(kù)的恢復(fù)時(shí)間也會(huì)縮短很多。

比較麻煩的是,分布式數(shù)據(jù)庫(kù)的健康評(píng)估是比較復(fù)雜的,對(duì)于分布式數(shù)據(jù)庫(kù)來(lái)說(shuō),健康評(píng)估更像是一個(gè)布魯姆過(guò)濾器。你發(fā)現(xiàn)數(shù)據(jù)庫(kù)有問(wèn)題,那么數(shù)據(jù)庫(kù)肯定有問(wèn)題。但是如果你檢查數(shù)據(jù)庫(kù)的狀態(tài)是健康的,那么數(shù)據(jù)庫(kù)僅僅是“可能處于健康狀態(tài)”,我們必須通過(guò)其他的因素來(lái)確認(rèn)其實(shí)健康的。

基于上面的認(rèn)知,我們覺(jué)得針對(duì)分布式數(shù)據(jù)庫(kù)的健康度需要從幾個(gè)方面來(lái)做綜合評(píng)估,傳統(tǒng)的指標(biāo)當(dāng)然還是需要的,我們需要從操作系統(tǒng)負(fù)載與性能、數(shù)據(jù)庫(kù)負(fù)載、數(shù)據(jù)庫(kù)并發(fā)、集群與網(wǎng)絡(luò)、負(fù)載均衡度、數(shù)據(jù)庫(kù)容量等數(shù)個(gè)方面進(jìn)行評(píng)估。

除此之外針對(duì)分布式數(shù)據(jù)庫(kù),我們還需要引入新的評(píng)估要素,那就是數(shù)據(jù)庫(kù)功能的健康度評(píng)估,簡(jiǎn)單查詢(xún)、簡(jiǎn)單寫(xiě)入、全表掃描、索引掃描、并行掃描、DDL操作等多種數(shù)據(jù)庫(kù)業(yè)務(wù)的響應(yīng)時(shí)間是否合理(比如是否超出P99延時(shí)),不同計(jì)算節(jié)點(diǎn)執(zhí)行相同的簡(jiǎn)單操作的延時(shí)是否均衡等,也應(yīng)該作為健康評(píng)估的內(nèi)容。必須如此,才能解決分布式數(shù)據(jù)庫(kù)健康評(píng)估的“布魯姆過(guò)濾器陷阱”。

僅僅實(shí)現(xiàn)準(zhǔn)確的健康評(píng)估還不足夠,更重要的是發(fā)現(xiàn)健康問(wèn)題之后還需要能夠進(jìn)行問(wèn)題溯源與解決方案分析。要想實(shí)現(xiàn)這一點(diǎn),必須從兩個(gè)方面做監(jiān)控的增強(qiáng)。一方面是更加準(zhǔn)確與全面的采集分布式數(shù)據(jù)庫(kù)的指標(biāo),并能夠高效的進(jìn)行異常檢測(cè),從而能夠全面的發(fā)現(xiàn)數(shù)據(jù)庫(kù)指標(biāo)的異常;另外一方面是能夠快速的積累故障模型,構(gòu)建常見(jiàn)故障的分析診斷與應(yīng)急處置的標(biāo)準(zhǔn)化方法。

比如上面是某國(guó)產(chǎn)分布式數(shù)據(jù)庫(kù)的一個(gè)故障場(chǎng)景,該場(chǎng)景會(huì)導(dǎo)致業(yè)務(wù)響應(yīng)變慢。只要擁有充分的指標(biāo)數(shù)據(jù),通過(guò)規(guī)則引擎很容易描述出其中的場(chǎng)景,并形成自動(dòng)化分析與診斷的工具。一切恐懼都來(lái)自于未知,正是因?yàn)槲覀儗?duì)國(guó)產(chǎn)分布式數(shù)據(jù)庫(kù)的運(yùn)維經(jīng)驗(yàn)積累還不充分,才導(dǎo)致了遇到問(wèn)題時(shí)的手足無(wú)措。二十多年前,我們面對(duì)Oracle數(shù)據(jù)庫(kù)的時(shí)候,也是如此的,隨著應(yīng)用場(chǎng)景的豐富以及運(yùn)維經(jīng)驗(yàn)被不斷的積累,這些問(wèn)題都會(huì)慢慢好起來(lái)的。?


新聞名稱(chēng):一篇讀懂分布式數(shù)據(jù)庫(kù)的健康評(píng)估
網(wǎng)頁(yè)網(wǎng)址:http://www.5511xx.com/article/cdgihpc.html