日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
Prometheus告警為什么選用Alertmanager?

本文轉(zhuǎn)載自微信公眾號(hào)「猿天地」,作者尹吉?dú)g。轉(zhuǎn)載本文請(qǐng)聯(lián)系猿天地公眾號(hào)。 

作為一家“創(chuàng)意+整合+營(yíng)銷”的成都網(wǎng)站建設(shè)機(jī)構(gòu),我們?cè)跇I(yè)內(nèi)良好的客戶口碑。成都創(chuàng)新互聯(lián)提供從前期的網(wǎng)站品牌分析策劃、網(wǎng)站設(shè)計(jì)、網(wǎng)站制作、成都網(wǎng)站建設(shè)、創(chuàng)意表現(xiàn)、網(wǎng)頁(yè)制作、系統(tǒng)開發(fā)以及后續(xù)網(wǎng)站營(yíng)銷運(yùn)營(yíng)等一系列服務(wù),幫助企業(yè)打造創(chuàng)新的互聯(lián)網(wǎng)品牌經(jīng)營(yíng)模式與有效的網(wǎng)絡(luò)營(yíng)銷方法,創(chuàng)造更大的價(jià)值。

為什么要用 alertManager

alertmanager 主要用于接收 Prometheus 發(fā)送的告警信息,它支持多種告警通知渠道,而且很容易做到告警信息進(jìn)行去重,降噪,分組等,超級(jí)好用。

其實(shí) Grafana 也自帶了告警功能,本來想直接用 Grafana 的告警功能,這樣就不用多部署一個(gè)組件了,試用了一下 Grafana 的告警,不是很好用,然后就放棄了。

看上圖,最難受的就是 Template variables are not supported in alert queries 這段話了,不能用于變量類型的模板。下面來解釋下這個(gè)問題:

指標(biāo)查詢語句如下:

 
 
 
  1. sum(rate(http_server_requests_seconds_count{application="$application", instance="$instance"}[1m])) 

其實(shí)是根據(jù) application 和 instance 來查詢的,也就是在查詢的時(shí)候可以選擇哪個(gè)應(yīng)用,哪個(gè)實(shí)例進(jìn)行數(shù)據(jù)的查看。

但是你如果要用 Grafana 的告警,就不能這么寫,那要怎么寫呢?把變量去掉。

假如我的 A 服務(wù)有 5 個(gè)實(shí)例,那么你就得配置 5 個(gè)查詢語句,如下:

 
 
 
  1. sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.12"}[1m])) 
  2. sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.13"}[1m])) 
  3. sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.14"}[1m])) 
  4. sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.15"}[1m])) 
  5. sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.16"}[1m])) 

到了這一步我就直接放棄了,太難用了,不知道有沒有其他的方式能夠解決這個(gè)問題,反正我是投向了 alertmanager。

部署 alertManager

部署 alertmanager 之前我們首先部署一個(gè)釘釘消息的轉(zhuǎn)發(fā)服務(wù),也就是當(dāng)有告警的時(shí)候,alertmanager 會(huì)調(diào)用這個(gè)轉(zhuǎn)發(fā)服務(wù)將告警內(nèi)容發(fā)送至釘釘。

 
 
 
  1. docker run -d -p 8060:8060 --name webhook timonwong/prometheus-webhook-dingtalk --ding.profile="webhook1= 
  2. https://oapi.dingtalk.com/robot/send?access_token=你的token" 

釘釘機(jī)器人需要自定義關(guān)鍵詞來匹配告警信息,否則接收不到消息。

直接用 Docker 來部署 alertmanager,命令如下:

 
 
 
  1. docker run -d --name alertmanager -p 9093:9093 -v /opt/alertmanager/alertmanager.yml:/etc/alertmanager/alertmanager.yml prom/alertmanager:latest 

alertmanager.yml

 
 
 
  1. global: 
  2.   resolve_timeout: 5m 
  3. route: 
  4.   receiver: webhook 
  5.   group_wait: 30s 
  6.   group_interval: 5m 
  7.   repeat_interval: 5m 
  8.   group_by: [alertname] 
  9.   routes: 
  10.   - receiver: webhook 
  11.     group_wait: 10s 
  12. receivers: 
  13. - name: webhook 
  14.   webhook_configs: 
  15.   - url: http://10.100.0.168:8060/dingtalk/webhook1/send 
  16.     send_resolved: true 

webhook 的通知地址我們配置成上面我們部署的釘釘轉(zhuǎn)發(fā)服務(wù)的 IP+Port 就可以了。

修改 prometheus 的配置文件,增加 alertmanager 的配置。

prometheus.yml

 
 
 
  1. # Alertmanager configuration 
  2. alerting: 
  3.   alertmanagers: 
  4.   - static_configs: 
  5.     - targets: ["10.100.0.168:9093"] 
  6. rule_files: 
  7. - "/etc/prometheus/rules.yml" 

配置告警規(guī)則

rules.yml

 
 
 
  1. groups: 
  2. - name: qps 
  3.   rules: 
  4.   - alert: QPS告警 
  5.     expr: (sum by(instance,application)(rate(http_server_requests_seconds_count[1m]))) > 100 
  6.     for: 1m 
  7.     labels: 
  8.       severity: warning 
  9.     annotations: 
  10.       description: "應(yīng)用:{{ $labels.application }} 實(shí)例:{{ $labels.instance }} QPS超過100 (當(dāng)前值: {{ $value }})" 
  11.       summary: "" 
  12.   - alert: 應(yīng)用下線告警 
  13.     expr: up == 0 
  14.     for: 0m 
  15.     labels: 
  16.       severity: warning 
  17.     annotations: 
  18.       description: "應(yīng)用:{{ $labels.job }} 實(shí)例:{{ $labels.instance }} 已下線" 
  19.       summary: ""   

上面配置了 QPS 告警和應(yīng)用下線的告警,關(guān)于告警規(guī)則不做詳細(xì)講解,大家可以自己去學(xué)習(xí)下,當(dāng)然也有一些可以參考的規(guī)則配置,具體可以查看這個(gè)網(wǎng)站:https://awesome-prometheus-alerts.grep.to/rules

配置好了后可以在 prometheus 的 Web 控制臺(tái) Alerts 中進(jìn)行查看。

告警效果

遇到的問題

在告警內(nèi)容顯示這塊遇到了一個(gè)問題,研究了挺長(zhǎng)時(shí)間的。上面有貼釘釘告警后的消息接入,在描述信息中有寫哪個(gè)應(yīng)用,哪個(gè)實(shí)例出問題了,就是這 2 個(gè)具體的信息,在我一開始配置告警規(guī)則的時(shí)候沒有獲取到值。

沒有獲取到值的原因是我的告警規(guī)則是這樣寫的:

 
 
 
  1. sum (rate(http_server_requests_seconds_count[1m])) > 100 

規(guī)則本身沒問題,也能執(zhí)行,就是實(shí)例值獲取不到,后面研究了網(wǎng)上一些其他的規(guī)則,發(fā)現(xiàn)想要獲取具體的值,就得在規(guī)則里面包含這些內(nèi)容才行。

然后就改用下面的方式了,在 sum 后接上要顯示的指標(biāo)名稱,就可以在告警信息中顯示了。跟 Sql 中的 select 一樣,沒有寫清要哪個(gè)字段就不會(huì)查詢出來。

 
 
 
  1. (sum by(instance,application)(rate(http_server_requests_seconds_count[1m]))) > 100 

關(guān)于作者:尹吉?dú)g,簡(jiǎn)單的技術(shù)愛好者,《Spring Cloud 微服務(wù)-全棧技術(shù)與案例解析》, 《Spring Cloud 微服務(wù) 入門 實(shí)戰(zhàn)與進(jìn)階》作者, 公眾號(hào)猿天地發(fā)起人。


本文標(biāo)題:Prometheus告警為什么選用Alertmanager?
文章網(wǎng)址:http://www.5511xx.com/article/dpgpejj.html