diff --git a/roles/prometheus/templates/alert.rules.yml.j2 b/roles/prometheus/templates/alert.rules.yml.j2 index 7097e47..84d8aa2 100644 --- a/roles/prometheus/templates/alert.rules.yml.j2 +++ b/roles/prometheus/templates/alert.rules.yml.j2 @@ -59,12 +59,14 @@ groups: La mémoire swap est utilisée à {{ raw('$value | printf "%.1f"') }}% - alert: HostPhysicalComponentTooHot - expr: node_hwmon_temp_celsius > 75 + expr: node_hwmon_temp_celsius > 79 for: 3m labels: severity: critical annotations: - summary: La température de l'hôte est de {{ raw('$value') }}°C + summary: >- + La température de l'hôte est de {{ raw('$value') }}°C + ({{ raw('$labels.chip') }}, {{ raw('$labels.sensor') }}) - alert: HostNodeOvertemperatureAlarm expr: node_hwmon_temp_crit_alarm_celsius == 1 @@ -72,7 +74,9 @@ groups: labels: severity: critical annotations: - summary: L'alarme de température de l'hôte est active + summary: >- + L'alarme de température de l'hôte est active + ({{ raw('$labels.chip') }}, {{ raw('$labels.sensor') }}) - alert: HostOomKillDetected expr: increase(node_vmstat_oom_kill[1m]) > 0