Monitor APT pending upgrades & required reboots using Prometheus #82

Open
jeltz wants to merge 1 commit from prometheus_apt_pending_and_reboot into master

View file

@ -50,13 +50,14 @@ groups:
node_memory_SwapFree_bytes
/ node_memory_SwapTotal_bytes
)
) * 100 >= 20
) * 100 >= 50
for: 3m
labels:
severity: warning
annotations:
summary: >-
La mémoire swap est utilisée à {{ raw('$value | printf "%.1f"') }}%
La mémoire swap est utilisée à
{{ raw('$value | printf "%.1f"') }}%
- alert: HostPhysicalComponentTooHot
expr: node_hwmon_temp_celsius > 79
@ -155,5 +156,24 @@ groups:
labels:
severity: "critical"
annotations:
summary: "Le Disque {{ raw('$labels.disk') }} n'est pas en bonne santé !"
summary: >
Le disque {{ raw('$labels.disk') }} n'est pas en bonne santé
- alert: AptUpgradesPending
expr: sum by (instance) (apt_upgrades_pending) > 0
for: 10m
labels:
severity: warning
annotations:
summary: >
Des mises à jour de paquets sont en attente
Review

Cela va spammer, non ?

Cela va spammer, non ?
Review

Ah oui, effectivement.

On pourrait limiter les labels (type "*security*", mais Proxmox par exemple ne sépare pas sécurité & non-sécurité) ?

Sinon y'a peut-être un système de paquets "on hold" (cf. les mails d'apt-listchange), et peut-être que cette métrique est exportée. Je regarde.

Ah oui, effectivement. On pourrait limiter les labels (type "\*security\*", mais Proxmox par exemple ne sépare pas sécurité & non-sécurité) ? Sinon y'a peut-être un système de paquets "_on hold_" (cf. les mails d'apt-listchange), et peut-être que cette métrique est exportée. Je regarde.
- alert: RebootRequired
expr: node_reboot_required == 1
for: 10m
labels:
severity: warning
annotations:
summary: >
Un redémarrage est nécessaire
...