Installation Prometheus-postgres-exporter #53
Loading…
Reference in a new issue
No description provided.
Delete branch "prometheus_postgres_exporter"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Hello !
[x] Installation de postgres-exporter (package debian) sur les VM de bdd (groupe bdd: re2o-db, bdd.adm.auro.re, bdd-ovh.adm.auro.re), et les VM radius (nouveau groupe fait pour)
[x] Découpe des alertes en plusieurs fichiers
[x] Création d'alertes pour Docker
[x] Création d'alertes pour Postgres (+ adaptations)
Quelques petits choses à discuter. Je ne sais pas si j'ai raison pour les traductions mais ça vaut le coup de se poser la question je pense.
Sinon c'est très bien dans son ensemble 👍
@ -88,4 +123,3 @@
- key: 05-prometheus
message: >-
Prometheus est déployé sur cette machine (voir /etc/prometheus)
...
Pourquoi avoir retirer ça ?
C'est la fin correct pour un fichier yaml.
@ -0,0 +17,4 @@
severity: critical
annotations:
summary: >-
Container Docker mort
éteind ?
Je sais pas trop, je trouve que mort en français ça fait bizzare. Mais en même temps "dead" semble être le terme correct en Anglais.
Pour postgres en dessous on utilise "down", ce qui est un Anglissisme mais c'est pas mal.
Sinon on peut dire "tombé" qui est un traduction un peu abusive, mais ça je trouve pas ça choquant.
@ -0,0 +43,4 @@
severity: critical
annotations:
summary: >-
Container Docker utilise beaucoup de CPU
Faudrait peut être faire des phrases.
C'est comme si on disait "Server utilise beaucoup de CPU", c'est pas syntaxiquement correct.
"Le container Docker utilise beaucoup de CPU" peut etre ?
@ -0,0 +55,4 @@
severity: warning
annotations:
summary: >-
La table n'a pas été aspirée depuis 24h
Je suis pas sûr que des gens utilisent vraiment "aspirée" pour traduire "autovacuum"
https://docs.postgresql.fr/8.1/runtime-config-autovacuum.html (seul source que j'ai trouvé en français)
@ -0,0 +93,4 @@
severity: warning
annotations:
summary: >-
PostgreSQL a des cadenas morts
Pareil je pense pas que ça se traduise
Source random https://forum.postgresql.fr/viewtopic.php?id=5643
@ -0,0 +128,4 @@
severity: critical
annotations:
summary: >-
Réplication de Postgresql WALE stopée
WALE ?
https://www.postgresql.org/search/?u=%2Fdocs%2F13%2F&q=WALE
WAL peut être ?
Sinon je ne sais pas ce que c'est.
J'ai repris la source : https://awesome-prometheus-alerts.grep.to/rules.html#rule-postgresql-15
@ -0,0 +183,4 @@
severity: critical
annotations:
summary: >-
Split Brain, trop de bases de données Postgresql primaires en mode lecture-écriture
proposition: "Split Brain : trop de bases [...]"
@ -0,0 +210,4 @@
severity: critical
annotations:
summary: >-
Trop de verrous acquis sur la base de données.
Pareil, je ne pense pas que ça se traduise. Ou alors peut etre plutot par "Verouillages" non ?
J'ai pas de source pour ça.
@ -22,0 +21,4 @@
notify: Restart Prometheus
- name: Creates directory for alerts
file:
Ça pourrait être bien de préciser le propriétaire et le groupe du dossier.
@ -22,0 +26,4 @@
state: directory
mode: 0644
- name: Remove old files
Est-ce que c'est la peine de garder ces règles une fois que ça a été exécuté une fois sur le parc ?
Peut-être que le fichier
alert.rules.yml
est créé par défaut dans l'installation Debian ?@ -76,2 +104,4 @@
when: prometheus_docker_targets is defined
- name: Configure Prometheus postgres monitoring
copy:
Ajout propriétaire et groupe ?
@ -0,0 +18,4 @@
annotations:
summary: >-
Le container Docker est éteint / tombé
(instance {{ raw('$labels.instance') }}, container {{ raw('$labels.name') }})
Pas la peine de mettre l'instance, on l'affiche déjà avec Alertbot automatiquemenet.
@ -0,0 +28,4 @@
annotations:
summary: >-
Le container Docker redémarre souvent
(instance {{ raw('$labels.instance') }}, container {{ raw('$labels.name') }})
Idem (instance superflue).
@ -0,0 +44,4 @@
annotations:
summary: >-
Le container Docker utilise beaucoup de CPU
(instance {{ raw('$labels.instance') }}, container {{ raw('$labels.name') }},
Idem (instance superflue).
@ -0,0 +15,4 @@
labels:
severity: critical
annotations:
summary: Serveur PostgreSQL down (instance {{ raw('$labels.instance') }})
Idem (instance superflue).
@ -0,0 +23,4 @@
labels:
severity: critical
annotations:
summary: Serveur PostgreSQL redémarré (instance {{ raw('$labels.instance') }})
Idem (instance superflue).
@ -0,0 +31,4 @@
labels:
severity: critical
annotations:
summary: Erreur dans l'exporter Postgresql (instance {{ raw('$labels.instance') }})
Idem (instance superflue).
@ -0,0 +44,4 @@
annotations:
summary: >-
La réplication PostgreSQL lag ({{ raw('$value') }} > 30s)
(instance {{ raw('$labels.instance') }}, database {{ raw('$labels.datname')}} )
Idem (instance superflue).
Mettre "database" en français ?
@ -0,0 +56,4 @@
annotations:
summary: >-
Le démon autovacuum n'a pas été lancé depuis 24h
(Instance {{ raw('$labels.instance') }}, database {{ raw('$labels.datname') }} )
Idem (instance superflue).
Mettre "database" en français ?
@ -0,0 +68,4 @@
annotations:
summary: >-
Table non-analysée depuis 24h
(instance {{ raw('$labels.instance') }}, database {{ raw('$labels.datname') }})
Idem (instance superflue).
Mettre "database" en français ?
@ -0,0 +84,4 @@
summary: >-
PostgreSQL a trop de connexions
({{ raw('$value | printf "%.1f"') }} > 80%)
(instance {{ raw('$labels.instance') }}, database {{ raw('$labels.datname') }})
Idem (instance superflue).
Mettre "database" en français ?
@ -0,0 +94,4 @@
annotations:
summary: >-
PostgreSQL a plus de 5 deadlocks.
(instance {{ raw('$labels.instance') }}, database {{ raw('$labels.datname') }} )
Idem (instance superflue).
Mettre "database" en français ?
@ -0,0 +104,4 @@
annotations:
summary: >-
Présence de requêtes lentes (slow-queries)
(instance {{ raw('$labels.instance') }}, database {{ raw('$labels.datname') }} )
Idem (instance superflue).
Mettre "database" en français ?
@ -0,0 +119,4 @@
annotations:
summary: >-
PostgreSQL a un taux de retour en arrière (rollback) élevé
(instance {{ raw('$labels.instance') }}, database {{ raw('$labels.datname') }}, value {{ raw('$value | printf "%.1f"') }} %)
Idem (instance superflue).
Mettre "database" et "value" en français ?
@ -0,0 +129,4 @@
annotations:
summary: >-
Réplication de PostgreSQL WALE stopée
(instance {{ raw('$labels.instance') }}, database {{ raw('$labels.datname') }} )
Idem (instance superflue).
Mettre "database" en français ?
"stoppée".
@ -0,0 +139,4 @@
annotations:
summary: >-
Beaucoup de requêtes PostgreSQL sont timeout
(instance {{ raw('$labels.instance') }}, database {{ raw('$labels.datname') }}, value {{ raw('$value | printf "%.1f"') }} )
Idem (instance superflue).
Mettre "database" et "value" en français ?
@ -0,0 +149,4 @@
annotations:
summary: >-
PostgreSQL a un fort taux de deadlock
(instance {{ raw('$labels.instance') }}, database {{ raw('$labels.datname') }}, value {{ raw('$value | printf "%.1f"') }} )
Idem (instance superflue).
Mettre "database" et "value" en français ?
@ -0,0 +160,4 @@
# labels:
# severity: critical
# annotations:
# summary: La réplication Postgresql a des octets de retard (instance {{ raw('$labels.name') }}, value {{ raw('$value') }} )
Idem (instance superflue).
Mettre "database" et "value" en français ?
@ -0,0 +174,4 @@
annotations:
summary: >-
Les tuples morts PostgreSQL sont trop volumineux
(instance {{ raw('$labels.instance') }}, database {{ raw('$labels.datname') }}, value {{ raw('$value | printf "%.1f"') }} )
Idem (instance superflue).
Mettre "database" et "value" en français ?
@ -0,0 +184,4 @@
annotations:
summary: >-
Split Brain : trop de bases de données PostgreSQL primaires en mode lecture-écriture
(instance {{ raw('$labels.instance') }}, database {{ raw('$labels.datname') }}, value {{ raw('$value') }} )
Idem (instance superflue).
Mettre "database" et "value" en français ?
@ -0,0 +197,4 @@
annotations:
summary: >-
Le serveur de secours PostgreSQL a été promu comme nœud principal
(instance {{ raw('$labels.instance') }}, database {{ raw('$labels.datname') }}, value {{ raw('$value') }})
Idem (instance superflue).
Mettre "database" et "value" en français ?
@ -0,0 +213,4 @@
Trop de deadlocks acquis sur la base de données.
Si cette alerte se produit fréquemment, nous devrons peut-être augmenter
le paramètre postgres max_locks_per_transaction
(instance {{ raw('$labels.instance') }}, value = {{ raw('$value | printf "%.1f"') }} )
Idem (instance superflue).
Mettre "database" et "value" en français ?