EPIC — Supervision, observabilité et conformité opérationnelle (PD-196)¶
Intention¶
Mettre en place une chaîne complète de supervision, d'observabilité et d'alerting permettant de garantir la disponibilité, la performance, la sécurité et la conformité opérationnelle de ProbatioVault, dans un contexte de services critiques à forte valeur probatoire.
Cette EPIC vise à rendre le système observable, auditable et maîtrisable en continu.
Problème de fond¶
ProbatioVault opère une infrastructure complexe et critique : cryptographie, stockage WORM, blockchain, jobs asynchrones, HSM, mobile, B2B/B2C.
Les risques associés sont majeurs :
- indisponibilité partielle ou totale de services critiques ;
- défaillance silencieuse de traitements probatoires ;
- dérive des coûts (blockchain, stockage, infra) ;
- difficulté de diagnostic en environnement distribué ;
- impossibilité de prouver le bon fonctionnement du système dans le temps.
Sans une observabilité robuste, la promesse de fiabilité et de conformité serait intenable.
Solution de principe¶
L'EPIC MONITORING met en œuvre une stack d'observabilité open-source, unifiée et corrélée, reposant sur les principes suivants :
- Collecte de métriques via Prometheus ;
- Visualisation et pilotage via Grafana ;
- Centralisation des logs structurés avec Loki ;
- Tracing distribué des flux critiques via Jaeger ;
- Health checks applicatifs et infrastructurels avancés ;
- Alerting proactif sur incidents, dérives et seuils critiques ;
- Supervision spécifique des coûts blockchain (gas, transactions) ;
- Dashboards dédiés audit, conformité et SLA.
Le monitoring devient un outil de preuve opérationnelle, pas seulement de debug.
Invariants¶
- Tous les services critiques exposent des métriques et des health checks.
- Les logs sont structurés, horodatés et corrélables.
- Les alertes critiques sont actionnables et testées.
- Les coûts blockchain et infrastructure sont surveillés en continu.
- Les données d'observabilité ne contiennent aucune donnée sensible en clair.
- Les dashboards permettent un audit a posteriori du fonctionnement du système.
User Stories associées¶
- PD-10 — Configurer monitoring Prometheus + Grafana
- PD-11 — Setup logging centralisé avec Loki
- PD-18 — Implémenter module Health Check et monitoring
- PD-20 — Implémenter gestion erreurs globale
- PD-147 — Setup monitoring pipeline avec alertes
- PD-148 — Configurer dashboards Grafana essentiels
- PD-149 — Créer alertes Prometheus critiques
- PD-150 — Implémenter tracing distribué avec Jaeger
- PD-151 — Configurer logging structuré JSON
- PD-152 — Créer dashboard coûts infrastructure
- PD-153 — Implémenter health checks avancés
- PD-154 — Setup monitoring blockchain (gas, tx)
- PD-155 — Créer dashboard audit & compliance
- PD-59 — Implémenter monitoring coûts blockchain
Impacts transverses¶
-
Architecture Instrumentation complète des services, visibilité bout-en-bout des flux critiques.
-
Sécurité Détection précoce d'anomalies, traçabilité des incidents et réponses.
-
UX Indirect : amélioration de la fiabilité perçue, réduction des incidents visibles utilisateurs.
-
Juridique & Conformité Capacité à démontrer le bon fonctionnement du système, preuves d'intégrité opérationnelle en cas d'expertise.
-
Exploitation Réduction du MTTR, supervision proactive et pilotage des coûts.
-
Business Maîtrise des coûts variables (blockchain), respect des SLA et crédibilité entreprise / investisseurs.
Références¶
- Architecture Executive ProbatioVault — v4.x
- Cahier d'Architecture Technique & Exploitation
- Spécifications Observabilité & Monitoring
- Bonnes pratiques SRE (Google SRE)
- Normes : ISO 27001 (exploitation), exigences auditabilité
- Décisions d'architecture (ADR) liées à la supervision