EPIC — Supervision, observabilité et conformité opérationnelle (PD-196)¶

Intention¶

Mettre en place une chaîne complète de supervision, d'observabilité et d'alerting permettant de garantir la disponibilité, la performance, la sécurité et la conformité opérationnelle de ProbatioVault, dans un contexte de services critiques à forte valeur probatoire.

Cette EPIC vise à rendre le système observable, auditable et maîtrisable en continu.

Problème de fond¶

ProbatioVault opère une infrastructure complexe et critique : cryptographie, stockage WORM, blockchain, jobs asynchrones, HSM, mobile, B2B/B2C.

Les risques associés sont majeurs :

indisponibilité partielle ou totale de services critiques ;
défaillance silencieuse de traitements probatoires ;
dérive des coûts (blockchain, stockage, infra) ;
difficulté de diagnostic en environnement distribué ;
impossibilité de prouver le bon fonctionnement du système dans le temps.

Sans une observabilité robuste, la promesse de fiabilité et de conformité serait intenable.

Solution de principe¶

L'EPIC MONITORING met en œuvre une stack d'observabilité open-source, unifiée et corrélée, reposant sur les principes suivants :

Collecte de métriques via Prometheus ;
Visualisation et pilotage via Grafana ;
Centralisation des logs structurés avec Loki ;
Tracing distribué des flux critiques via Jaeger ;
Health checks applicatifs et infrastructurels avancés ;
Alerting proactif sur incidents, dérives et seuils critiques ;
Supervision spécifique des coûts blockchain (gas, transactions) ;
Dashboards dédiés audit, conformité et SLA.

Le monitoring devient un outil de preuve opérationnelle, pas seulement de debug.

Invariants¶

Tous les services critiques exposent des métriques et des health checks.
Les logs sont structurés, horodatés et corrélables.
Les alertes critiques sont actionnables et testées.
Les coûts blockchain et infrastructure sont surveillés en continu.
Les données d'observabilité ne contiennent aucune donnée sensible en clair.
Les dashboards permettent un audit a posteriori du fonctionnement du système.

User Stories associées¶

PD-10 — Configurer monitoring Prometheus + Grafana
PD-11 — Setup logging centralisé avec Loki
PD-18 — Implémenter module Health Check et monitoring
PD-20 — Implémenter gestion erreurs globale
PD-147 — Setup monitoring pipeline avec alertes
PD-148 — Configurer dashboards Grafana essentiels
PD-149 — Créer alertes Prometheus critiques
PD-150 — Implémenter tracing distribué avec Jaeger
PD-151 — Configurer logging structuré JSON
PD-152 — Créer dashboard coûts infrastructure
PD-153 — Implémenter health checks avancés
PD-154 — Setup monitoring blockchain (gas, tx)
PD-155 — Créer dashboard audit & compliance
PD-59 — Implémenter monitoring coûts blockchain

Impacts transverses¶

Architecture Instrumentation complète des services, visibilité bout-en-bout des flux critiques.
Sécurité Détection précoce d'anomalies, traçabilité des incidents et réponses.
UX Indirect : amélioration de la fiabilité perçue, réduction des incidents visibles utilisateurs.
Juridique & Conformité Capacité à démontrer le bon fonctionnement du système, preuves d'intégrité opérationnelle en cas d'expertise.
Exploitation Réduction du MTTR, supervision proactive et pilotage des coûts.
Business Maîtrise des coûts variables (blockchain), respect des SLA et crédibilité entreprise / investisseurs.

Références¶

Architecture Executive ProbatioVault — v4.x
Cahier d'Architecture Technique & Exploitation
Spécifications Observabilité & Monitoring
Bonnes pratiques SRE (Google SRE)
Normes : ISO 27001 (exploitation), exigences auditabilité
Décisions d'architecture (ADR) liées à la supervision