Aller au contenu

Spécification globale — Architecture IA ProbatioVault

Objet : Formaliser l’ensemble des chantiers nécessaires à la mise en place progressive d’une architecture IA souveraine, multi‑agents, gouvernée, hybride (SaaS → local), conforme aux échanges de cette conversation.


1. Objectifs stratégiques

  • Déployer une organisation d’agents IA comparable à une équipe humaine structurée
  • Séparer strictement gouvernance / exécution / décision
  • Rendre les agents remplaçables, auditables et versionnés
  • Réduire la dépendance aux SaaS IA sans rupture de productivité
  • Permettre un raisonnement temporel, versionné, traçable (Git‑centric)

2. Chantier n°1 — Choix du matériel

2.1 Principes

  • Architecture workstation personnelle (pas datacenter)
  • Scalabilité par duplication de machines complètes
  • Refroidissement air (silence privilégié)
  • GPU réservables par agent

2.2 Configuration retenue (2 phases)

Phase 1 — Workstation IA (Bootstrap)

Configuration finale validée :

Composant Modèle Quantité Prix unitaire Total
CPU AMD Ryzen Threadripper 7970X (4.0 GHz / 5.3 GHz) 1 2 399,95 € 2 999,95 €
Carte Mère ASUS Pro WS WRX90E-SAGE SE 1 1 399,95 € 1 399,95 €
GPU Gigabyte AORUS GeForce RTX 5090 MASTER ICE 32G 2 3 229,95 € 6 459,90 €
Alimentation MSI MEG AI1600T PCIE5 1 699,95 € 699,95 €
RAM G.Skill 256 Go (8 × 32 Go) DDR5 ECC Registered 6000 MHz CL30 1 3 799,95 € 3 799,95 €
Boîtier Fractal Design Define 7 XL TG Dark Tint Noir 1 284,95 € 284,95 €
Ventilation CPU SilverStone XE360-TR5 1 449,95 € 449,95 €
Ventilation Boîtier Noctua NF-A14x25r PWM 3 36,95 € 110,95 €
SSD Système Samsung 990 PRO M.2 PCIe NVMe 4 To 1 659,95 € 659,95 €
SSD DATA Samsung SSD 9100 PRO M.2 PCIe NVMe 8 To 1 1 249,95 € 1 249,95 €
Pâte thermique Thermal Grizzly Conductonaut Extreme (5 grammes) 1 79,95 € 79,95 €
Sous-total Workstation 17 595,30 €

Caractéristiques clés : - 32 cœurs / 64 threads (Threadripper 7970X) - 2× RTX 5090 32 Go (64 Go VRAM total) - 256 Go RAM DDR5 ECC - 12 To stockage NVMe (4 To système + 8 To données)

Phase 1 — Mac E2E (Tests IHM)

Configuration E2E Testing :

Composant Modèle Quantité Prix unitaire Total
Mac MacBook Pro M2 Max (existant) 1 0 € (déjà possédé) 0 €

Caractéristiques clés : - Apple M2 Max (12c CPU + 38c GPU) - 96 Go RAM unifiée - 8 To SSD - Usage : Simulateurs iOS, tests Playwright, XCUITest, agent QA IHM

TOTAL Phase 1 : 17 595,30 €

Phase 2 — Workstation IA 2 (Extension)

Configuration identique Workstation Phase 1 : 17 595,30 €

Caractéristiques clés : - 32 cœurs / 64 threads (Threadripper 7970X) - 2× RTX 5090 32 Go (64 Go VRAM total) - 256 Go RAM DDR5 ECC - 12 To stockage NVMe

Capacité globale 2 workstations : - 64 cœurs / 128 threads - 4× RTX 5090 32 Go (128 Go VRAM total) - 512 Go RAM DDR5 ECC - 24 To stockage NVMe

Phase 2 — Mac Studio (Tests E2E Production)

Configuration E2E Testing professionnelle :

Composant Modèle Quantité Prix estimé Total
Mac Studio Mac Studio M5 Ultra (à définir selon sortie) 1 ~11 424 € ~11 424 €

Caractéristiques attendues : - Apple M5 Ultra (32c CPU + 80c GPU + 32c Neural Engine) - 256 Go RAM unifiée - 8 To SSD - Usage : Agent QA IHM en production, simulateurs iOS, tests Playwright/XCUITest

TOTAL Phase 2 : 35 190,60 € (workstations) + ~11 424 € (Mac Studio) = ~46 614,60 €

2.3 Règles matérielles

  • Isolation par machine : Chaque machine héberge un groupe d'agents indépendant
  • Refroidissement air uniquement (Noctua, SilverStone)
  • GPU réservables : vLLM + orchestration via K8s ou Nomad
  • Redondance : Machine 2 peut prendre le relais en cas de panne Machine 1

2.4 Ordre d'acquisition recommandé

Stratégie de déploiement progressif :

Phase 1 (Immédiat — Bootstrap):
├── Workstation IA 1 (RTX 5090) : 17 595,30 €
└── MacBook Pro M2 Max : 0 € (déjà possédé)

Phase 2A (Prioritaire — Tests E2E Production):
└── Mac Studio M5 Ultra : ~11 424 €

Phase 2B (Extension — Scaling Agents):
└── Workstation IA 2 (RTX 5090) : 17 595,30 €

Rationale Phase 2A prioritaire :

  1. Single Point of Failure (SPOF) :
  2. MacBook Pro = machine personnelle, non dédiée
  3. Panne/indisponibilité → BLOCAGE TOTAL releases (tests E2E iOS obligatoires étapes 7 & 9)
  4. Mac Studio = continuité de service production

  5. Conflit d'usage :

  6. Tests E2E intensifs (simulateurs iOS + Playwright) saturent MacBook Pro
  7. Bloque usage personnel pendant cycles de test
  8. Mac Studio = infrastructure dédiée 24/7

  9. Production vs Développement :

  10. MacBook Pro = OK pour POC/dev/phase 1
  11. Tests E2E production (CI/CD) nécessitent machine dédiée
  12. Mac Studio = Agent QA IHM autonome

  13. Coût d'investissement :

  14. Mac Studio : ~11 424 €
  15. Workstation 2 : 17 595 €
  16. Économie immédiate : 6 171 €

  17. Agents Workstation 2 peuvent attendre :

  18. Agent Code, QA Unit/Integration, SRE : restent temporairement en SaaS (Claude, ChatGPT)
  19. Peuvent tourner partiellement sur Workstation 1 (GPU partagé) si besoin
  20. Déploiement progressif possible
  21. Tests E2E iOS ne peuvent PAS être faits ailleurs que sur Mac

Impact temporaire Phase 2A sans Workstation 2 : - ✅ Tests E2E iOS production garantis (Mac Studio) - ✅ MacBook Pro libéré pour usage personnel - ✅ Investissement moindre (~11k vs ~17k) - ⚠️ Agents Code/QA/SRE restent temporairement en SaaS - ⚠️ Pas de redondance workstation (moins critique que SPOF tests iOS)

Seuils de déclenchement Workstation 2 : - Coûts SaaS mensuel > 1 500 € (ROI < 12 mois) - Saturation GPU Workstation 1 (utilisation > 85% continue) - Besoin de redondance infrastructure (production critique) - Fin de période de validation Mac Studio (~3-6 mois)


3. Chantier n°2 — Choix des modèles d’IA

3.1 Principes de sélection

  • Open‑source prioritaire
  • Inference‑first (pas d’entraînement lourd)
  • Compatibilité vLLM / API OpenAI‑like
  • Contextes longs favorisés

3.2 Modèles cibles (indicatifs)

Usage Modèle Taille
Raisonnement global LLaMA‑3 70B
Coordination / synthèse Qwen‑2.5 32B
Code DeepSeek‑Coder 33B
QA / validation LLaMA‑3 8–14B
RAG Qwen / Mistral 14–32B

4. Chantier n°3 — Liste des agents

4.1 Agents internes (cœur)

  1. PMO transverse
  2. Directeur Commercial / Corporate
  3. Agent Métier / RAG
  4. Agent Code
  5. Agent QA (coordinateur qualité)
  6. Agent QA Unit/Integration (tests techniques)
  7. Agent QA IHM (tests E2E utilisateur)
  8. Agent Adversarial / Challenger
  9. Agent SRE / Santé applicative

Total : 7 agents coordinateurs + 2 agents QA spécialisés = 9 agents internes

4.2 Agents externes (consultatifs)

  • ChatGPT (consultant externe ponctuel)
  • Claude (consultant externe ponctuel)

⚠️ Aucun agent interne ne communique directement avec un agent externe


5. Chantier n°4 — Matrice Agent ↔ Modèle ↔ GPU

5.1 Matrice globale

Agent Modèle cible VRAM min GPU cible Machine
PMO transverse LLaMA‑3 32B 24 Go RTX 5090 Machine 1 ou 2
Directeur Commercial Qwen‑2.5 32B 24 Go RTX 5090 Machine 1
Agent Métier / RAG Qwen / Mistral 32B 24 Go RTX 5090 Machine 1
Agent Code DeepSeek‑Coder 33B 24 Go RTX 5090 Machine 1
Agent QA (coordinateur) LLaMA‑3 14B 16 Go RTX 5090 Machine 2
QA Unit/Integration DeepSeek‑Coder 14B 16 Go RTX 5090 Machine 2
QA IHM LLaMA‑3 8B 12 Go RTX 5090 Machine 2
Adversarial LLaMA‑3 14B 16 Go RTX 5090 Machine 2
SRE Qwen‑2.5 7B 8 Go RTX 5090 Machine 1 ou 2

5.2 Rationale choix modèles

PMO transverse (32B) : - Choix : LLaMA-3 32B au lieu de 70B - Rationale : Tient sur 1× RTX 5090 (24 Go), libère le 2ème GPU, excellent raisonnement - Trade-off : Capacité de raisonnement légèrement réduite vs. 70B, mais largement suffisante pour coordination

QA (14B + 14B + 8B = 38 Go) : - Coordinateur (14B) : Raisonnement stratégique, décisions go/no-go, consolidation métriques - Unit/Integration (14B spécialisé code) : Analyse tests techniques, couverture, TC-* - IHM (8B) : Exécution scénarios E2E, capture artefacts, validation parcours - Total : Tient sur 2× RTX 5090 (64 Go disponibles)

5.3 Répartition GPU par machine

Phase 1 — Machine 1 (Bootstrap)

GPU 1 (RTX 5090 32 Go) : - PMO transverse (LLaMA-3 32B) : 24 Go - Libre : 8 Go (overhead système)

GPU 2 (RTX 5090 32 Go) : - Directeur Commercial (Qwen 32B) : 24 Go - Agent Métier (Qwen 32B) : 24 Go → Partagé avec GPU 1 si nécessaire - Libre : 8 Go

Stratégie Phase 1 : Agents SaaS (ChatGPT, Claude) restent actifs. Machine 1 = POC local PMO + Commercial + Métier.

Phase 2 — Machine 2 (Extension QA)

GPU 1 (RTX 5090 32 Go) : - Agent Code (DeepSeek 33B) : 24 Go - SRE (Qwen 7B) : 8 Go - Total : 32 Go (saturé)

GPU 2 (RTX 5090 32 Go) : - Agent QA (LLaMA 14B) : 16 Go - QA Unit/Integration (DeepSeek 14B) : 16 Go - Total : 32 Go (saturé)

GPU 1 Machine 1 (optionnel) : - QA IHM (LLaMA 8B) : 12 Go - Adversarial (LLaMA 14B) : 16 Go → Peut migrer ici si GPU 2 Machine 2 saturé

Stratégie Phase 2 : Machine 2 = Agents d'exécution (Code, QA) + Infrastructure (SRE).

5.4 Contraintes techniques

vLLM : - Utiliser vLLM pour serving multi-modèles efficace - Partage de GPU via tensor parallelism si modèle > 32 Go - KV cache tuning pour optimiser VRAM

Orchestration : - K8s ou Nomad pour allocation dynamique des GPU - Health checks + auto-restart si agent crash - Metrics (Prometheus) pour monitoring VRAM

Fallback : - Si saturation GPU → queue requests - Si agent critique down → basculer sur SaaS temporairement


6. Chantier n°5 — Gouvernance IA

6.1 Principes non négociables

  • L’utilisateur humain est le seul décideur
  • Aucun agent n’a d’autorité décisionnelle
  • Le PMO est l’unique point de coordination
  • Toute règle doit être testable ou déclarée hors périmètre

6.2 Règles de communication

  • Agent → PMO → Humain
  • Jamais Agent → Agent externe
  • PMO → Agent externe uniquement sur validation humaine

6.3 Mémoire et vérité

  • Git = source de vérité
  • Documents en Markdown
  • Historique pris en compte par les agents
  • Toute modification = invalidation de contexte

6.4 Migration SaaS → Local

  • Migration agent par agent
  • Mode shadow (SaaS + local)
  • Bascule uniquement après validation humaine

7. Organisation des dépôts

ProbatioVault-ia-governance/
├── governance/
├── agents/
├── workflows/
├── integration/
├── rbac/
└── history/

8. Jalons recommandés

  1. Formalisation PMO
  2. Formalisation Directeur Commercial
  3. Formalisation Agent Métier
  4. Déploiement agents SaaS (Claude)
  5. Mise en place machine (2 GPU)
  6. Migration QA → local
  7. Migration Code → local
  8. Migration PMO transverse → local

9. Conclusion

Cette architecture vise à créer un système cognitif durable, où :

  • les outils changent,
  • les modèles évoluent,
  • mais les rôles, règles et responsabilités restent stables.

On ne construit pas une IA. On construit une organisation capable d’en utiliser plusieurs.