Spécification globale — Architecture IA ProbatioVault¶
Objet : Formaliser l’ensemble des chantiers nécessaires à la mise en place progressive d’une architecture IA souveraine, multi‑agents, gouvernée, hybride (SaaS → local), conforme aux échanges de cette conversation.
1. Objectifs stratégiques¶
- Déployer une organisation d’agents IA comparable à une équipe humaine structurée
- Séparer strictement gouvernance / exécution / décision
- Rendre les agents remplaçables, auditables et versionnés
- Réduire la dépendance aux SaaS IA sans rupture de productivité
- Permettre un raisonnement temporel, versionné, traçable (Git‑centric)
2. Chantier n°1 — Choix du matériel¶
2.1 Principes¶
- Architecture workstation personnelle (pas datacenter)
- Scalabilité par duplication de machines complètes
- Refroidissement air (silence privilégié)
- GPU réservables par agent
2.2 Configuration retenue (2 phases)¶
Phase 1 — Workstation IA (Bootstrap)¶
Configuration finale validée :
| Composant | Modèle | Quantité | Prix unitaire | Total |
|---|---|---|---|---|
| CPU | AMD Ryzen Threadripper 7970X (4.0 GHz / 5.3 GHz) | 1 | 2 399,95 € | 2 999,95 € |
| Carte Mère | ASUS Pro WS WRX90E-SAGE SE | 1 | 1 399,95 € | 1 399,95 € |
| GPU | Gigabyte AORUS GeForce RTX 5090 MASTER ICE 32G | 2 | 3 229,95 € | 6 459,90 € |
| Alimentation | MSI MEG AI1600T PCIE5 | 1 | 699,95 € | 699,95 € |
| RAM | G.Skill 256 Go (8 × 32 Go) DDR5 ECC Registered 6000 MHz CL30 | 1 | 3 799,95 € | 3 799,95 € |
| Boîtier | Fractal Design Define 7 XL TG Dark Tint Noir | 1 | 284,95 € | 284,95 € |
| Ventilation CPU | SilverStone XE360-TR5 | 1 | 449,95 € | 449,95 € |
| Ventilation Boîtier | Noctua NF-A14x25r PWM | 3 | 36,95 € | 110,95 € |
| SSD Système | Samsung 990 PRO M.2 PCIe NVMe 4 To | 1 | 659,95 € | 659,95 € |
| SSD DATA | Samsung SSD 9100 PRO M.2 PCIe NVMe 8 To | 1 | 1 249,95 € | 1 249,95 € |
| Pâte thermique | Thermal Grizzly Conductonaut Extreme (5 grammes) | 1 | 79,95 € | 79,95 € |
| Sous-total Workstation | 17 595,30 € |
Caractéristiques clés : - 32 cœurs / 64 threads (Threadripper 7970X) - 2× RTX 5090 32 Go (64 Go VRAM total) - 256 Go RAM DDR5 ECC - 12 To stockage NVMe (4 To système + 8 To données)
Phase 1 — Mac E2E (Tests IHM)¶
Configuration E2E Testing :
| Composant | Modèle | Quantité | Prix unitaire | Total |
|---|---|---|---|---|
| Mac | MacBook Pro M2 Max (existant) | 1 | 0 € (déjà possédé) | 0 € |
Caractéristiques clés : - Apple M2 Max (12c CPU + 38c GPU) - 96 Go RAM unifiée - 8 To SSD - Usage : Simulateurs iOS, tests Playwright, XCUITest, agent QA IHM
TOTAL Phase 1 : 17 595,30 €
Phase 2 — Workstation IA 2 (Extension)¶
Configuration identique Workstation Phase 1 : 17 595,30 €
Caractéristiques clés : - 32 cœurs / 64 threads (Threadripper 7970X) - 2× RTX 5090 32 Go (64 Go VRAM total) - 256 Go RAM DDR5 ECC - 12 To stockage NVMe
Capacité globale 2 workstations : - 64 cœurs / 128 threads - 4× RTX 5090 32 Go (128 Go VRAM total) - 512 Go RAM DDR5 ECC - 24 To stockage NVMe
Phase 2 — Mac Studio (Tests E2E Production)¶
Configuration E2E Testing professionnelle :
| Composant | Modèle | Quantité | Prix estimé | Total |
|---|---|---|---|---|
| Mac Studio | Mac Studio M5 Ultra (à définir selon sortie) | 1 | ~11 424 € | ~11 424 € |
Caractéristiques attendues : - Apple M5 Ultra (32c CPU + 80c GPU + 32c Neural Engine) - 256 Go RAM unifiée - 8 To SSD - Usage : Agent QA IHM en production, simulateurs iOS, tests Playwright/XCUITest
TOTAL Phase 2 : 35 190,60 € (workstations) + ~11 424 € (Mac Studio) = ~46 614,60 €
2.3 Règles matérielles¶
- Isolation par machine : Chaque machine héberge un groupe d'agents indépendant
- Refroidissement air uniquement (Noctua, SilverStone)
- GPU réservables : vLLM + orchestration via K8s ou Nomad
- Redondance : Machine 2 peut prendre le relais en cas de panne Machine 1
2.4 Ordre d'acquisition recommandé¶
Stratégie de déploiement progressif :
Phase 1 (Immédiat — Bootstrap):
├── Workstation IA 1 (RTX 5090) : 17 595,30 €
└── MacBook Pro M2 Max : 0 € (déjà possédé)
Phase 2A (Prioritaire — Tests E2E Production):
└── Mac Studio M5 Ultra : ~11 424 €
Phase 2B (Extension — Scaling Agents):
└── Workstation IA 2 (RTX 5090) : 17 595,30 €
Rationale Phase 2A prioritaire :
- Single Point of Failure (SPOF) :
- MacBook Pro = machine personnelle, non dédiée
- Panne/indisponibilité → BLOCAGE TOTAL releases (tests E2E iOS obligatoires étapes 7 & 9)
-
Mac Studio = continuité de service production
-
Conflit d'usage :
- Tests E2E intensifs (simulateurs iOS + Playwright) saturent MacBook Pro
- Bloque usage personnel pendant cycles de test
-
Mac Studio = infrastructure dédiée 24/7
-
Production vs Développement :
- MacBook Pro = OK pour POC/dev/phase 1
- Tests E2E production (CI/CD) nécessitent machine dédiée
-
Mac Studio = Agent QA IHM autonome
-
Coût d'investissement :
- Mac Studio : ~11 424 €
- Workstation 2 : 17 595 €
-
Économie immédiate : 6 171 €
-
Agents Workstation 2 peuvent attendre :
- Agent Code, QA Unit/Integration, SRE : restent temporairement en SaaS (Claude, ChatGPT)
- Peuvent tourner partiellement sur Workstation 1 (GPU partagé) si besoin
- Déploiement progressif possible
- Tests E2E iOS ne peuvent PAS être faits ailleurs que sur Mac
Impact temporaire Phase 2A sans Workstation 2 : - ✅ Tests E2E iOS production garantis (Mac Studio) - ✅ MacBook Pro libéré pour usage personnel - ✅ Investissement moindre (~11k vs ~17k) - ⚠️ Agents Code/QA/SRE restent temporairement en SaaS - ⚠️ Pas de redondance workstation (moins critique que SPOF tests iOS)
Seuils de déclenchement Workstation 2 : - Coûts SaaS mensuel > 1 500 € (ROI < 12 mois) - Saturation GPU Workstation 1 (utilisation > 85% continue) - Besoin de redondance infrastructure (production critique) - Fin de période de validation Mac Studio (~3-6 mois)
3. Chantier n°2 — Choix des modèles d’IA¶
3.1 Principes de sélection¶
- Open‑source prioritaire
- Inference‑first (pas d’entraînement lourd)
- Compatibilité vLLM / API OpenAI‑like
- Contextes longs favorisés
3.2 Modèles cibles (indicatifs)¶
| Usage | Modèle | Taille |
|---|---|---|
| Raisonnement global | LLaMA‑3 | 70B |
| Coordination / synthèse | Qwen‑2.5 | 32B |
| Code | DeepSeek‑Coder | 33B |
| QA / validation | LLaMA‑3 | 8–14B |
| RAG | Qwen / Mistral | 14–32B |
4. Chantier n°3 — Liste des agents¶
4.1 Agents internes (cœur)¶
- PMO transverse
- Directeur Commercial / Corporate
- Agent Métier / RAG
- Agent Code
- Agent QA (coordinateur qualité)
- Agent QA Unit/Integration (tests techniques)
- Agent QA IHM (tests E2E utilisateur)
- Agent Adversarial / Challenger
- Agent SRE / Santé applicative
Total : 7 agents coordinateurs + 2 agents QA spécialisés = 9 agents internes
4.2 Agents externes (consultatifs)¶
- ChatGPT (consultant externe ponctuel)
- Claude (consultant externe ponctuel)
⚠️ Aucun agent interne ne communique directement avec un agent externe
5. Chantier n°4 — Matrice Agent ↔ Modèle ↔ GPU¶
5.1 Matrice globale¶
| Agent | Modèle cible | VRAM min | GPU cible | Machine |
|---|---|---|---|---|
| PMO transverse | LLaMA‑3 32B | 24 Go | RTX 5090 | Machine 1 ou 2 |
| Directeur Commercial | Qwen‑2.5 32B | 24 Go | RTX 5090 | Machine 1 |
| Agent Métier / RAG | Qwen / Mistral 32B | 24 Go | RTX 5090 | Machine 1 |
| Agent Code | DeepSeek‑Coder 33B | 24 Go | RTX 5090 | Machine 1 |
| Agent QA (coordinateur) | LLaMA‑3 14B | 16 Go | RTX 5090 | Machine 2 |
| QA Unit/Integration | DeepSeek‑Coder 14B | 16 Go | RTX 5090 | Machine 2 |
| QA IHM | LLaMA‑3 8B | 12 Go | RTX 5090 | Machine 2 |
| Adversarial | LLaMA‑3 14B | 16 Go | RTX 5090 | Machine 2 |
| SRE | Qwen‑2.5 7B | 8 Go | RTX 5090 | Machine 1 ou 2 |
5.2 Rationale choix modèles¶
PMO transverse (32B) : - Choix : LLaMA-3 32B au lieu de 70B - Rationale : Tient sur 1× RTX 5090 (24 Go), libère le 2ème GPU, excellent raisonnement - Trade-off : Capacité de raisonnement légèrement réduite vs. 70B, mais largement suffisante pour coordination
QA (14B + 14B + 8B = 38 Go) : - Coordinateur (14B) : Raisonnement stratégique, décisions go/no-go, consolidation métriques - Unit/Integration (14B spécialisé code) : Analyse tests techniques, couverture, TC-* - IHM (8B) : Exécution scénarios E2E, capture artefacts, validation parcours - Total : Tient sur 2× RTX 5090 (64 Go disponibles)
5.3 Répartition GPU par machine¶
Phase 1 — Machine 1 (Bootstrap)¶
GPU 1 (RTX 5090 32 Go) : - PMO transverse (LLaMA-3 32B) : 24 Go - Libre : 8 Go (overhead système)
GPU 2 (RTX 5090 32 Go) : - Directeur Commercial (Qwen 32B) : 24 Go - Agent Métier (Qwen 32B) : 24 Go → Partagé avec GPU 1 si nécessaire - Libre : 8 Go
Stratégie Phase 1 : Agents SaaS (ChatGPT, Claude) restent actifs. Machine 1 = POC local PMO + Commercial + Métier.
Phase 2 — Machine 2 (Extension QA)¶
GPU 1 (RTX 5090 32 Go) : - Agent Code (DeepSeek 33B) : 24 Go - SRE (Qwen 7B) : 8 Go - Total : 32 Go (saturé)
GPU 2 (RTX 5090 32 Go) : - Agent QA (LLaMA 14B) : 16 Go - QA Unit/Integration (DeepSeek 14B) : 16 Go - Total : 32 Go (saturé)
GPU 1 Machine 1 (optionnel) : - QA IHM (LLaMA 8B) : 12 Go - Adversarial (LLaMA 14B) : 16 Go → Peut migrer ici si GPU 2 Machine 2 saturé
Stratégie Phase 2 : Machine 2 = Agents d'exécution (Code, QA) + Infrastructure (SRE).
5.4 Contraintes techniques¶
vLLM : - Utiliser vLLM pour serving multi-modèles efficace - Partage de GPU via tensor parallelism si modèle > 32 Go - KV cache tuning pour optimiser VRAM
Orchestration : - K8s ou Nomad pour allocation dynamique des GPU - Health checks + auto-restart si agent crash - Metrics (Prometheus) pour monitoring VRAM
Fallback : - Si saturation GPU → queue requests - Si agent critique down → basculer sur SaaS temporairement
6. Chantier n°5 — Gouvernance IA¶
6.1 Principes non négociables¶
- L’utilisateur humain est le seul décideur
- Aucun agent n’a d’autorité décisionnelle
- Le PMO est l’unique point de coordination
- Toute règle doit être testable ou déclarée hors périmètre
6.2 Règles de communication¶
- Agent → PMO → Humain
- Jamais Agent → Agent externe
- PMO → Agent externe uniquement sur validation humaine
6.3 Mémoire et vérité¶
- Git = source de vérité
- Documents en Markdown
- Historique pris en compte par les agents
- Toute modification = invalidation de contexte
6.4 Migration SaaS → Local¶
- Migration agent par agent
- Mode shadow (SaaS + local)
- Bascule uniquement après validation humaine
7. Organisation des dépôts¶
ProbatioVault-ia-governance/
├── governance/
├── agents/
├── workflows/
├── integration/
├── rbac/
└── history/
8. Jalons recommandés¶
- Formalisation PMO
- Formalisation Directeur Commercial
- Formalisation Agent Métier
- Déploiement agents SaaS (Claude)
- Mise en place machine (2 GPU)
- Migration QA → local
- Migration Code → local
- Migration PMO transverse → local
9. Conclusion¶
Cette architecture vise à créer un système cognitif durable, où :
- les outils changent,
- les modèles évoluent,
- mais les rôles, règles et responsabilités restent stables.
On ne construit pas une IA. On construit une organisation capable d’en utiliser plusieurs.