Spécification globale — Architecture IA ProbatioVault¶

Objet : Formaliser l’ensemble des chantiers nécessaires à la mise en place progressive d’une architecture IA souveraine, multi‑agents, gouvernée, hybride (SaaS → local), conforme aux échanges de cette conversation.

1. Objectifs stratégiques¶

Déployer une organisation d’agents IA comparable à une équipe humaine structurée
Séparer strictement gouvernance / exécution / décision
Rendre les agents remplaçables, auditables et versionnés
Réduire la dépendance aux SaaS IA sans rupture de productivité
Permettre un raisonnement temporel, versionné, traçable (Git‑centric)

2. Chantier n°1 — Choix du matériel¶

2.1 Principes¶

Architecture workstation personnelle (pas datacenter)
Scalabilité par duplication de machines complètes
Refroidissement air (silence privilégié)
GPU réservables par agent

2.2 Configuration retenue (2 phases)¶

Phase 1 — Workstation IA (Bootstrap)¶

Configuration finale validée :

Composant	Modèle	Quantité	Prix unitaire	Total
CPU	AMD Ryzen Threadripper 7970X (4.0 GHz / 5.3 GHz)	1	2 399,95 €	2 999,95 €
Carte Mère	ASUS Pro WS WRX90E-SAGE SE	1	1 399,95 €	1 399,95 €
GPU	Gigabyte AORUS GeForce RTX 5090 MASTER ICE 32G	2	3 229,95 €	6 459,90 €
Alimentation	MSI MEG AI1600T PCIE5	1	699,95 €	699,95 €
RAM	G.Skill 256 Go (8 × 32 Go) DDR5 ECC Registered 6000 MHz CL30	1	3 799,95 €	3 799,95 €
Boîtier	Fractal Design Define 7 XL TG Dark Tint Noir	1	284,95 €	284,95 €
Ventilation CPU	SilverStone XE360-TR5	1	449,95 €	449,95 €
Ventilation Boîtier	Noctua NF-A14x25r PWM	3	36,95 €	110,95 €
SSD Système	Samsung 990 PRO M.2 PCIe NVMe 4 To	1	659,95 €	659,95 €
SSD DATA	Samsung SSD 9100 PRO M.2 PCIe NVMe 8 To	1	1 249,95 €	1 249,95 €
Pâte thermique	Thermal Grizzly Conductonaut Extreme (5 grammes)	1	79,95 €	79,95 €
Sous-total Workstation				17 595,30 €

Caractéristiques clés : - 32 cœurs / 64 threads (Threadripper 7970X) - 2× RTX 5090 32 Go (64 Go VRAM total) - 256 Go RAM DDR5 ECC - 12 To stockage NVMe (4 To système + 8 To données)

Phase 1 — Mac E2E (Tests IHM)¶

Configuration E2E Testing :

Composant	Modèle	Quantité	Prix unitaire	Total
Mac	MacBook Pro M2 Max (existant)	1	0 € (déjà possédé)	0 €

Caractéristiques clés : - Apple M2 Max (12c CPU + 38c GPU) - 96 Go RAM unifiée - 8 To SSD - Usage : Simulateurs iOS, tests Playwright, XCUITest, agent QA IHM

TOTAL Phase 1 : 17 595,30 €

Phase 2 — Workstation IA 2 (Extension)¶

Configuration identique Workstation Phase 1 : 17 595,30 €

Caractéristiques clés : - 32 cœurs / 64 threads (Threadripper 7970X) - 2× RTX 5090 32 Go (64 Go VRAM total) - 256 Go RAM DDR5 ECC - 12 To stockage NVMe

Capacité globale 2 workstations : - 64 cœurs / 128 threads - 4× RTX 5090 32 Go (128 Go VRAM total) - 512 Go RAM DDR5 ECC - 24 To stockage NVMe

Phase 2 — Mac Studio (Tests E2E Production)¶

Configuration E2E Testing professionnelle :

Composant	Modèle	Quantité	Prix estimé	Total
Mac Studio	Mac Studio M5 Ultra (à définir selon sortie)	1	~11 424 €	~11 424 €

Caractéristiques attendues : - Apple M5 Ultra (32c CPU + 80c GPU + 32c Neural Engine) - 256 Go RAM unifiée - 8 To SSD - Usage : Agent QA IHM en production, simulateurs iOS, tests Playwright/XCUITest

TOTAL Phase 2 : 35 190,60 € (workstations) + ~11 424 € (Mac Studio) = ~46 614,60 €

2.3 Règles matérielles¶

Isolation par machine : Chaque machine héberge un groupe d'agents indépendant
Refroidissement air uniquement (Noctua, SilverStone)
GPU réservables : vLLM + orchestration via K8s ou Nomad
Redondance : Machine 2 peut prendre le relais en cas de panne Machine 1

2.4 Ordre d'acquisition recommandé¶

Stratégie de déploiement progressif :

Phase 1 (Immédiat — Bootstrap):
├── Workstation IA 1 (RTX 5090) : 17 595,30 €
└── MacBook Pro M2 Max : 0 € (déjà possédé)

Phase 2A (Prioritaire — Tests E2E Production):
└── Mac Studio M5 Ultra : ~11 424 €

Phase 2B (Extension — Scaling Agents):
└── Workstation IA 2 (RTX 5090) : 17 595,30 €

Rationale Phase 2A prioritaire :

Single Point of Failure (SPOF) :
MacBook Pro = machine personnelle, non dédiée
Panne/indisponibilité → BLOCAGE TOTAL releases (tests E2E iOS obligatoires étapes 7 & 9)
Mac Studio = continuité de service production
Conflit d'usage :
Tests E2E intensifs (simulateurs iOS + Playwright) saturent MacBook Pro
Bloque usage personnel pendant cycles de test
Mac Studio = infrastructure dédiée 24/7
Production vs Développement :
MacBook Pro = OK pour POC/dev/phase 1
Tests E2E production (CI/CD) nécessitent machine dédiée
Mac Studio = Agent QA IHM autonome
Coût d'investissement :
Mac Studio : ~11 424 €
Workstation 2 : 17 595 €
Économie immédiate : 6 171 €
Agents Workstation 2 peuvent attendre :
Agent Code, QA Unit/Integration, SRE : restent temporairement en SaaS (Claude, ChatGPT)
Peuvent tourner partiellement sur Workstation 1 (GPU partagé) si besoin
Déploiement progressif possible
Tests E2E iOS ne peuvent PAS être faits ailleurs que sur Mac

Impact temporaire Phase 2A sans Workstation 2 : - ✅ Tests E2E iOS production garantis (Mac Studio) - ✅ MacBook Pro libéré pour usage personnel - ✅ Investissement moindre (~11k vs ~17k) - ⚠️ Agents Code/QA/SRE restent temporairement en SaaS - ⚠️ Pas de redondance workstation (moins critique que SPOF tests iOS)

Seuils de déclenchement Workstation 2 : - Coûts SaaS mensuel > 1 500 € (ROI < 12 mois) - Saturation GPU Workstation 1 (utilisation > 85% continue) - Besoin de redondance infrastructure (production critique) - Fin de période de validation Mac Studio (~3-6 mois)

3. Chantier n°2 — Choix des modèles d’IA¶

3.1 Principes de sélection¶

Open‑source prioritaire
Inference‑first (pas d’entraînement lourd)
Compatibilité vLLM / API OpenAI‑like
Contextes longs favorisés

3.2 Modèles cibles (indicatifs)¶

Usage	Modèle	Taille
Raisonnement global	LLaMA‑3	70B
Coordination / synthèse	Qwen‑2.5	32B
Code	DeepSeek‑Coder	33B
QA / validation	LLaMA‑3	8–14B
RAG	Qwen / Mistral	14–32B

4. Chantier n°3 — Liste des agents¶

4.1 Agents internes (cœur)¶

PMO transverse
Directeur Commercial / Corporate
Agent Métier / RAG
Agent Code
Agent QA (coordinateur qualité)
Agent QA Unit/Integration (tests techniques)
Agent QA IHM (tests E2E utilisateur)
Agent Adversarial / Challenger
Agent SRE / Santé applicative

Total : 7 agents coordinateurs + 2 agents QA spécialisés = 9 agents internes

4.2 Agents externes (consultatifs)¶

ChatGPT (consultant externe ponctuel)
Claude (consultant externe ponctuel)

⚠️ Aucun agent interne ne communique directement avec un agent externe

5. Chantier n°4 — Matrice Agent ↔ Modèle ↔ GPU¶

5.1 Matrice globale¶

Agent	Modèle cible	VRAM min	GPU cible	Machine
PMO transverse	LLaMA‑3 32B	24 Go	RTX 5090	Machine 1 ou 2
Directeur Commercial	Qwen‑2.5 32B	24 Go	RTX 5090	Machine 1
Agent Métier / RAG	Qwen / Mistral 32B	24 Go	RTX 5090	Machine 1
Agent Code	DeepSeek‑Coder 33B	24 Go	RTX 5090	Machine 1
Agent QA (coordinateur)	LLaMA‑3 14B	16 Go	RTX 5090	Machine 2
QA Unit/Integration	DeepSeek‑Coder 14B	16 Go	RTX 5090	Machine 2
QA IHM	LLaMA‑3 8B	12 Go	RTX 5090	Machine 2
Adversarial	LLaMA‑3 14B	16 Go	RTX 5090	Machine 2
SRE	Qwen‑2.5 7B	8 Go	RTX 5090	Machine 1 ou 2

5.2 Rationale choix modèles¶

PMO transverse (32B) : - Choix : LLaMA-3 32B au lieu de 70B - Rationale : Tient sur 1× RTX 5090 (24 Go), libère le 2ème GPU, excellent raisonnement - Trade-off : Capacité de raisonnement légèrement réduite vs. 70B, mais largement suffisante pour coordination

QA (14B + 14B + 8B = 38 Go) : - Coordinateur (14B) : Raisonnement stratégique, décisions go/no-go, consolidation métriques - Unit/Integration (14B spécialisé code) : Analyse tests techniques, couverture, TC-* - IHM (8B) : Exécution scénarios E2E, capture artefacts, validation parcours - Total : Tient sur 2× RTX 5090 (64 Go disponibles)

5.3 Répartition GPU par machine¶

Phase 1 — Machine 1 (Bootstrap)¶

GPU 1 (RTX 5090 32 Go) : - PMO transverse (LLaMA-3 32B) : 24 Go - Libre : 8 Go (overhead système)

GPU 2 (RTX 5090 32 Go) : - Directeur Commercial (Qwen 32B) : 24 Go - Agent Métier (Qwen 32B) : 24 Go → Partagé avec GPU 1 si nécessaire - Libre : 8 Go

Stratégie Phase 1 : Agents SaaS (ChatGPT, Claude) restent actifs. Machine 1 = POC local PMO + Commercial + Métier.

Phase 2 — Machine 2 (Extension QA)¶

GPU 1 (RTX 5090 32 Go) : - Agent Code (DeepSeek 33B) : 24 Go - SRE (Qwen 7B) : 8 Go - Total : 32 Go (saturé)

GPU 2 (RTX 5090 32 Go) : - Agent QA (LLaMA 14B) : 16 Go - QA Unit/Integration (DeepSeek 14B) : 16 Go - Total : 32 Go (saturé)

GPU 1 Machine 1 (optionnel) : - QA IHM (LLaMA 8B) : 12 Go - Adversarial (LLaMA 14B) : 16 Go → Peut migrer ici si GPU 2 Machine 2 saturé

Stratégie Phase 2 : Machine 2 = Agents d'exécution (Code, QA) + Infrastructure (SRE).

5.4 Contraintes techniques¶

vLLM : - Utiliser vLLM pour serving multi-modèles efficace - Partage de GPU via tensor parallelism si modèle > 32 Go - KV cache tuning pour optimiser VRAM

Orchestration : - K8s ou Nomad pour allocation dynamique des GPU - Health checks + auto-restart si agent crash - Metrics (Prometheus) pour monitoring VRAM

Fallback : - Si saturation GPU → queue requests - Si agent critique down → basculer sur SaaS temporairement

6. Chantier n°5 — Gouvernance IA¶

6.1 Principes non négociables¶

L’utilisateur humain est le seul décideur
Aucun agent n’a d’autorité décisionnelle
Le PMO est l’unique point de coordination
Toute règle doit être testable ou déclarée hors périmètre

6.2 Règles de communication¶

Agent → PMO → Humain
Jamais Agent → Agent externe
PMO → Agent externe uniquement sur validation humaine

6.3 Mémoire et vérité¶

Git = source de vérité
Documents en Markdown
Historique pris en compte par les agents
Toute modification = invalidation de contexte

6.4 Migration SaaS → Local¶

Migration agent par agent
Mode shadow (SaaS + local)
Bascule uniquement après validation humaine

7. Organisation des dépôts¶

ProbatioVault-ia-governance/
├── governance/
├── agents/
├── workflows/
├── integration/
├── rbac/
└── history/

8. Jalons recommandés¶

Formalisation PMO
Formalisation Directeur Commercial
Formalisation Agent Métier
Déploiement agents SaaS (Claude)
Mise en place machine (2 GPU)
Migration QA → local
Migration Code → local
Migration PMO transverse → local

9. Conclusion¶

Cette architecture vise à créer un système cognitif durable, où :

les outils changent,
les modèles évoluent,
mais les rôles, règles et responsabilités restent stables.

On ne construit pas une IA. On construit une organisation capable d’en utiliser plusieurs.