Harness Engineering — le framework qui nomme ce que ProbatioVault fait depuis 6 mois¶

Resume¶

Article fondateur de 33 pages (282K vues, 3K bookmarks) publie par TRAE (IDE IA de ByteDance). Introduit le concept de "Harness Engineering" comme nouvelle discipline d'ingenierie logicielle, nommee par Mitchell Hashimoto (co-fondateur HashiCorp) et popularisee par un rapport OpenAI.

Metaphore fondatrice : l'agent IA est un "cheval sauvage" (Wild Horse). Le Harness est le harnais — le systeme de controle qui le domestique. On ne change pas l'ADN du cheval (le modele), on construit l'equipement professionnel et les protocoles d'entrainement.

Equation : AI Agent = SOTA Model (Wild Horse) + Harness (Control System) = Elite Performer

Framework REST (4 objectifs de production) : - Reliability : reprise sur checkpoint, idempotence des operations critiques, coherence comportementale - Efficiency : controle budgetaire tokens/API/compute, latence faible, haut debit batch - Security : moindre privilege, sandbox d'execution, filtrage I/O (injection, fuite de donnees) - Traceability : tracage bout-en-bout, decisions explicables, etat auditable a tout instant

Architecture : Control Plane (le "quoi") + Data Plane (le "comment"), 4 couches fonctionnelles, boucle PPAF (Perception, Planning, Action, Feedback).

6 principes de conception : 1. Design for Failure — exceptions = norme, pas exception 2. Contract-First — interactions via schemas/APIs/events explicites 3. Secure by Default — moindre privilege, zero trust, defense en profondeur 4. Separation of Concerns — decouplage decision/execution 5. Everything is Measurable — tout comportement quantifiable 6. Data-Driven Evolution — chaque run = opportunite d'apprentissage

Niveaux de sandbox : Process (chroot) → Container (Docker) → MicroVM (Firecracker) → Full VM (KVM).

Token Transformation Pipeline : Collection → Ranking → Compression → Budgeting → Assembly.

Analyse critique approfondie¶

Interet reel¶

C'est l'article le plus complet et le mieux structure que j'ai lu sur le sujet "comment faire fonctionner un agent IA en production". Il ne se contente pas de lister des bonnes pratiques — il propose une taxonomie (PPAF, REST, 6 principes, 4 couches) qui permet de raisonner systematiquement sur les decisions d'architecture.

Points forts : - La matrice "cognitive loop × context efficiency" est un outil de positionnement puissant. ProbatioVault se situe dans le quadrant superieur droit (Proactive Plan & Reflect + Efficient Context Injection) grace au workflow 11 etapes + FAISS + injection automatique - Le "Token Transformation Pipeline" (Collection → Ranking → Compression → Budgeting → Assembly) est une formalisation utile de ce qu'on fait deja empiriquement dans assemble-prompt.sh - La distinction Control Plane / Data Plane clarifie pourquoi le One Ring (bash pur, zero LLM) est la bonne architecture — c'est un Control Plane pur

Points faibles : - L'article est tres theorique. Pas un seul exemple de code, pas une seule metrique reelle. C'est un framework conceptuel, pas un guide d'implementation - Le terme "Harness Engineering" est marketing — c'est du repackaging de pratiques connues (agent orchestration, prompt engineering, guardrails). L'article le reconnait d'ailleurs : "a more evocative way to summarize existing AI practices" - Aucune mention des methodes formelles, des verdicts deterministes, ou de la capitalisation inter-stories. Le framework reste au niveau "faire fonctionner un agent" sans aborder "faire fonctionner un systeme multi-agents sur 100+ stories"

Interet dans le contexte ProbatioVault¶

Mapping direct REST → CONSTITUTIONAL :

REST (Harness Eng.)	CONSTITUTIONAL ProbatioVault	Article	Implementation
Reliability	Non-regression	Art. IV	Quality Gates, max 3 iterations
Efficiency	Prompt Caching	CLAUDE.md §Cache	Cache-first assembly, TTL 5 min
Security	Responsabilite totale	Art. VI	Moindre privilege agents step 6b
Traceability	Tracabilite audit	Art. III	Sync Jira auto, YAML artefacts, `.gov-lord-audit.jsonl`

Ce que ProbatioVault fait EN PLUS du framework REST : - Verification formelle (Art. VIII) : pas mentionnee dans l'article. Prolog + TLA+ pour detecter les contradictions inter-specs — un niveau de rigueur absent du framework - Capitalisation inter-stories : learnings lifecycle (reuse_score, promotion, eviction) — l'article mentionne "Data-Driven Evolution" mais sans mecanisme concret - Separation auteur/evaluateur (Art. II) : l'article parle de "Separation of Concerns" pour decision/execution, mais pas pour production/evaluation — le piege du self-judging est ignore - Verdicts deterministes (Art. I) : le scoring par script Python n'est pas couvert. L'article reste dans le paradigme "LLM decide" - Anti-desperate prompting : la gestion emotionnelle des agents (calm context injection) est totalement absente

Ce que l'article formalise mieux que ProbatioVault : - Le Token Transformation Pipeline : on fait Collection → Assembly via assemble-prompt.sh, mais les etapes Ranking/Compression/Budgeting sont implicites. Les formaliser pourrait ameliorer la qualite des prompts multi-agents - Les niveaux de sandbox : nos agents step 6b tournent dans des subprocessus claude -p sans isolation container. Pour un deploiement multi-tenant futur, les niveaux 2-3 (Container/MicroVM) seraient pertinents - Le Circuit Breaker : pas implemente formellement. La degradation gracieuse du broker (gov-interact.sh) est un proto-circuit breaker, mais sans compteur de failures ni trip automatique

Redondance avec les briques existantes¶

Forte redondance — 80% de ce que l'article decrit est deja implemente dans ProbatioVault sous des noms differents :

Concept Harness Eng.	Equivalent ProbatioVault	Fichier
REPL Container	Boucle orchestrateur `/gov`	`.claude/commands/gov.md`
Context Manager	`assemble-prompt.sh` + injection FAISS	`scripts/lib/inject-docs.sh`
Call Interceptor	`gov-interact.sh` (routing broker)	`scripts/lib/gov-interact.sh`
Feedback Assembler	REX + learnings injection	`scripts/gov-learnings-inject-unified.py`
Policy Gateway	CONSTITUTIONAL.md + hooks	`governance/CONSTITUTIONAL.md`
Tiered Memory	Learnings (story → domain → global)	`scripts/learnings-lifecycle.py`
Planning Models	Workflow 11 etapes (Plan-and-Execute)	`data/fsm.yaml`

Difficulte de mise en oeuvre¶

Deja fait a 80%. Les 20% restants sont des formalisations utiles mais pas urgentes :

Amelioration	Effort	Valeur	Priorite
Formaliser le Token Pipeline (Ranking/Compression/Budgeting)	2-3j	Moyenne	P2
Implementer un vrai Circuit Breaker sur le broker	1j	Faible (le broker est rarement down)	P3
Containeriser les agents step 6b	3-5j	Haute pour multi-tenant, faible pour solo	P3
Ajouter des metriques REST dans metrics.jsonl	1j	Moyenne	P2

Valeur pour les threads X¶

Excellente reference pour un thread sur l'architecture de gouvernance IA. L'article fournit le vocabulaire et le framework theorique — ProbatioVault fournit l'implementation concrete avec 200+ stories de recul. Thread potentiel : "Le Harness Engineering vient d'etre nomme. Je le fais depuis 6 mois. Voici ce que 200 stories m'ont appris qu'un framework ne dit pas."