Aller au contenu

Harness Engineering — le framework qui nomme ce que ProbatioVault fait depuis 6 mois

Resume

Article fondateur de 33 pages (282K vues, 3K bookmarks) publie par TRAE (IDE IA de ByteDance). Introduit le concept de "Harness Engineering" comme nouvelle discipline d'ingenierie logicielle, nommee par Mitchell Hashimoto (co-fondateur HashiCorp) et popularisee par un rapport OpenAI.

Metaphore fondatrice : l'agent IA est un "cheval sauvage" (Wild Horse). Le Harness est le harnais — le systeme de controle qui le domestique. On ne change pas l'ADN du cheval (le modele), on construit l'equipement professionnel et les protocoles d'entrainement.

Equation : AI Agent = SOTA Model (Wild Horse) + Harness (Control System) = Elite Performer

Framework REST (4 objectifs de production) : - Reliability : reprise sur checkpoint, idempotence des operations critiques, coherence comportementale - Efficiency : controle budgetaire tokens/API/compute, latence faible, haut debit batch - Security : moindre privilege, sandbox d'execution, filtrage I/O (injection, fuite de donnees) - Traceability : tracage bout-en-bout, decisions explicables, etat auditable a tout instant

Architecture : Control Plane (le "quoi") + Data Plane (le "comment"), 4 couches fonctionnelles, boucle PPAF (Perception, Planning, Action, Feedback).

6 principes de conception : 1. Design for Failure — exceptions = norme, pas exception 2. Contract-First — interactions via schemas/APIs/events explicites 3. Secure by Default — moindre privilege, zero trust, defense en profondeur 4. Separation of Concerns — decouplage decision/execution 5. Everything is Measurable — tout comportement quantifiable 6. Data-Driven Evolution — chaque run = opportunite d'apprentissage

Niveaux de sandbox : Process (chroot) → Container (Docker) → MicroVM (Firecracker) → Full VM (KVM).

Token Transformation Pipeline : Collection → Ranking → Compression → Budgeting → Assembly.

Analyse critique approfondie

Interet reel

C'est l'article le plus complet et le mieux structure que j'ai lu sur le sujet "comment faire fonctionner un agent IA en production". Il ne se contente pas de lister des bonnes pratiques — il propose une taxonomie (PPAF, REST, 6 principes, 4 couches) qui permet de raisonner systematiquement sur les decisions d'architecture.

Points forts : - La matrice "cognitive loop × context efficiency" est un outil de positionnement puissant. ProbatioVault se situe dans le quadrant superieur droit (Proactive Plan & Reflect + Efficient Context Injection) grace au workflow 11 etapes + FAISS + injection automatique - Le "Token Transformation Pipeline" (Collection → Ranking → Compression → Budgeting → Assembly) est une formalisation utile de ce qu'on fait deja empiriquement dans assemble-prompt.sh - La distinction Control Plane / Data Plane clarifie pourquoi le One Ring (bash pur, zero LLM) est la bonne architecture — c'est un Control Plane pur

Points faibles : - L'article est tres theorique. Pas un seul exemple de code, pas une seule metrique reelle. C'est un framework conceptuel, pas un guide d'implementation - Le terme "Harness Engineering" est marketing — c'est du repackaging de pratiques connues (agent orchestration, prompt engineering, guardrails). L'article le reconnait d'ailleurs : "a more evocative way to summarize existing AI practices" - Aucune mention des methodes formelles, des verdicts deterministes, ou de la capitalisation inter-stories. Le framework reste au niveau "faire fonctionner un agent" sans aborder "faire fonctionner un systeme multi-agents sur 100+ stories"

Interet dans le contexte ProbatioVault

Mapping direct REST → CONSTITUTIONAL :

REST (Harness Eng.) CONSTITUTIONAL ProbatioVault Article Implementation
Reliability Non-regression Art. IV Quality Gates, max 3 iterations
Efficiency Prompt Caching CLAUDE.md §Cache Cache-first assembly, TTL 5 min
Security Responsabilite totale Art. VI Moindre privilege agents step 6b
Traceability Tracabilite audit Art. III Sync Jira auto, YAML artefacts, .gov-lord-audit.jsonl

Ce que ProbatioVault fait EN PLUS du framework REST : - Verification formelle (Art. VIII) : pas mentionnee dans l'article. Prolog + TLA+ pour detecter les contradictions inter-specs — un niveau de rigueur absent du framework - Capitalisation inter-stories : learnings lifecycle (reuse_score, promotion, eviction) — l'article mentionne "Data-Driven Evolution" mais sans mecanisme concret - Separation auteur/evaluateur (Art. II) : l'article parle de "Separation of Concerns" pour decision/execution, mais pas pour production/evaluation — le piege du self-judging est ignore - Verdicts deterministes (Art. I) : le scoring par script Python n'est pas couvert. L'article reste dans le paradigme "LLM decide" - Anti-desperate prompting : la gestion emotionnelle des agents (calm context injection) est totalement absente

Ce que l'article formalise mieux que ProbatioVault : - Le Token Transformation Pipeline : on fait Collection → Assembly via assemble-prompt.sh, mais les etapes Ranking/Compression/Budgeting sont implicites. Les formaliser pourrait ameliorer la qualite des prompts multi-agents - Les niveaux de sandbox : nos agents step 6b tournent dans des subprocessus claude -p sans isolation container. Pour un deploiement multi-tenant futur, les niveaux 2-3 (Container/MicroVM) seraient pertinents - Le Circuit Breaker : pas implemente formellement. La degradation gracieuse du broker (gov-interact.sh) est un proto-circuit breaker, mais sans compteur de failures ni trip automatique

Redondance avec les briques existantes

Forte redondance — 80% de ce que l'article decrit est deja implemente dans ProbatioVault sous des noms differents :

Concept Harness Eng. Equivalent ProbatioVault Fichier
REPL Container Boucle orchestrateur /gov .claude/commands/gov.md
Context Manager assemble-prompt.sh + injection FAISS scripts/lib/inject-docs.sh
Call Interceptor gov-interact.sh (routing broker) scripts/lib/gov-interact.sh
Feedback Assembler REX + learnings injection scripts/gov-learnings-inject-unified.py
Policy Gateway CONSTITUTIONAL.md + hooks governance/CONSTITUTIONAL.md
Tiered Memory Learnings (story → domain → global) scripts/learnings-lifecycle.py
Planning Models Workflow 11 etapes (Plan-and-Execute) data/fsm.yaml

Difficulte de mise en oeuvre

Deja fait a 80%. Les 20% restants sont des formalisations utiles mais pas urgentes :

Amelioration Effort Valeur Priorite
Formaliser le Token Pipeline (Ranking/Compression/Budgeting) 2-3j Moyenne P2
Implementer un vrai Circuit Breaker sur le broker 1j Faible (le broker est rarement down) P3
Containeriser les agents step 6b 3-5j Haute pour multi-tenant, faible pour solo P3
Ajouter des metriques REST dans metrics.jsonl 1j Moyenne P2

Valeur pour les threads X

Excellente reference pour un thread sur l'architecture de gouvernance IA. L'article fournit le vocabulaire et le framework theorique — ProbatioVault fournit l'implementation concrete avec 200+ stories de recul. Thread potentiel : "Le Harness Engineering vient d'etre nomme. Je le fais depuis 6 mois. Voici ce que 200 stories m'ont appris qu'un framework ne dit pas."