Etude METR : les devs professionnels sont 19% plus lents avec les agents IA¶

Resume¶

Une etude de METR, UC San Diego et Cornell a suivi 112 developpeurs experimentes utilisant des agents IA (Cursor, Copilot, Claude Code) sur leurs propres codebases professionnelles. Resultat contre-intuitif : les developpeurs mettent en moyenne 19% de temps en plus pour accomplir leurs taches quand ils utilisent des agents IA, par rapport au travail sans agent. L'etude est randomisee (les devs alternent entre sessions avec et sans agents) sur des taches reelles, pas des benchmarks synthetiques.

Analyse critique¶

Ce qui est solide : Le protocole est remarquable. 112 devs experimentes (pas des etudiants), sur leurs propres codebases (pas des repos jouets), en conditions reelles de travail. C'est exactement le type d'etude qui manquait pour depasser les demos virales "j'ai code une app en 5 minutes". Le resultat est statistiquement significatif.

Les causes identifiees : Le surtemps vient de la boucle agent : formuler le prompt, attendre la generation, reviser le code produit, corriger les erreurs, re-iterer. Sur du code familier, un dev experimente tape plus vite qu'il ne formule + revise. L'agent est un intermediaire qui ajoute de la friction.

Limites importantes : - L'etude mesure des taches sur des codebases existantes et familieres. C'est le scenario ou l'avantage humain (memoire du code, patterns connus) est maximal. - Pour du code nouveau, exploratoire, ou dans un domaine inconnu, le resultat pourrait s'inverser. - Les agents utilises (avril 2026) evoluent vite. Le resultat est date. - Comme le note Dan Walmsley dans les reponses : "This is correct until it isn't. Now we have agent swarms doing work" — la frontiere se deplace.

Ce qu'il faut retenir : Le gain des agents IA n'est pas sur la vitesse brute de coding pour un dev experimente sur son propre code. Le gain est ailleurs : couverture de tests, reviews croisees, exploration d'alternatives, taches repetitives a grande echelle.

Pertinence ProbatioVault¶

Impact fort. Cette etude valide directement l'architecture de gouvernance ProbatioVault :

Art. II (separation des pouvoirs) : on ne laisse pas un agent coder et valider seul. La review croisee est constitutionnelle. L'etude montre pourquoi : un agent seul ne fait pas gagner de temps, c'est l'orchestration qui cree la valeur.
Workflow multi-agents gouverne : notre architecture (orchestrateur Claude + agents specialises + gates PMO) n'essaie pas de remplacer le dev par un agent autonome. Elle distribue des taches specifiques (spec, tests, plan, code, review) a des agents encadres. C'est exactement ce que l'etude suggere implicitement : les agents sont utiles quand ils sont contraints et supervises, pas quand on leur dit "code cette feature".
Investissement dans le harness > investissement dans le modele : le vrai ROI est dans le cadre (CLAUDE.md, skills, gates, verification formelle), pas dans "laisser Opus coder tout seul". L'etude confirme que sans cadre, c'est pire que sans agent.