Aller au contenu

Claude Code post-mortem — regression qualite causee par le harness, pas le modele

Resume

Post-mortem officiel d'Anthropic (36.8K likes, 5.5M vues) : "Over the past month, some of you reported Claude Code's quality had slipped." Trois issues identifiees, toutes dans le harness (Claude Code + Agent SDK), pas dans les modeles. Corrige en v2.1.116+.

Points cles : - Les modeles eux-memes n'ont pas regresse — l'API Claude n'etait pas affectee - Cowork (base sur l'Agent SDK) etait aussi impacte - Reset des limites d'usage pour tous les abonnes en compensation - Mesures correctives : plus de dogfooding interne avec configs identiques aux users, evals plus larges sur les changements de system prompt isoles

Analyse critique

Rare et sain qu'un fournisseur publie un post-mortem public sur une regression de qualite percue. La transparence est un signal de maturite.

Le point critique : la distinction entre "le modele regresse" (fausse perception commune) et "l'orchestration autour du modele regresse" (la realite). C'est exactement le piege dans lequel tombent les utilisateurs qui confondent le LLM et le harness. Un system prompt mal calibre, un parametre de temperature qui bouge, un pre/post-processing qui change — ca suffit a degrader l'experience sans que le modele ait change d'un bit.

Les mesures correctives sont les bonnes : - Dogfooding avec configs identiques aux users → detecte les regressions avant release - Evals sur les changements de system prompt isoles → empeche les effets de bord

Ce qui manque : le detail des 3 issues. "Harness issues" est vague. Sans savoir si c'etait un changement de system prompt, un bug de routing, ou un probleme de caching, impossible de tirer des lecons specifiques.

Pertinence ProbatioVault

Confirmation directe de l'architecture ProbatioVault :

Probleme Anthropic Equivalent ProbatioVault Protection en place
System prompt modifie → regression Prompts versionnes (header prompt_id \| version) Oui — CLAUDE.md §Versioning
Pas de dogfooding configs reelles Shadow mode agent evaluation Oui — PD-EXP-01
Confusion modele vs harness Separation orchestration (scripts) / LLM (subprocess) Oui — Art. II

Action concrete : verifier que Claude Code est bien en v2.1.116+ sur le MacBook.

claude --version
# Si < 2.1.116 : claude update