Claude Code post-mortem — regression qualite causee par le harness, pas le modele¶
Resume¶
Post-mortem officiel d'Anthropic (36.8K likes, 5.5M vues) : "Over the past month, some of you reported Claude Code's quality had slipped." Trois issues identifiees, toutes dans le harness (Claude Code + Agent SDK), pas dans les modeles. Corrige en v2.1.116+.
Points cles : - Les modeles eux-memes n'ont pas regresse — l'API Claude n'etait pas affectee - Cowork (base sur l'Agent SDK) etait aussi impacte - Reset des limites d'usage pour tous les abonnes en compensation - Mesures correctives : plus de dogfooding interne avec configs identiques aux users, evals plus larges sur les changements de system prompt isoles
Analyse critique¶
Rare et sain qu'un fournisseur publie un post-mortem public sur une regression de qualite percue. La transparence est un signal de maturite.
Le point critique : la distinction entre "le modele regresse" (fausse perception commune) et "l'orchestration autour du modele regresse" (la realite). C'est exactement le piege dans lequel tombent les utilisateurs qui confondent le LLM et le harness. Un system prompt mal calibre, un parametre de temperature qui bouge, un pre/post-processing qui change — ca suffit a degrader l'experience sans que le modele ait change d'un bit.
Les mesures correctives sont les bonnes : - Dogfooding avec configs identiques aux users → detecte les regressions avant release - Evals sur les changements de system prompt isoles → empeche les effets de bord
Ce qui manque : le detail des 3 issues. "Harness issues" est vague. Sans savoir si c'etait un changement de system prompt, un bug de routing, ou un probleme de caching, impossible de tirer des lecons specifiques.
Pertinence ProbatioVault¶
Confirmation directe de l'architecture ProbatioVault :
| Probleme Anthropic | Equivalent ProbatioVault | Protection en place |
|---|---|---|
| System prompt modifie → regression | Prompts versionnes (header prompt_id \| version) | Oui — CLAUDE.md §Versioning |
| Pas de dogfooding configs reelles | Shadow mode agent evaluation | Oui — PD-EXP-01 |
| Confusion modele vs harness | Separation orchestration (scripts) / LLM (subprocess) | Oui — Art. II |
Action concrete : verifier que Claude Code est bien en v2.1.116+ sur le MacBook.