Claude Advisor Strategy — pairing Opus/Sonnet-Haiku pour optimiser cout vs qualite¶
Resume¶
Anthropic introduit le 2026-04-09 l'advisor strategy sur le Claude Platform : un outil qui permet de pairer Opus comme "advisor" avec Sonnet ou Haiku comme "executor". Concretement, on ajoute un advisor tool a un appel Messages API ; quand l'agent Sonnet/Haiku rencontre une decision difficile en cours d'execution, il consulte Opus, recoit un plan, et continue. Le tout dans un seul API request.
Evaluation officielle Anthropic : Sonnet avec un advisor Opus score +2.7 points sur SWE-bench Multilingual par rapport a Sonnet seul, tout en coutant -11.9% par tache. Gain simultane cout + qualite. Disponible en beta sur le Claude Platform.
Analyse critique¶
La mecanique est elegante et non triviale¶
Le pattern "petit modele execute, gros modele conseille" est vieux. Ce qui est neuf, c'est que ca tient dans une seule boucle API, sans orchestration custom cote client, sans parsing de stdout, sans reconstitution d'etat. Techniquement, c'est un tool call Opus injecte dans le loop de Sonnet/Haiku : Sonnet execute, hit une decision, appelle advisor, recoit le plan, continue. Anthropic gere l'aller-retour cote infra.
Le gain cout + qualite simultane est contre-intuitif. D'habitude, ajouter un coup de gros modele coute plus cher. Ici :
- Cout reduit : Sonnet/Haiku font l'execution longue (80%+ des tokens). Opus n'est invoque que sur les decisions dures (quelques % des tokens).
- Qualite accrue : les decisions critiques beneficient d'Opus, le reste du parcours exploite l'efficacite Sonnet/Haiku.
C'est le premier example grand public de tiered inference structurel integre au provider. Les frameworks orchestrateurs (LangChain, DSPy) simulaient ca depuis longtemps avec plusieurs clients API, mais sans co-routing natif.
Le chiffre +2.7 pp / -11.9% merite prudence¶
Ce qu'Anthropic dit : Sonnet + advisor Opus est meilleur ET moins cher sur SWE-bench Multilingual. Valide.
Ce qu'Anthropic ne dit pas :
- Le baseline est Sonnet seul (pas Opus seul). Un Opus seul reste probablement meilleur en qualite brute — mais beaucoup plus cher. Le comparatif "advisor vs Opus full" n'est pas publie.
- SWE-bench Multilingual est un benchmark coding. Transposer le +2.7 pp a des taches qualitatives (redaction, raisonnement juridique, design) demanderait une reevaluation complete.
- Et surtout : ce benchmark SWE-bench Multilingual est du meme type que ceux hackes dans la fiche du jour (Terminator-1 / WEASEL, MogicianTony). Est-ce que l'amelioration +2.7 pp mesure une vraie competence, ou une meilleure exploitation des failles d'eval ? On ne sait pas. C'est exactement le type de situation ou "Don't trust the number, trust the methodology" s'applique.
La continuite avec Managed Agents¶
L'advisor strategy est presentee comme "bringing the advisor strategy to the Claude Platform" — ce qui veut dire qu'elle fait partie du meme bundle de lancement 2026-04-08/09 : Managed Agents, Monitor tool, advisor. Meme vecteur strategique : Anthropic construit une platform, pas une API. Chaque primitive renforce l'autre. Un agent Managed + advisor tourne deja mieux qu'un agent Managed sans, et beaucoup mieux qu'un agent custom sans l'avantage du co-routing natif.
Le commentaire @goutham_kamath dans les replies est prescient : "This can be extended to small model running on phone contacts large model occasionally." Le pattern tiered inference va descendre sur le edge (local LLM sur appareil + advisor cloud).
Pertinence ProbatioVault¶
Impact fort — directement applicable a notre workflow, mais avec precautions.
Mapping avec notre architecture¶
Notre workflow 11 etapes utilise deja implicitement du tiered model routing :
| Etape | Modele utilise aujourd'hui | Role | Candidat advisor ? |
|---|---|---|---|
| 0 (besoin) | Claude Opus (creatif) | Generation | Non — generation longue, Opus direct optimal |
| 1, 2 (spec, tests) | ChatGPT Codex (gpt-5.3-codex) | Generation | Non — validation croisee cote ChatGPT |
| 3, 5, 8 (gates) | ChatGPT Codex (factuel) | Evaluation | Non — separation des pouvoirs (Art. II) |
| 4 (plan) | Claude Opus (equilibre) | Generation | Oui potentiellement — plan = decisions structurantes |
| 6a (decomposition) | Claude Opus (equilibre) | Generation | Non — decisions architecturales |
| 6b (implementation multi-agents) | Claude Opus (factuel) par agent | Generation | Oui clairement — agents code longs, beaucoup de decisions mecaniques |
| 6c (integration) | Claude Opus (factuel) | Generation | Non — integration courte |
| 7 (acceptabilite) | Claude orchestrateur | Evaluation | Non — separation |
| 9 (REX) | Claude Opus (creatif) | Generation | Non — reflexion longue |
Le gros gain potentiel est sur l'etape 6b. Aujourd'hui on utilise Opus pour chaque agent (jusqu'a 17 par story). Si on passe les agents 6b a Sonnet + Opus advisor, on obtient (sur papier) :
- Cout : -12% par agent × 17 agents × N iterations → economies significatives (a estimer avec nos metrics.jsonl)
- Qualite : +2.7 pp sur SWE-bench Multilingual — pertinent vu que nos agents font du code
- Memes caches cote prompt : les regles d'assemblage cache-first (cf. workflow-rules.md) restent valides parce que l'advisor est un tool, pas un changement de prompt
Ce qui bloque aujourd'hui¶
Deux blocages legitimes :
- On n'utilise pas le Messages API directement. On passe par
claude -psubprocess avec--append-system-prompt. Il faut verifier siclaude -pexpose l'advisor tool (probablement pas encore), ou migrer une partie du workflow sur le SDK direct. - Nos quality gates mesurent specs + tests + Sonar, pas les benchmarks SWE-bench. Le +2.7 pp Anthropic est une promesse moyenne sur un benchmark donne. Ce qui compte pour nous c'est le taux de Gate 8 GO en v1. Difficile de predire le delta sans tester.
Action recommandee¶
POC tres borne sur une story future :
POC advisor-strategy sur step 6b : choisir une story
appoubackendavec 5-8 agents step 6b, lancer une version A (Opus sur tous les agents, baseline actuel) et une version B (Sonnet + Opus advisor via Messages API). Mesurer : cout total, duree, nombre d'iterations Gate 5, taux Gate 8 GO v1. Seuil de succes : B doit etre a cout < 85% de A sans degrader le taux Gate 8 GO. Duree POC : 1 story complete (2-3 jours). Si succes, le pattern devient le default pour step 6b.
A ajouter dans le TODO.md comme item Q2 2026, en dependance du POC Managed Agents watchlist (fiche precedente). C'est le premier gain concret et isolable qu'on peut tirer du lancement Claude Platform 2026-04-08 sans migrer toute l'orchestration.