Aller au contenu

Caching dashboard — visibilite sur le prompt caching dans la Developer Console

Resume

Nouveau dashboard dans la Claude Developer Console (2.7K likes, 343K vues) pour visualiser et optimiser le prompt caching. Objectif : reduire les couts et le TTFT (Time To First Token).

Le prompt caching est le mecanisme par lequel l'API Anthropic reutilise les calculs d'un prefixe de prompt identique entre deux appels (TTL 5 min). Les tokens caches coutent significativement moins cher et le TTFT est reduit.

Le dashboard permet de voir : - Le taux de cache hit/miss par endpoint - L'economie realisee (tokens, cout) - Les patterns d'usage qui beneficieraient d'un meilleur caching

Analyse critique

Le prompt caching est une des optimisations les plus sous-exploitees de l'API Anthropic. La plupart des developpeurs n'ont aucune visibilite sur leur taux de hit — ils structurent leurs prompts "a l'aveugle" et esperent que ca cache.

Ce dashboard resout un vrai probleme : sans mesure, impossible de savoir si la strategie cache-first fonctionne. C'est la difference entre "je pense que ca cache" et "je vois que 73% de mes tokens sont caches".

Ce qui manque : le dashboard est dans la Developer Console (API directe). Pour Claude Code en mode subscription (Max), la visibilite sur le caching n'est pas exposee — on ne sait pas quel pourcentage de nos appels Claude Code beneficient du cache.

Pertinence ProbatioVault

Directement pertinent pour l'architecture cache-first documentee dans CLAUDE.md :

Step 6b (multi-agents) : 8+ agents sequentiels avec le meme prefixe (spec + plan + contracts). Le dashboard permettrait de mesurer : - Quel pourcentage du prefixe est effectivement cache entre agent 1 et agent 2 ? - Le TTL de 5 min est-il respecte entre deux agents sequentiels ? - Le cout reel vs theorique de la strategie cache-first

Gates iteratives (v1 → v2 → v3) : meme template de review + documents d'entree caches entre iterations. Le dashboard montrerait si le template + correction-context-calm.md (byte-identical entre v2 et v3) est bien cache.

Action concrete : si le workflow utilise l'API directe (via claude -p ou Codex CLI), consulter le dashboard apres un cycle complet de story pour mesurer le taux de hit reel. Comparer avec l'estimation theorique (40-60% de reduction documentee dans CLAUDE.md).