LMCache — cache KV persistent pour inference LLM¶

Resume¶

LMCache rend le KV cache des LLM persistent et partageable entre instances. Au lieu de recalculer le contexte complet (system prompt + historique + documents) a chaque requete, LMCache stocke les resultats intermediaires. Tiered storage : GPU -> CPU DRAM -> disque -> S3. Resultats annonces : 3-10x de reduction de latence, reduction drastique du TTFT. Integre avec vLLM et SGLang. Adopte par Google Cloud, CoreWeave, NVIDIA. Apache-2.0.

Analyse critique¶

Le post LinkedIn original est du marketing classique ("saving enterprises millions"). La technologie est reelle et utile pour du self-hosted vLLM/SGLang a grande echelle. Mais pour les utilisateurs d'APIs (Anthropic, OpenAI), le KV caching est gere cote provider — Anthropic fait deja du prompt caching par prefix matching. A noter que ProbatioVault exploite deja ce principe via les regles "cache-first" du workflow multi-agents (contenu statique en premier, variable en dernier).

Pertinence ProbatioVault¶

Pas d'impact direct. Pertinent uniquement si ProbatioVault deploie un jour son propre LLM en production, ce qui n'est pas dans la roadmap. L'Ollama sur IA-Server pourrait theoriquement en beneficier, mais le volume d'utilisation actuel ne le justifie pas.