DeepSeek V4 Preview — open-source, 1M contexte, SOTA agentic coding¶

Resume¶

DeepSeek publie V4 en open-source, deux variantes :

Modele	Params total	Params actifs	Architecture	Contexte
V4-Pro	1.6T	49B	MoE	1M tokens
V4-Flash	284B	13B	MoE	1M tokens

V4-Pro : SOTA open-source en agentic coding, rivalise avec les meilleurs closed-source en math/STEM/coding, "world-class reasoning". V4-Flash : performances proches du Pro sur le raisonnement, taille reduite, API tres cost-effective.

33K likes, 4.9M vues — c'est un evenement majeur dans l'ecosysteme open-source.

Analyse critique¶

Le saut V3 → V4 est significatif :

Ce qui est credible : - La trajectoire DeepSeek (V2 → V3 → V4) montre une progression constante et documentee - 49B actifs sur 1.6T est une architecture MoE mature — memes principes que V3 mais avec plus de parametres actifs - Le contexte 1M natif est un vrai differenciateur — la plupart des modeles ouverts plafonnent a 128-262K - SOTA en agentic coding (open-source) est mesurable via benchmarks publics

Ce qui reste a verifier : - "Rivalise avec les top closed-source" — quels modeles exactement ? Opus 4.6 ? GPT-5.4 ? Les benchmarks montres dans le thread sont selectionnes - "World-class reasoning" — les benchmarks math/STEM sont souvent cherry-picked - Disponibilite reelle : "Preview" implique des limitations non documentees - GGUF / quantisation : pas encore disponible, donc pas deployable sur hardware consumer immediatement

V4-Flash est le vrai signal economique : 13B actifs pour des performances "proches du Pro" — c'est le ratio cout/performance qui interesse pour du self-hosting.

Pertinence ProbatioVault¶

Impact fort sur plusieurs axes :

IA-Server (2x RTX 5090, 64 GB VRAM) : - V4-Flash (13B actifs) devrait tourner en Q4 sur une seule carte — candidat pour remplacer Qwen3.5 35B-a3b - V4-Pro (49B actifs) necessitera les 2 cartes en Q4 (~32-35 GB) — faisable mais monopolise le serveur

Workflow de gouvernance : - Contexte 1M : permet de charger spec + plan + code + contracts complets dans un seul appel — elimine le besoin de chunking pour les reviews de gate - SOTA agentic coding : candidat serieux pour les etapes de production (steps 1, 2) et les confrontations de gate (steps 3, 5, 8) - Si disponible via API (Fireworks, Together, etc.) : alternative a Codex/OpenCode pour les etapes ChatGPT, sous reserve de benchmarks internes

Actions concretes : 1. Surveiller la disponibilite GGUF (Unsloth, TheBloke) 2. Tester V4-Flash en shadow mode sur une gate 3 des qu'un GGUF est disponible 3. Comparer avec Qwen 3.6 27B (fiche du meme jour) — deux candidats pour le meme slot