Kimi K2.6 — open-source SOTA coding, long-horizon 4000+ lignes¶

Resume¶

Moonshot AI lance Kimi K2.6, modele open-source avec poids sur HuggingFace. Claims SOTA open-source sur 6 benchmarks :

Benchmark	Score
HLE w/ tools	54.0
SWE-Bench Pro	58.6
SWE-bench Multilingual	76.7
BrowseComp	83.2
Toolathlon	50.0
Charxiv w/ python	86.7
Math Vision w/ python	93.2

Nouveautes cles : - Long-horizon coding : 4000+ lignes en une session - Agentic coding SOTA (open-source) - Claims de battre Opus 4.6, GPT-5.4 et Gemini 3.1 Pro sur ces benchmarks specifiques

18K likes, 7.3M vues — reception massive.

Analyse critique¶

Troisieme modele open-source majeur en 48 heures — avec DeepSeek V4 (24 avril) et Qwen 3.6 27B (22 avril). La competition open-source s'accelere violemment.

Ce qui est credible : - SWE-Bench Pro et SWE-bench Multilingual sont des benchmarks serieux — du code reel sur des repos existants, pas du QCM - BrowseComp 83.2 est impressionnant pour du web browsing agentique - Le long-horizon coding (4000+ lignes) est un differenciateur reel pour les taches de refactoring ou generation multi-fichiers

Ce qui est a verifier : - "Bat Opus 4.6 et GPT-5.4" — probablement cherry-picked sur ces benchmarks specifiques. Les modeles frontier restent superieurs en raisonnement general, suivi d'instructions complexes, et fiabilite sur longues sessions - Architecture et taille du modele non detaillees dans le tweet — impossible de savoir si c'est deployable en local - Pas de mention de licence specifique au-dela de "open-source"

Contexte strategique : en 48h, trois labs (Moonshot, DeepSeek, Qwen/Alibaba) publient des modeles open-source qui clament battre les frontiers sur le coding agentique. Ca ressemble a une course coordonnee au timing des annonces plutot qu'a une coincidence.

Pertinence ProbatioVault¶

La multiplication des challengers open-source renforce le besoin de benchmarking interne :

Comparaison des 3 candidats recents :

Modele	Params actifs	Contexte	Force	Faiblesse
DeepSeek V4-Pro	49B (MoE 1.6T)	1M	Reasoning + coding	VRAM (2 cartes Q4)
DeepSeek V4-Flash	13B (MoE 284B)	1M	Cout/perf	Raisonnement moins profond
Qwen 3.6 27B	27B (dense)	262K	Dense = pas de routing MoE	Pas de benchmarks head-to-head
Kimi K2.6	?	?	SWE-Bench Pro/Multi SOTA	Architecture inconnue

Action concrete : attendre les details d'architecture et la disponibilite GGUF de K2.6 avant de tester. En attendant, prioriser DeepSeek V4-Flash (13B, connu) et Qwen 3.6 27B (dense, deja disponible en GGUF) pour le shadow mode sur l'IA-Server.