Aller au contenu

Kimi K2.6 — open-source SOTA coding, long-horizon 4000+ lignes

Resume

Moonshot AI lance Kimi K2.6, modele open-source avec poids sur HuggingFace. Claims SOTA open-source sur 6 benchmarks :

Benchmark Score
HLE w/ tools 54.0
SWE-Bench Pro 58.6
SWE-bench Multilingual 76.7
BrowseComp 83.2
Toolathlon 50.0
Charxiv w/ python 86.7
Math Vision w/ python 93.2

Nouveautes cles : - Long-horizon coding : 4000+ lignes en une session - Agentic coding SOTA (open-source) - Claims de battre Opus 4.6, GPT-5.4 et Gemini 3.1 Pro sur ces benchmarks specifiques

18K likes, 7.3M vues — reception massive.

Analyse critique

Troisieme modele open-source majeur en 48 heures — avec DeepSeek V4 (24 avril) et Qwen 3.6 27B (22 avril). La competition open-source s'accelere violemment.

Ce qui est credible : - SWE-Bench Pro et SWE-bench Multilingual sont des benchmarks serieux — du code reel sur des repos existants, pas du QCM - BrowseComp 83.2 est impressionnant pour du web browsing agentique - Le long-horizon coding (4000+ lignes) est un differenciateur reel pour les taches de refactoring ou generation multi-fichiers

Ce qui est a verifier : - "Bat Opus 4.6 et GPT-5.4" — probablement cherry-picked sur ces benchmarks specifiques. Les modeles frontier restent superieurs en raisonnement general, suivi d'instructions complexes, et fiabilite sur longues sessions - Architecture et taille du modele non detaillees dans le tweet — impossible de savoir si c'est deployable en local - Pas de mention de licence specifique au-dela de "open-source"

Contexte strategique : en 48h, trois labs (Moonshot, DeepSeek, Qwen/Alibaba) publient des modeles open-source qui clament battre les frontiers sur le coding agentique. Ca ressemble a une course coordonnee au timing des annonces plutot qu'a une coincidence.

Pertinence ProbatioVault

La multiplication des challengers open-source renforce le besoin de benchmarking interne :

Comparaison des 3 candidats recents :

Modele Params actifs Contexte Force Faiblesse
DeepSeek V4-Pro 49B (MoE 1.6T) 1M Reasoning + coding VRAM (2 cartes Q4)
DeepSeek V4-Flash 13B (MoE 284B) 1M Cout/perf Raisonnement moins profond
Qwen 3.6 27B 27B (dense) 262K Dense = pas de routing MoE Pas de benchmarks head-to-head
Kimi K2.6 ? ? SWE-Bench Pro/Multi SOTA Architecture inconnue

Action concrete : attendre les details d'architecture et la disponibilite GGUF de K2.6 avant de tester. En attendant, prioriser DeepSeek V4-Flash (13B, connu) et Qwen 3.6 27B (dense, deja disponible en GGUF) pour le shadow mode sur l'IA-Server.