Kimi K2.6 — open-source SOTA coding, long-horizon 4000+ lignes¶
Resume¶
Moonshot AI lance Kimi K2.6, modele open-source avec poids sur HuggingFace. Claims SOTA open-source sur 6 benchmarks :
| Benchmark | Score |
|---|---|
| HLE w/ tools | 54.0 |
| SWE-Bench Pro | 58.6 |
| SWE-bench Multilingual | 76.7 |
| BrowseComp | 83.2 |
| Toolathlon | 50.0 |
| Charxiv w/ python | 86.7 |
| Math Vision w/ python | 93.2 |
Nouveautes cles : - Long-horizon coding : 4000+ lignes en une session - Agentic coding SOTA (open-source) - Claims de battre Opus 4.6, GPT-5.4 et Gemini 3.1 Pro sur ces benchmarks specifiques
18K likes, 7.3M vues — reception massive.
Analyse critique¶
Troisieme modele open-source majeur en 48 heures — avec DeepSeek V4 (24 avril) et Qwen 3.6 27B (22 avril). La competition open-source s'accelere violemment.
Ce qui est credible : - SWE-Bench Pro et SWE-bench Multilingual sont des benchmarks serieux — du code reel sur des repos existants, pas du QCM - BrowseComp 83.2 est impressionnant pour du web browsing agentique - Le long-horizon coding (4000+ lignes) est un differenciateur reel pour les taches de refactoring ou generation multi-fichiers
Ce qui est a verifier : - "Bat Opus 4.6 et GPT-5.4" — probablement cherry-picked sur ces benchmarks specifiques. Les modeles frontier restent superieurs en raisonnement general, suivi d'instructions complexes, et fiabilite sur longues sessions - Architecture et taille du modele non detaillees dans le tweet — impossible de savoir si c'est deployable en local - Pas de mention de licence specifique au-dela de "open-source"
Contexte strategique : en 48h, trois labs (Moonshot, DeepSeek, Qwen/Alibaba) publient des modeles open-source qui clament battre les frontiers sur le coding agentique. Ca ressemble a une course coordonnee au timing des annonces plutot qu'a une coincidence.
Pertinence ProbatioVault¶
La multiplication des challengers open-source renforce le besoin de benchmarking interne :
Comparaison des 3 candidats recents :
| Modele | Params actifs | Contexte | Force | Faiblesse |
|---|---|---|---|---|
| DeepSeek V4-Pro | 49B (MoE 1.6T) | 1M | Reasoning + coding | VRAM (2 cartes Q4) |
| DeepSeek V4-Flash | 13B (MoE 284B) | 1M | Cout/perf | Raisonnement moins profond |
| Qwen 3.6 27B | 27B (dense) | 262K | Dense = pas de routing MoE | Pas de benchmarks head-to-head |
| Kimi K2.6 | ? | ? | SWE-Bench Pro/Multi SOTA | Architecture inconnue |
Action concrete : attendre les details d'architecture et la disponibilite GGUF de K2.6 avant de tester. En attendant, prioriser DeepSeek V4-Flash (13B, connu) et Qwen 3.6 27B (dense, deja disponible en GGUF) pour le shadow mode sur l'IA-Server.