Aller au contenu

Apple SSD : auto-distillation triviale qui ameliore la generation de code de +13 points

Resume

Apple publie "Embarrassingly Simple Self-Distillation Improves Code Generation" (arXiv 2604.01193). La methode SSD ameliore la generation de code d'un LLM en 2 etapes : (1) echantillonner N solutions avec le modele gele a temperature > 0, (2) fine-tuner le modele sur ses propres sorties brutes via cross-entropy standard. Pas de reward model, pas de verifier, pas de teacher model, pas de RL. Resultat : Qwen3-30B passe de 42.4% a 55.3% pass@1 sur LiveCodeBench v6 (+13 points absolus). Generalise sur Qwen et Llama (4B, 8B, 30B), variantes instruct et thinking.

Analyse critique

Ce qui est fort :

  • +13 points pass@1 sur LiveCodeBench avec zero infra supplementaire. C'est un gain enorme pour une methode aussi simple. A titre de comparaison, passer de GPT-4 a GPT-4o sur des benchmarks code donnait des gains similaires, mais avec des mois de training et des ressources massives.
  • Generalise across models et tailles (Llama + Qwen, 4B a 30B). Ce n'est pas un artefact d'un modele specifique.
  • Les gains se concentrent sur les problemes difficiles — la ou ca compte le plus. Les problemes faciles sont deja resolus, SSD aide sur la frontiere.
  • L'explication theorique est elegante : SSD reformule la distribution de tokens contextuellement, supprimant les "queues de distracteurs" (tokens improbables mais parasites) la ou la precision est critique, tout en preservant la diversite la ou l'exploration est utile. C'est une regularisation implicite par auto-distillation.
  • Zero infra signifie que n'importe qui avec un modele et du compute de fine-tuning peut appliquer SSD. Pas besoin de construire un reward model ou un verifier — le bottleneck habituel de l'amelioration post-training.

Limites :

  • Checkpoints "coming soon" — les resultats ne sont pas encore reproductibles independamment.
  • Evalue uniquement sur LiveCodeBench v6. Pas de resultats sur HumanEval, MBPP, SWE-bench, ou des taches non-code. La generalisation hors generation de code n'est pas demontree.
  • Le tweet de @danveloper ("Apple is definitely up to something") surinterprette : c'est un paper ML, pas un teaser produit Apple Intelligence.
  • License Apple (pas Apache/MIT) — les checkpoints, s'ils sortent, pourraient avoir des restrictions d'usage.

Pertinence ProbatioVault

Impact faible mais strategique a moyen terme. On n'entraine pas de modeles, mais SSD accelere l'amelioration de l'ecosysteme open-source qu'on consomme :

  • Si la communaute applique SSD a Qwen 3.5 ou Llama 3.3, les modeles locaux de notre IA-Server progressent sans qu'on fasse rien.
  • SSD + distillation Opus (cf. fiche Qwen 27B distille Opus) sont complementaires : distiller les traces de raisonnement d'un frontier (qualite) PUIS appliquer SSD (regularisation). Pipeline d'amelioration en 2 passes sans infra RL.
  • La simplicite de SSD rend la methode accessible aux fine-tuners communautaires (HuggingFace, GGUF). Plus de modeles ameliores = meilleur choix pour notre /ollama.