LLM locaux : MLX + Ollama, economies Shopify, distillation Opus 27B¶
Resume¶
Ollama (735K vues, 5.7K likes) integre MLX, le framework ML natif d'Apple, comme backend pour Apple Silicon. Performance acceleree sur M5/M5 Pro/M5 Max avec exploitation des Neural Accelerators GPU. Aussi : support NVFP4 (format quantification NVIDIA), cache cross-conversation ameliore pour workflows agentiques, lancement direct de modeles pour Claude Code (ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4). Awni Hannun (co-createur MLX chez Apple) valide publiquement l'integration. Requis : Mac avec 32+ GB RAM unifie.
Analyse critique¶
Important : - MLX remplace llama.cpp comme backend Ollama sur Mac. Le framework natif Apple exploite le GPU unifie — gain de performance reel et significatif sur toutes les puces Apple Silicon (pas seulement M5). - Awni Hannun (MLX lead Apple) qui celebre = validation technique forte, pas un partenariat marketing. - Cache cross-conversation : moins de re-tokenisation entre appels au meme modele. Directement utile pour les workflows agentiques enchainant des appels. - NVFP4 : quantification NVIDIA pour maintenir la qualite en reduisant memoire et bande passante. Pertinent aussi pour les GPU NVIDIA (IA-Server). - Ollama se positionne explicitement comme backend alternatif pour Claude Code et OpenClaw.
Manques : - 32 GB minimum exclut les Mac d'entree de gamme. - Pas clair si l'acceleration MLX beneficie aussi aux modeles 70B+ ou seulement aux MoE legers.
Data point : Benchmarks RTX 5090 — Gemma 4 et NVFP4 (05/04)¶
@DFintelligence a publie les premiers benchmarks Gemma 4 sur RTX 5090 consumer :
| Modele | Quantization | tok/s | Note |
|---|---|---|---|
| Gemma 4 E2B | 4-bit | 285.29 | Usage normal PC en parallele |
| Gemma 4 26B | 8-bit | 166.75 | "hallucinant d'en etre deja la" |
| Gemma 4 26B NVFP4 | NVFP4 (4-bit NVIDIA) | echec | "oriente H100, pas GPU grand public" |
Enseignement cle : NVFP4 (quantification NVIDIA 4-bit) ne fonctionne pas sur les GPU gaming (RTX 5090). C'est un format serveur (H100/B200). Pour du consumer NVIDIA, il faut rester sur les quantifications classiques (GGUF Q4/Q8). Cela corrige l'optimisme de la section precedente sur NVFP4 pour notre IA-Server (2x RTX 5090).
Pertinence ProbatioVault¶
Impact modere, directement applicable sur notre infra.
MacBook Pro M2 Max 96 GB — largement au-dessus des 32 GB requis. Modeles locaux installes : llama3.3:70b (42 GB), nomic-embed-text (274 MB), bge-m3 (1.2 GB).
Impact sur la recherche semantique : toute notre base de capitalisation (learnings, specs, plans, contracts) est indexee via Ollama + FAISS en local sur le MacBook. L'acceleration MLX impacte directement la vitesse d'indexation (generation embeddings) et de recherche (embedding de la query). Pipeline : scripts/index-*.py → Ollama embeddings (nomic-embed-text) → FAISS index.
Impact sur l'inference locale : llama3.3:70b en local sur le MacBook serait accelere pour les taches sensibles (RGPD, PI) et les reviews locales via /ollama.
Cache cross-conversation : utile pour le workflow multi-agents (17 agents step 6b) quand ils interrogent Ollama en sequence.
NVFP4 pour l'IA-Server : si Ollama supporte NVFP4 sur RTX 5090, gain potentiel NVFP4 ne fonctionne pas sur RTX 5090 (format serveur H100). Rester sur les quantifications GGUF classiques pour nos 2x RTX 5090.
Cartographie complete de l'infra IA documentee dans docs/infrastructure-ia.md.
Data point : Shopify — 99% economies GPT-5 → Qwen 3.5¶
Shopify a partage publiquement (confirme par @kshetrajna, ingenieur Shopify) une reduction de $5.5M → $73K/an en passant de GPT-5 a Qwen 3.5 sur un use case specifique. Methode : (1) decomposition logique metier en taches atomiques, (2) optimisation prompts via DSPy, (3) distillation sur modele plus petit.
Ce n'est pas un simple swap de modele — c'est du MLOps : decompose + distill + deploy local. Le modele utilise (Qwen 3.5 MoE 35B/3B) est exactement celui qu'on a sur notre IA-Server (qwen3.5:35b-a3b).
Nuance : les $73K portent probablement sur un use case specifique (classification d'intent), pas sur l'ensemble de l'IA Shopify. La qualite est maintenue sur CE use case, pas en general.
Trajectoire pour ProbatioVault : a court terme, notre workflow est trop varie (spec, plan, review, code, tests) pour specialiser un modele unique. A long terme, les taches repetitives (reviews formatees, extraction learnings, indexation) pourraient etre distillees sur des modeles locaux specialises — rendant l'acceleration MLX + Ollama encore plus strategique.
Data point : Qwen 3.5 27B distille Opus — bat Sonnet sur SWE-bench¶
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled (par Jackrong, HuggingFace) : Qwen 3.5 27B dense fine-tune sur des traces de raisonnement distillees depuis Claude Opus 4.6. #1 trending HuggingFace 3 semaines consecutives, 309K downloads/mois, Apache 2.0.
Resultats : bat Sonnet 4.5 sur SWE-bench verified. Tourne en local : 16 GB RAM en 4-bit, 32 GB en 8-bit.
C'est le troisieme data point de cette fiche sur la meme trajectoire :
| Data point | Ce qu'il prouve |
|---|---|
| Ollama + MLX | Le runtime local est desormais accelere nativement sur Apple Silicon |
| Shopify GPT-5 → Qwen 3.5 | Le pattern decompose+distill+local est economiquement viable (99% economies) |
| Qwen 27B distille Opus | La distillation de traces frontier produit des modeles petits qui battent les frontier sur des taches specifiques |
La convergence : runtime accelere (MLX) + modeles distilles performants (27B bat Sonnet) + economies prouvees (Shopify 99%) = le LLM local n'est plus un compromis, c'est une strategie.
Testable sur notre infra : MacBook M2 Max 96 GB peut faire tourner ce 27B en 8-bit (32 GB) confortablement. Alternative potentielle a llama3.3:70b pour les taches de code : 27B = 2x moins de RAM, inference plus rapide, qualite potentiellement superieure sur le code specifiquement. A tester via ollama run si le modele est disponible dans le registry Ollama.
Question juridique : les ToS d'Anthropic autorisent-ils l'utilisation de outputs Claude pour fine-tuner des modeles concurrents ? Meme zone grise que le copyright AI-generated (fiche Claw Code).