LLM locaux : MLX + Ollama, economies Shopify, distillation Opus 27B¶

Resume¶

Ollama (735K vues, 5.7K likes) integre MLX, le framework ML natif d'Apple, comme backend pour Apple Silicon. Performance acceleree sur M5/M5 Pro/M5 Max avec exploitation des Neural Accelerators GPU. Aussi : support NVFP4 (format quantification NVIDIA), cache cross-conversation ameliore pour workflows agentiques, lancement direct de modeles pour Claude Code (ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4). Awni Hannun (co-createur MLX chez Apple) valide publiquement l'integration. Requis : Mac avec 32+ GB RAM unifie.

Analyse critique¶

Important : - MLX remplace llama.cpp comme backend Ollama sur Mac. Le framework natif Apple exploite le GPU unifie — gain de performance reel et significatif sur toutes les puces Apple Silicon (pas seulement M5). - Awni Hannun (MLX lead Apple) qui celebre = validation technique forte, pas un partenariat marketing. - Cache cross-conversation : moins de re-tokenisation entre appels au meme modele. Directement utile pour les workflows agentiques enchainant des appels. - NVFP4 : quantification NVIDIA pour maintenir la qualite en reduisant memoire et bande passante. Pertinent aussi pour les GPU NVIDIA (IA-Server). - Ollama se positionne explicitement comme backend alternatif pour Claude Code et OpenClaw.

Manques : - 32 GB minimum exclut les Mac d'entree de gamme. - Pas clair si l'acceleration MLX beneficie aussi aux modeles 70B+ ou seulement aux MoE legers.

Data point : Benchmarks RTX 5090 — Gemma 4 et NVFP4 (05/04)¶

@DFintelligence a publie les premiers benchmarks Gemma 4 sur RTX 5090 consumer :

Modele	Quantization	tok/s	Note
Gemma 4 E2B	4-bit	285.29	Usage normal PC en parallele
Gemma 4 26B	8-bit	166.75	"hallucinant d'en etre deja la"
Gemma 4 26B NVFP4	NVFP4 (4-bit NVIDIA)	echec	"oriente H100, pas GPU grand public"

Enseignement cle : NVFP4 (quantification NVIDIA 4-bit) ne fonctionne pas sur les GPU gaming (RTX 5090). C'est un format serveur (H100/B200). Pour du consumer NVIDIA, il faut rester sur les quantifications classiques (GGUF Q4/Q8). Cela corrige l'optimisme de la section precedente sur NVFP4 pour notre IA-Server (2x RTX 5090).

Pertinence ProbatioVault¶

Impact modere, directement applicable sur notre infra.

MacBook Pro M2 Max 96 GB — largement au-dessus des 32 GB requis. Modeles locaux installes : llama3.3:70b (42 GB), nomic-embed-text (274 MB), bge-m3 (1.2 GB).

Impact sur la recherche semantique : toute notre base de capitalisation (learnings, specs, plans, contracts) est indexee via Ollama + FAISS en local sur le MacBook. L'acceleration MLX impacte directement la vitesse d'indexation (generation embeddings) et de recherche (embedding de la query). Pipeline : scripts/index-*.py → Ollama embeddings (nomic-embed-text) → FAISS index.

Impact sur l'inference locale : llama3.3:70b en local sur le MacBook serait accelere pour les taches sensibles (RGPD, PI) et les reviews locales via /ollama.

Cache cross-conversation : utile pour le workflow multi-agents (17 agents step 6b) quand ils interrogent Ollama en sequence.

NVFP4 pour l'IA-Server : ~~si Ollama supporte NVFP4 sur RTX 5090, gain potentiel~~ NVFP4 ne fonctionne pas sur RTX 5090 (format serveur H100). Rester sur les quantifications GGUF classiques pour nos 2x RTX 5090.

Cartographie complete de l'infra IA documentee dans docs/infrastructure-ia.md.

Data point : Shopify — 99% economies GPT-5 → Qwen 3.5¶

Shopify a partage publiquement (confirme par @kshetrajna, ingenieur Shopify) une reduction de $5.5M → $73K/an en passant de GPT-5 a Qwen 3.5 sur un use case specifique. Methode : (1) decomposition logique metier en taches atomiques, (2) optimisation prompts via DSPy, (3) distillation sur modele plus petit.

Ce n'est pas un simple swap de modele — c'est du MLOps : decompose + distill + deploy local. Le modele utilise (Qwen 3.5 MoE 35B/3B) est exactement celui qu'on a sur notre IA-Server (qwen3.5:35b-a3b).

Nuance : les $73K portent probablement sur un use case specifique (classification d'intent), pas sur l'ensemble de l'IA Shopify. La qualite est maintenue sur CE use case, pas en general.

Trajectoire pour ProbatioVault : a court terme, notre workflow est trop varie (spec, plan, review, code, tests) pour specialiser un modele unique. A long terme, les taches repetitives (reviews formatees, extraction learnings, indexation) pourraient etre distillees sur des modeles locaux specialises — rendant l'acceleration MLX + Ollama encore plus strategique.

Data point : Qwen 3.5 27B distille Opus — bat Sonnet sur SWE-bench¶

Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled (par Jackrong, HuggingFace) : Qwen 3.5 27B dense fine-tune sur des traces de raisonnement distillees depuis Claude Opus 4.6. #1 trending HuggingFace 3 semaines consecutives, 309K downloads/mois, Apache 2.0.

Resultats : bat Sonnet 4.5 sur SWE-bench verified. Tourne en local : 16 GB RAM en 4-bit, 32 GB en 8-bit.

C'est le troisieme data point de cette fiche sur la meme trajectoire :

Data point	Ce qu'il prouve
Ollama + MLX	Le runtime local est desormais accelere nativement sur Apple Silicon
Shopify GPT-5 → Qwen 3.5	Le pattern decompose+distill+local est economiquement viable (99% economies)
Qwen 27B distille Opus	La distillation de traces frontier produit des modeles petits qui battent les frontier sur des taches specifiques

La convergence : runtime accelere (MLX) + modeles distilles performants (27B bat Sonnet) + economies prouvees (Shopify 99%) = le LLM local n'est plus un compromis, c'est une strategie.

Testable sur notre infra : MacBook M2 Max 96 GB peut faire tourner ce 27B en 8-bit (32 GB) confortablement. Alternative potentielle a llama3.3:70b pour les taches de code : 27B = 2x moins de RAM, inference plus rapide, qualite potentiellement superieure sur le code specifiquement. A tester via ollama run si le modele est disponible dans le registry Ollama.

Question juridique : les ToS d'Anthropic autorisent-ils l'utilisation de outputs Claude pour fine-tuner des modeles concurrents ? Meme zone grise que le copyright AI-generated (fiche Claw Code).