llmfit — Outil CLI pour recommander les LLMs compatibles avec son hardware¶

Resume¶

llmfit est un outil terminal (TUI + CLI + API REST) qui détecte le hardware local (CPU, RAM, GPU, VRAM, backend Metal/CUDA/ROCm/etc.) et recommande les LLMs exécutables avec leur quantisation optimale. Scoring multidimensionnel par cas d'usage (Coding, Reasoning, Embedding). Supporte les architectures MoE. Mode inversé : "quel hardware pour faire tourner ce modèle à X tok/s ?" Maintenu par AlexsJones, MIT.

Analyse critique¶

Le problème est réel : choisir la bonne quantisation pour son hardware est une friction inutile. Le pattern "essaie la meilleure qualité qui rentre, descends jusqu'à Q2_K si besoin" est pragmatique.

Ce qui est bien : le mode inversé (déltas d'upgrade hardware) est l'insight le plus utile — pas besoin de faire tourner le modèle pour savoir ce qu'il faut acheter.

Limitation : les estimations de tok/s sont théoriques, pas mesurées sur le vrai hardware. Un A100 en multi-tenant cloud a des perfs différentes d'un A100 dédié. Les benchmarks réels varient selon la charge système.

Pertinence ProbatioVault¶

Impact faible — pertinent pour ProbatioVault-IA-Server (2x RTX 5090). llmfit pourrait aider à valider que les modèles actuels (Qwen3.5 35B, Llama3.3 70B) sont bien optimaux pour le hardware disponible, et à anticiper les modèles qu'on pourra faire tourner avec une future upgrade.

Usage pratique : llmfit pour répondre à "peut-on faire tourner Llama 70B en Q8 avec nos deux 5090 ?" sans déploiement test.