Voxtral — Speech-to-text + comprehension audio par Mistral AI¶

Resume¶

Voxtral est un modele speech-to-text + audio understanding de Mistral AI, disponible en deux variantes : 24B (production) et 3B (edge/local). Apache 2.0, deployable localement via HuggingFace. Surpasse Whisper large-v3, bat GPT-4o mini Transcribe et Gemini 2.5 Flash sur tous les benchmarks. Detection automatique de 8 langues (FR, EN, ES, PT, HI, DE, NL, IT). Contexte 32K tokens, jusqu'a 30 min audio en transcription, 40 min en comprehension/Q&A. API a $0.001/min.

Analyse critique¶

Points forts reels :

Performances : surpasse Whisper large-v3 sur les benchmarks multilingues — verifiable
Prix : $0.001/min soit $0.03 pour 30 min — 10x moins cher que les alternatives
Apache 2.0 : deployable localement, pas de lock-in cloud
Audio understanding : Q&A et resume integres sans chainer un second modele (contrairement a Whisper qui necessite un LLM en aval)
Voxtral 3B : ~6GB VRAM, deployable sur l'IA-Server (2x RTX 5090, 64GB VRAM dispo)

Limitations :

30 min max par requete en transcription — meetings longs necessitent un decoupage (ffmpeg)
8 langues seulement — pas de support arabe, chinois, japonais
Pas encore dans Ollama — necessite un deploiement custom (vLLM, TGI, ou HuggingFace Inference)

Pertinence ProbatioVault¶

Prevu dans la TODO section 5 comme outil d'enrichissement de la base documentaire. Cas d'usage concrets : transcription de reunions de cadrage PO (enrichit etape 0), workshops architecture (enrichit ADRs), feedback utilisateurs (enrichit REX etape 9). Deploiement local sur IA-Server recommande (RGPD, gratuit, 6GB VRAM pour le 3B). POC planifie Q1-Q2 2026.