Voxtral — Speech-to-text + comprehension audio par Mistral AI¶
Resume¶
Voxtral est un modele speech-to-text + audio understanding de Mistral AI, disponible en deux variantes : 24B (production) et 3B (edge/local). Apache 2.0, deployable localement via HuggingFace. Surpasse Whisper large-v3, bat GPT-4o mini Transcribe et Gemini 2.5 Flash sur tous les benchmarks. Detection automatique de 8 langues (FR, EN, ES, PT, HI, DE, NL, IT). Contexte 32K tokens, jusqu'a 30 min audio en transcription, 40 min en comprehension/Q&A. API a $0.001/min.
Analyse critique¶
Points forts reels :
- Performances : surpasse Whisper large-v3 sur les benchmarks multilingues — verifiable
- Prix : $0.001/min soit $0.03 pour 30 min — 10x moins cher que les alternatives
- Apache 2.0 : deployable localement, pas de lock-in cloud
- Audio understanding : Q&A et resume integres sans chainer un second modele (contrairement a Whisper qui necessite un LLM en aval)
- Voxtral 3B : ~6GB VRAM, deployable sur l'IA-Server (2x RTX 5090, 64GB VRAM dispo)
Limitations :
- 30 min max par requete en transcription — meetings longs necessitent un decoupage (ffmpeg)
- 8 langues seulement — pas de support arabe, chinois, japonais
- Pas encore dans Ollama — necessite un deploiement custom (vLLM, TGI, ou HuggingFace Inference)
Pertinence ProbatioVault¶
Prevu dans la TODO section 5 comme outil d'enrichissement de la base documentaire. Cas d'usage concrets : transcription de reunions de cadrage PO (enrichit etape 0), workshops architecture (enrichit ADRs), feedback utilisateurs (enrichit REX etape 9). Deploiement local sur IA-Server recommande (RGPD, gratuit, 6GB VRAM pour le 3B). POC planifie Q1-Q2 2026.