Aller au contenu

Voxtral — Speech-to-text + comprehension audio par Mistral AI

Resume

Voxtral est un modele speech-to-text + audio understanding de Mistral AI, disponible en deux variantes : 24B (production) et 3B (edge/local). Apache 2.0, deployable localement via HuggingFace. Surpasse Whisper large-v3, bat GPT-4o mini Transcribe et Gemini 2.5 Flash sur tous les benchmarks. Detection automatique de 8 langues (FR, EN, ES, PT, HI, DE, NL, IT). Contexte 32K tokens, jusqu'a 30 min audio en transcription, 40 min en comprehension/Q&A. API a $0.001/min.

Analyse critique

Points forts reels :

  • Performances : surpasse Whisper large-v3 sur les benchmarks multilingues — verifiable
  • Prix : $0.001/min soit $0.03 pour 30 min — 10x moins cher que les alternatives
  • Apache 2.0 : deployable localement, pas de lock-in cloud
  • Audio understanding : Q&A et resume integres sans chainer un second modele (contrairement a Whisper qui necessite un LLM en aval)
  • Voxtral 3B : ~6GB VRAM, deployable sur l'IA-Server (2x RTX 5090, 64GB VRAM dispo)

Limitations :

  • 30 min max par requete en transcription — meetings longs necessitent un decoupage (ffmpeg)
  • 8 langues seulement — pas de support arabe, chinois, japonais
  • Pas encore dans Ollama — necessite un deploiement custom (vLLM, TGI, ou HuggingFace Inference)

Pertinence ProbatioVault

Prevu dans la TODO section 5 comme outil d'enrichissement de la base documentaire. Cas d'usage concrets : transcription de reunions de cadrage PO (enrichit etape 0), workshops architecture (enrichit ADRs), feedback utilisateurs (enrichit REX etape 9). Deploiement local sur IA-Server recommande (RGPD, gratuit, 6GB VRAM pour le 3B). POC planifie Q1-Q2 2026.