PersonaPlex-7B — Modèle speech-to-speech full duplex avec contrôle de persona¶
Resume¶
PersonaPlex-7B-v1 (NVIDIA Research, janvier 2026) est un modèle speech-to-speech full duplex basé sur Moshi (Temporal Transformer + Depth Transformer). Il écoute et parle simultanément avec support natif des interruptions et chevauchements. Conditionné avant conversation par un voice prompt (tokens audio définissant les caractéristiques vocales) et un text prompt (persona/rôle). Benchmarks FullDuplexBench : interruption latency 0.240s, smooth turn-taking 0.908. Entraîné sur Fisher English (7 303 conversations). Licence NVIDIA Open Model + CC-BY-4.0, usage commercial autorisé. Tourne sur A100/H100.
Analyse critique¶
Ce qui est notable : le full duplex réel (écoute + parole simultanées) est un saut qualitatif vs les systèmes tour-par-tour. La latence d'interruption à 0.240s est dans la plage de naturel conversationnel humain (~200ms).
Le contrôle de persona (voice prompt + text prompt) est l'innovation différenciante vs les précédents speech-to-speech : même modèle, voix et rôle différents selon le prompt. Pertinent pour les agents vocaux multi-persona.
Ce qui manque : le modèle nécessite A100/H100 — pas accessible sur GPU grand public. Le dataset Fisher English est vieux (2003-2004), accent américain dominant, diversité limitée.
Moshi (base du modèle) est l'architecture de Kyutai, laboratoire français financé par Xavier Niel. PersonaPlex est une fine-tune NVIDIA sur cette base open-source.
Mise a jour 2026-04-08 : @LinusEkenstam (https://x.com/linusekenstam/status/2041239990328553546) titre "NVIDIA just killed the awkward pause in voice AI". Points cles : beat Gemini Live sur la naturalite du dialogue, interruptions 18x plus rapides, 100% open source. Engagement massif, confirme la traction du modele.
Pertinence ProbatioVault¶
Pas d'impact direct. ProbatioVault n'a pas de composant vocal et ce n'est pas dans la roadmap. Interessant comme signal sur l'etat de l'art des agents vocaux et la direction du marche IA-voix.