性能超GPT-4o mini Transcribe、Gemini 2.5 Flash,在英语短篇和Mozilla Common Voice上超过了ElevenLabs Scribe

上下文长度32k token
可处理长30分钟音频转录,或40分钟的语义理解

内置问答、摘要、多语言支持和语音函数调用功能

有两个型号,Voxtral (24B)、Voxtral Mini (3B)

https://huggingface.co/mistralai