Mistral发布Voxtral：开源音频模型，挑战巨头，开启语音智能新篇章-人工智能-ITBear科技资讯

人工智能技术的迅猛进步正引领着人机交互的新潮流，其中语音交互已成为不可忽视的关键一环。法国新兴科技公司Mistral近期向公众推出了其首个开源音频模型Voxtral，此举旨在挑战大型科技企业的封闭系统，为开发者开辟一条既灵活又经济的道路。

Mistral公司自豪地宣称，Voxtral是首个能够在现实应用场景中提供“真正实用语音智能”的开源模型。这意味着开发者无需再为选择低成本但功能有限的开源系统，或是高效但封闭的专有方案而纠结。Voxtral以显著低于市场价格一半的优势，为企业带来了更具吸引力的选项。

据Mistral介绍，Voxtral具备强大的音频处理能力，能够轻松转录长达30分钟的音频内容。依托Mistral Small3.1大型语言模型，用户甚至能理解长达40分钟的音频。用户不仅可以针对音频内容提问，还能生成摘要，甚至将语音指令实时转化为操作，如调用API或执行特定功能。Voxtral支持多语言，包括英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语等。

Mistral提供了两种版本的“语音理解模型”。Voxtral Small拥有240亿个参数，专为生产级部署设计，与ElevenLabs Scribe、GPT-4o-mini和Gemini2.5Flash等模型竞争。而Voxtral Mini则拥有30亿个参数，更适合本地和边缘部署。还有一个专为转录场景优化的Voxtral Mini Transcribe版本，仅含3亿参数，性能超越OpenAI的Whisper，但价格不到其一半。

用户可以通过Hugging Face平台免费获取Voxtral的API，或在Mistral的聊天机器人Le Chat中进行体验。据公司透露，API的集成费用从每分钟0.001美元起。此次发布正值Mistral一个月前推出推理模型Magistral之际，这些模型通过分步解决问题的方式提升了可靠性。

作为欧洲人工智能领域的佼佼者，Mistral一直致力于推动开源AI模型的发展。最近有消息称，Mistral正与投资者协商，计划筹集高达10亿美元的资金，阿布扎比的MGX基金也在其中。