亚马逊新推AI语音模型Nova Sonic，能否挑战OpenAI与谷歌地位？-业界动态-ITBear科技资讯

近日，亚马逊震撼发布了其最新一代生成式AI模型——Nova Sonic，这款模型在语音处理领域实现了重大突破，能够生成自然流畅的语音，为语音交互技术树立了新的标杆。

据亚马逊官方介绍，Nova Sonic在速度、语音识别以及对话质量等多个关键指标上，表现与OpenAI和谷歌的前沿语音模型不相上下。这一成就标志着亚马逊在AI语音技术上的显著进步，也是对近年来新兴AI语音模型的有力回应。

与亚马逊早期的Alexa等模型相比，Nova Sonic在语音交互时更加自然流畅，用户体验得到了显著提升。这一转变得益于Nova Sonic强大的语音处理能力，它不仅能够准确识别用户的语音指令，还能在对话中展现出更加自然的语言风格。

为了让更多开发者能够利用Nova Sonic的强大功能，亚马逊将其通过Bedrock开发者平台向用户开放。该平台是专为构建企业级AI应用而设计的工具，而Nova Sonic则通过一个全新的双向流式API接入，使得开发者能够轻松地将该模型集成到自己的应用中。

在价格方面，亚马逊声称Nova Sonic是市场上“最具成本效益”的AI语音模型。与OpenAI的GPT-4o相比，Nova Sonic的价格便宜了约80%，这无疑将吸引更多开发者选择该模型。

亚马逊高级副总裁兼人工通用智能（AGI）部门首席科学家罗希特·普拉萨德透露，Nova Sonic的部分组件已经为亚马逊升级版数字语音助手Alexa+提供了动力支持。这一消息进一步证明了Nova Sonic的强大实力。

普拉萨德还表示，与竞争对手的AI语音模型相比，Nova Sonic在将用户请求路由到不同API方面表现出色。它能够根据上下文信息判断何时需要从互联网获取实时信息、解析专有数据源或在外部应用程序中采取行动，并使用合适的工具来完成任务。

在双向对话中，Nova Sonic展现出了出色的等待“合适时机”发言的能力。它能够准确判断说话者的停顿和打断情况，确保对话的流畅性和自然性。Nova Sonic还能够为用户的语音生成文本记录，这些文本记录可以被开发者用于各种应用场景。

在语音识别方面，Nova Sonic的表现同样令人瞩目。据普拉萨德介绍，该模型在语音识别错误方面比其他AI语音模型更少。即使在用户咕哝、说错话或处于嘈杂环境中时，Nova Sonic也能够准确理解用户的意图。在一项跨语言和方言的语音识别基准测试中，Nova Sonic在英语、法语、意大利语、德语和西班牙语上的平均单词错误率仅为4.2%。

在衡量多人参与的高音量互动的基准测试中，Nova Sonic也展现出了出色的表现。与OpenAI的GPT-4o-transcribe模型相比，Nova Sonic在单词错误率方面准确率高出46.7%。同时，Nova Sonic还拥有行业领先的速度，其平均感知延迟为1.09秒，比OpenAI的GPT-4o模型更快。

普拉萨德强调，Nova Sonic是亚马逊构建人工通用智能（AGI）这一更广泛战略的一部分。未来，亚马逊计划推出更多能够理解不同模态（包括图像、视频和语音）的AI模型，以及“其他在将事物引入物理世界时相关的感官数据”。

由普拉萨德负责的亚马逊AGI部门在公司产品战略中扮演着越来越重要的角色。上周，亚马逊刚刚推出了Nova Act的预览版，该模型似乎为Alexa+和亚马逊的“代我购买”功能的部分元素提供了支持。从Nova Sonic开始，亚马逊希望将更多内部的AI模型提供给开发者使用，以助力他们构建各种创新应用。

ChatGPT内存大升级，个性化对话新体验来啦！
2025-04-13

谷歌Gemini与Veo模型融合，迈向全能AI助手新时代？
2025-04-13

B站CEO陈睿回母校，因热爱计算机放弃文科第八名
2025-04-13

驾驶陋习大盘点！老司机也可能中招，你改了吗？
2025-04-13

美团全渠道助力！外贸企业国内市场开拓新机遇来了

美团表示，为积极落实关于大力提振消费、全方位扩大国内需求的战略部署，帮助具备优质供应链和产品品质的外贸企业快速开拓国内市场，美团第一时间成立专项，在“商家入驻、经营扶持、品牌打造”等方面开设绿色通道，欢迎外贸…

2025-04-13

侧方停车不剐蹭，掌握这个点，方向盘打满超轻松！
2025-04-13

新手倒车入库总出错？一招秘籍，助你轻松搞定！
2025-04-13

赵长鹏、孙宇晨卷入证据传言，双方均发声否认

报道称，作为认罪协议的一部分，币安创始人赵长鹏同意向检察官提供关于孙宇晨的证据。针对赵长鹏将向检方提供孙宇晨证据相关传言，孙宇晨表态称：“他们总是试图用谣言来挑拨我们，分裂我们，而不是让我们团结在一起。” …

2025-04-13