据行业消息,OpenAI正加速布局音频人工智能领域,计划推出一款以语音交互为核心的消费级硬件设备。这款设备将突破传统屏幕依赖模式,通过自然语音指令实现操作,旨在重新定义人机交互方式。多位内部人士透露,项目团队已整合工程、产品与研究力量,重点攻克现有音频模型在准确性与响应速度上的短板。
当前ChatGPT的语音功能与文本回答采用不同模型架构,但现有音频模型的表现尚未达到预期。为解决这一问题,OpenAI研发团队在近两个月内重构了底层架构,使新模型能够生成更具情感表现力的语音回应,并支持实时打断与多轮对话。公司计划于2026年第一季度正式发布该音频模型,为硬件落地提供技术支撑。
在硬件设计理念上,OpenAI与谷歌、亚马逊等科技巨头达成共识:现有主流设备难以满足未来AI交互需求。项目核心成员乔尼·艾维强调,无屏幕设计不仅符合人类交流本能,更能减少用户对电子设备的过度依赖。团队希望用户通过语音与设备建立更自然的互动关系,而非被动接收屏幕信息。
市场调研显示,用户习惯成为项目推进的主要障碍。目前ChatGPT语音功能使用率较低,既受限于模型性能不足,也与用户认知偏差有关。为破解这一难题,OpenAI正通过产品迭代逐步培养用户语音交互习惯,同时优化模型在复杂场景下的识别能力。
组织架构方面,OpenAI已组建跨部门专项团队推进战略落地。语音研究员昆丹·库马尔负责技术路线规划,本·纽豪斯主导音频架构重构,多模态产品经理杰基·香农则统筹功能整合。团队成员背景涵盖语音合成、硬件工程与用户体验设计等多个领域。
产品规划显示,OpenAI将推出包含智能眼镜与无屏幕音箱在内的产品线。这些设备被定位为"环境感知型助手",能够主动分析用户所处场景,在获得授权后通过语音或视频提供实时协助。例如在烹饪场景中,设备可自动识别食材并播放操作指导;在通勤途中,则能根据日程安排提供路线建议。
为支撑多线布局,OpenAI于2025年初完成对io公司的战略收购,交易金额近65亿美元(约合人民币455.06亿元)。这笔投资将用于强化供应链管理、工业设计能力与模型研发实力。目前项目已进入实质性推进阶段,涉及硬件原型开发、用户测试与生态合作等多个环节。




