一段小女孩与AI玩具深情告别的视频在网络上迅速走红,引发了人们对人机情感交互的广泛关注。视频中,小女孩对一个具有语音功能的AI玩具依依不舍,这场跨越人与机器的离别,展现了对话式AI正在悄然融入人类情感世界的现实。
当前,许多AI交互仍停留在"短信"时代,用户通过输入框提出问题,AI以文字形式回复。然而,人类沟通中,语言内容仅占7%的信息量,声音传递占38%,表情等身体语言则高达55%。这一"梅拉宾法则"揭示了多模态交互的重要性。正如智能手机不仅依赖通信功能,更需要触控屏和传感器的突破,AI交互领域同样需要技术革新。
多模态大模型的发展正在推动AI从"生成"向"交互"演进。实时交互能力的普及成为下一个关键方向,计算机通过多模态LLM技术实现了类人的实时语音对话能力。这种突破使得"具有活人感"的对话式AI开始爆发,2024年因此被视为智能体和对话式AI的元年。
10月31日,声网与RTE开发者社区联合主办的Convo AI&RTE 2025大会在上海召开。这场第十一届实时互联网大会吸引了众多开发者参与,现场座无虚席。大会覆盖了实时互联网和对话式AI全生态,推出20余场论坛及周边活动,涵盖技术开发、趋势洞见、行业观察、创业投资等多个维度。
自2015年声网将RTC开发者大会引入中国以来,这场年度盛会已连续举办十余届。从最初的WebRTC/RTC底层技术交流,到2020年升级为"RTE实时互联网大会",议题扩展至"实时互动"的广阔场景。如今,大会已成长为全球规模最大的实时互联网盛会,累计覆盖200多个行业场景,影响超过200万开发者。
声网CEO赵斌在大会上指出,对话式AI正在经历从"正常对话"到"声情并茂"的关键转变。2024年第三季度,声网的对话式AI用量环比增长151%,年度服务分钟数首次突破1万亿。ElevenLabs黑客松在短时间内孵化了300多个创业项目,开源的TEN framework和TEN Agent多次登顶GitHub排行榜。
全球科技巨头纷纷布局对话式AI领域,相关创业公司呈现爆发式增长。方舟投资的报告显示,AI陪伴赛道可能从3000万美元增长至700-1500亿美元,增长潜力高达5000倍。这种增长不仅体现在市场规模上,更反映在应用量和活跃度的持续提升中。
在应用场景方面,情感陪伴、智能硬件和在线教育将率先实现对话式AI的规模化落地。声网推出的对话式AI开发套件R1-4G,基于紫光展锐8910高性能AI芯片,融合4G通信功能,帮助开发者快速集成硬件对话能力。该套件优化了音视频通话与4G适配,实现650ms延迟和340ms打断响应。
对话式AI模型评测平台3.0新增了价格预估计算器功能。开发者可以根据实际业务需求预设人机对话比例,平台将自动计算总价和各模块单价,帮助开发者更好地控制成本。这一工具解决了行业面临的低延迟响应、自然打断、上下文管理等技术难题。
在实时交互与场景理解方面,对话式AI已取得突破性进展。高拟人度实时翻译在特定场景实现实用化,车载智能助理提升驾驶体验,AI辅助生活拓展残障人士的边界。这些应用表明,AI实时交互正在创造巨大的市场机会。
OpenAI去年5月推出的GPT-4o语音-视觉-文本实时多模态技术,成为行业新共识。随后推出的Realtime API公测,使声网等首批集成伙伴能够将低时延语音对话能力带入实际应用。在国内,声网与MiniMax、智谱等企业合作,推动了语音对话技术的秒响应和自然交互。
随着RTE成为AI对话的基础设施,音视频对话正在成为智能应用的标配。终端设备如耳机、手机和家居产品不断增强硬件加速能力,使"开口-回应-执行"的链路更加可用。虽然全新交互形态的硬件可能不会很快出现,但对话式AI引入硬件形态将带来未来两年的爆发式增长。