在互联网流量增长逐渐放缓的背景下,硬件设备正成为各大科技企业竞相布局的新战场。阿里云近日在深圳举办的智能硬件展上,推出了一款集成多模态交互能力的开发套件,为硬件开发者提供了一站式解决方案。该套件整合了千问、万相、百聆三款基础大模型,并预装了十余款针对生活场景和工作效率优化的智能代理工具,可广泛应用于智能眼镜、教育设备、陪伴机器人等多个领域。
阿里云通义业务负责人徐栋在接受采访时指出,这款开发套件的核心优势在于显著降低了硬件智能化的技术门槛。通过提供可视化开发界面和标准化SDK接口,开发者无需从零开始构建AI能力;在商业模式上,创新性地采用硬件授权许可制替代传统的API调用计费,帮助厂商更精准地控制成本;性能方面则通过工程优化确保模型响应速度和系统扩展性,同时整合阿里生态资源支持开发者快速实现商业化落地。
硬件与AI的深度融合正在重塑消费电子产业格局。以AI眼镜为例,这类设备通过整合语音交互、视觉识别等功能,能够构建起从信息获取到服务触达的完整闭环。徐栋观察到,行业头部企业都在探索如何通过硬件入口将软件服务延伸至物理世界,形成"硬件+软件+服务"的生态闭环。这种转变不仅创造了新的用户触点,也为厂商提供了差异化竞争的新维度。
智能手机领域的变革尤为引人注目。去年底中兴与豆包合作推出的AI手机,通过应用间自动化交互技术实现了跨平台服务整合,用户可一键完成订票、购物等复杂操作。这种创新虽然引发了关于数据安全的讨论,但也暴露出传统手机交互模式的局限性。徐栋认为,手机行业正经历从图形界面向智能代理交互的范式转变,阿里云已在通用GUI智能体和跨应用自动化两条技术路径上展开布局。
在技术路线选择上,徐栋透露阿里云采取双轨并进策略。基于视觉的GUI交互具有直观性优势,但长期使用成本较高;而应用间自动化交互在响应速度和资源消耗上表现更优,更适合移动端场景。去年开源的MAI-UI模型已为开发者提供基础框架,但真正实现自然交互仍需突破多模态感知、上下文理解等技术瓶颈。
面向企业服务市场,阿里云正在将消费端积累的技术能力向B端迁移。通过开放拟人化交互框架和开发工具链,帮助传统企业降低AI应用门槛。在机器人领域,与乐聚机器人的合作聚焦人形机器人训练平台建设,双方将共同探索具身智能的商业化路径。这项合作涵盖多语言交互、复杂场景理解等能力建设,目标是在2026年下半年推出具备初步泛化能力的解决方案。
据技术团队介绍,当前具身智能发展存在两条主线:成熟度较高的多模态交互已实现商业化落地,但受制于机器人市场体量;更具潜力的视觉-语言-动作(VLA)技术仍处于研究阶段,需要突破世界模型构建、实时决策等核心挑战。阿里云的研究显示,要实现真正通用的机器人智能,可能需要5-10年的持续投入。
