通义实验室近日宣布推出Qwen3.7-Plus多模态智能体模型,该模型在文本理解与智能代理能力基础上,创新性地整合了视觉处理模块,形成"感知-决策-执行"的全链路能力。通过深度融合计算机视觉与自然语言处理技术,模型实现了图形界面解析、应用程序操作、代码生成与结果验证的完整闭环,在智能体研发领域取得突破性进展。
在实测验证环节,基于Qwen3.7-Plus构建的Hybrid-Agent系统展现出强大实力。该系统持续运行11小时完成英语单词学习应用的完整开发流程,涵盖需求分析、代码编写、自动化测试等全生命周期管理。期间累计生成超过1万行代码,触发千余次API调用,成功实现需求文档生成、跨平台部署、测试用例创建及版本迭代等复杂任务,验证了模型在软件开发领域的工业化应用潜力。
针对桌面应用场景,模型展现出精准的界面交互能力。在macOS原生Stocks应用复现实验中,系统自动解析UI布局结构,生成符合SwiftUI规范的源代码,并通过接入LongBridge金融数据接口获取实时行情。经过编译构建后,复刻应用不仅完整还原了原生应用的暗色主题与分栏布局,更通过10项功能验证测试,确保实时数据交互、图表渲染等核心功能的准确实现。
该模型的多模态处理能力覆盖多个专业领域。在视觉推理方面,可解析地铁线路图等复杂图形信息;通过搜索增强技术实现视觉问答的精准响应;支持将图像/视频内容转换为SVG矢量代码,并具备视觉驱动的网页设计能力。在云服务场景中,模型能自主完成ECS服务器采购、配置部署及运维监控等全流程操作,展现出强大的企业级应用潜力。
在基准测试环节,Qwen3.7-Plus在BabyVision、MathVision等专项评测中表现优异,特别是在ScreenSpot Pro屏幕解析与AndroidWorld移动端测试中取得领先成绩。目前该模型已通过阿里云百炼平台开放服务,支持OpenAI标准接口与Anthropic协议调用,为开发者提供灵活的技术接入方案,推动多模态智能体技术的产业化应用。