通义实验室发布Qwen3.7-Plus多模态模型：自主完成APP开发及多项复杂任务-业界动态-ITBear科技资讯

通义实验室近日宣布推出Qwen3.7-Plus多模态智能体模型，该模型在文本理解与智能代理能力基础上，创新性地整合了视觉处理模块，形成"感知-决策-执行"的全链路能力。通过深度融合计算机视觉与自然语言处理技术，模型实现了图形界面解析、应用程序操作、代码生成与结果验证的完整闭环，在智能体研发领域取得突破性进展。

在实测验证环节，基于Qwen3.7-Plus构建的Hybrid-Agent系统展现出强大实力。该系统持续运行11小时完成英语单词学习应用的完整开发流程，涵盖需求分析、代码编写、自动化测试等全生命周期管理。期间累计生成超过1万行代码，触发千余次API调用，成功实现需求文档生成、跨平台部署、测试用例创建及版本迭代等复杂任务，验证了模型在软件开发领域的工业化应用潜力。

针对桌面应用场景，模型展现出精准的界面交互能力。在macOS原生Stocks应用复现实验中，系统自动解析UI布局结构，生成符合SwiftUI规范的源代码，并通过接入LongBridge金融数据接口获取实时行情。经过编译构建后，复刻应用不仅完整还原了原生应用的暗色主题与分栏布局，更通过10项功能验证测试，确保实时数据交互、图表渲染等核心功能的准确实现。

该模型的多模态处理能力覆盖多个专业领域。在视觉推理方面，可解析地铁线路图等复杂图形信息；通过搜索增强技术实现视觉问答的精准响应；支持将图像/视频内容转换为SVG矢量代码，并具备视觉驱动的网页设计能力。在云服务场景中，模型能自主完成ECS服务器采购、配置部署及运维监控等全流程操作，展现出强大的企业级应用潜力。

在基准测试环节，Qwen3.7-Plus在BabyVision、MathVision等专项评测中表现优异，特别是在ScreenSpot Pro屏幕解析与AndroidWorld移动端测试中取得领先成绩。目前该模型已通过阿里云百炼平台开放服务，支持OpenAI标准接口与Anthropic协议调用，为开发者提供灵活的技术接入方案，推动多模态智能体技术的产业化应用。