ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

火山引擎豆包1.5模型升级,多模态理解与GUI Agent能力引领创新

时间:2025-05-13 16:35:49来源:ITBEAR编辑:快讯团队

在近日于上海举行的FORCE LINK AI创新巡展活动中,火山引擎隆重推出了其最新的豆包1.5视觉深度思考模型(Doubao-1.5-thinking-vision-pro)。尽管该模型的激活参数仅为20B,但它展现出了卓越的多模态理解与推理能力,令人瞩目。在多达60项的公开评测基准中,豆包1.5在38项上取得了业界最佳成绩(SOTA),特别是在视频理解、视觉推理以及GUI Agent能力方面,均位列前茅。

在视频理解领域,豆包1.5引入了动态帧率采样技术,这一创新极大地提升了模型对视频时序的定位能力。结合先进的向量搜索功能,模型能够迅速且准确地找到与文本描述相匹配的视频片段,为视频内容的深度挖掘与检索提供了强有力的支持。

不仅如此,豆包1.5还具备了视频深度思考的能力。通过深度学习数万亿的多模态标记数据,模型积累了丰富的视觉知识。同时,借助强化学习技术,豆包1.5的视觉推理能力得到了显著提升。在复杂的图形推理任务中,它能够自主提出假设、进行验证,并在发现不符时不断反思与调整,直至得出正确答案,这一过程展现了其强大的思考与自我修正能力。

豆包1.5新增的GUI Agent能力同样令人印象深刻。凭借其出色的GUI定位性能,模型能够在多种不同环境,如PC端和手机端,完成复杂的交互任务。这一功能在新开发的App功能自动化检测中发挥了巨大作用,目前已在字节跳动多款App产品的开发测试中得到实际应用,大大提高了测试效率与准确性。

GUI Agent,作为一种基于多模态视觉模型驱动的人工智能系统,能够模拟人类用户的操作,如点击、输入、拖拽以及读取界面信息等,从而完成各种指定的工作任务。这一技术的引入,无疑为豆包1.5增添了更为广泛的应用场景与价值。

豆包1.5的推出也标志着火山引擎在人工智能领域迈出了坚实的一步。该模型不仅展现了火山引擎在技术创新方面的实力,更为行业内的其他参与者树立了新的标杆。

目前,豆包1.5视觉深度思考模型已在火山方舟平台正式上线,标志着这一先进技术将正式服务于更广泛的用户群体,为人工智能的应用与发展注入新的活力。

更多热门内容
2025年AI大战:中国巨头争抢“全能助手”赛道,全球竞争白热化
Driven by MCP adoption and growing commercial applications, the GeneralAgent market is set to scale ra…

2025-05-13

AI广告片崛起:大品牌热捧,制作难点与机遇并存
在技术基建方面,各大平台的AI产品/工具都在不断改进:快手可灵就在近期发布了2.0视频生成模型,在动态质量、语义响应、画面美学等环节取得了不少突破,比如全新的Multi-modalVisual Langu…

2025-05-13

荣耀中国区关键岗位大换血,新设AI部门未来可期?
据媒体报道,荣耀近期在内部实行“雄鹰计划”,对关键岗位采用“竞聘上岗”的方式。荣耀方面向新浪科技证实了该消息。 据报道,目前荣耀已完成对中国地区部关键岗位的人员部署,其中涉及38个中国区关键岗位主管,采用“重…

2025-05-13

中国AI大模型四月风云:大厂激战,创新突破引领产业新潮流
例如,腾讯将混元大模型研发体系重组为语言与多模态两大部门,强化垂直场景协同;阿里开源Qwen3系列模型,并全面支持MCP协议,推动模型与支付宝、高德地图等生态工具的深度整合,凸显低成本与开源策略的技术普惠性…

2025-05-13