ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

豆包大模型1.6 - vision登场:工具调用赋能,多模态理解与成本双提升效

时间:2025-10-01 00:05:34来源:互联网编辑:快讯

近日,豆包大模型家族迎来重要更新——其首款具备工具调用能力的视觉深度思考模型1.6-vision正式亮相。该模型在多模态理解和推理能力上实现突破,不仅支持图像定位、剪裁、点选等精细操作,还能通过模拟人类视觉认知过程完成复杂图像处理任务。

据技术团队介绍,1.6-vision模型创新性地将图像处理融入思维链,实现了从全局扫描到局部聚焦的渐进式推理。这种设计使模型能够像人类一样先把握整体结构,再聚焦关键细节,在提升操作精准度的同时增强了推理过程的可解释性。例如在医疗影像分析场景中,模型可先识别器官整体形态,再精准定位病变区域。

在开发效率方面,该模型通过Responses API接口实现了工具调用自动化。开发者无需编写大量代码即可完成图像处理功能集成,据实测数据显示,Agent开发环节的代码量较传统方式减少约60%。这种低代码开发模式显著降低了多模态应用的开发门槛。

成本优化是本次升级的另一大亮点。与前代视觉理解模型Doubao-1.5-thinking-vision-pro相比,1.6-vision在保持同等性能的前提下,将综合使用成本降低了约50%。这主要得益于模型架构的优化和推理效率的提升,使得单位算力能够处理更复杂的视觉任务。

目前,该模型已开放商业应用接口,支持包括工业质检、智慧零售、文档分析在内的多领域场景。技术文档显示,模型可处理最大8K分辨率的图像输入,支持30余种图像操作指令,在标准测试集上的物体识别准确率达到98.7%,操作指令执行成功率超过95%。

更多热门内容
数贸会盛宴:AI领航科技前沿,文化出海绽放新姿
中南卡通股份有限公司副总经理沈杰表示:“苏东坡数字人是公司在制作苏东坡相关动画剧集时同步研发的,自诞生以来大受欢迎,在大模型的支持下,可以说是‘上知天文,下知地理’,不仅有很高的文学造诣,还是杭州文化的宣传推…

2025-09-30

未来GoldenDB数据生成技术:深度融合AI,应对复杂需求,驱动性能升级
利用深度学习模型对业务逻辑和用户行为进行建模,预测不同业务场景下可能出现的数据模式和查询需求,进而生成更具针对性和前瞻性的测试数据。在面对新兴的业务模式和技术应用时,如物联网、区块链与数据库的融合应用,Gol…

2025-09-30

国产算力如何落地生根?AI大赛搭台、“百校计划”助力产业新生态
对于参赛原因,高校组一等奖项目由云到端的AI语音交互引擎——“万物灵”项目负责人姜昊对集微网表示,“我们是一个以技术和产品为主导的学生研发团队,能够较早洞察到技术的最新突破和创新应用,这次‘飞翔杯’挑战赛给…

2025-09-30

荣耀全球首家阿尔法旗舰店深圳启幕 开启AI智慧生活新征程
IT之家 9 月 30 日消息,荣耀全球首家阿尔法旗舰店今日正式开业(地点:深圳湾万象城 D 区),官方表示这里将成为完全开放的 AI生态平台,汇聚全球最新的 AI 灵感。 IT之家注意到,荣耀终端股份有限…

2025-09-30

内控典范!科大讯飞获2025最佳实践案例,引领智能科技行业规范发展
作为深耕智能科技领域的头部企业,科大讯飞始终将规范运作与内部控制置于战略高度,从企业发展全局出发构建完善的内控体系,为企业稳健运营奠定了坚实基础。此次获评“中国上市公司内部控制最佳实践案例”,既体现了监管机构…

2025-09-30

谷歌十年来首度大更新:全新渐变色“G”形Logo亮相,同步焕新Google Home标识
IT之家 9 月 30 日消息,据谷歌于当地时间周一发布的公告,该公司正将渐变色“G”标志定为全公司新标识。该新标识于今年 5月首次在安卓(Android)和 iOS 系统的谷歌应用中亮相,很快将全面应用于…

2025-09-30

高德地图2025云栖大会亮AI文博新招 时空大模型让文物“活”起来文化“流”起来
一位参会者戴上VR设备,瞬间“走入”故宫未开放的造办处遗址,俯身端详清代内务府的陈设细节——这一幕,正是高德地图以AI技术切入文博数字化赛道的缩影。用户可在高德地图上追溯苏东坡一生足迹,联动多家博物馆的藏品、…

2025-09-30

抖音安全与信任中心首场专家会:共议算法向善 共筑网络良好生态
邱泽奇教授建议平台把社会责任融入在生产服务之中,为用户匹配更多高信息密度的内容,“我不太赞同把内容划分为低质和高质或劣质与优质,不同人群对优质内容的定义不同。 彭兰教授提出,当下算法越来越聪明,能更好地满足…

2025-09-30