豆包大模型1.6 - vision登场：工具调用赋能，多模态理解与成本双提升效-人工智能-ITBear科技资讯

近日，豆包大模型家族迎来重要更新——其首款具备工具调用能力的视觉深度思考模型1.6-vision正式亮相。该模型在多模态理解和推理能力上实现突破，不仅支持图像定位、剪裁、点选等精细操作，还能通过模拟人类视觉认知过程完成复杂图像处理任务。

据技术团队介绍，1.6-vision模型创新性地将图像处理融入思维链，实现了从全局扫描到局部聚焦的渐进式推理。这种设计使模型能够像人类一样先把握整体结构，再聚焦关键细节，在提升操作精准度的同时增强了推理过程的可解释性。例如在医疗影像分析场景中，模型可先识别器官整体形态，再精准定位病变区域。

在开发效率方面，该模型通过Responses API接口实现了工具调用自动化。开发者无需编写大量代码即可完成图像处理功能集成，据实测数据显示，Agent开发环节的代码量较传统方式减少约60%。这种低代码开发模式显著降低了多模态应用的开发门槛。

成本优化是本次升级的另一大亮点。与前代视觉理解模型Doubao-1.5-thinking-vision-pro相比，1.6-vision在保持同等性能的前提下，将综合使用成本降低了约50%。这主要得益于模型架构的优化和推理效率的提升，使得单位算力能够处理更复杂的视觉任务。

目前，该模型已开放商业应用接口，支持包括工业质检、智慧零售、文档分析在内的多领域场景。技术文档显示，模型可处理最大8K分辨率的图像输入，支持30余种图像操作指令，在标准测试集上的物体识别准确率达到98.7%，操作指令执行成功率超过95%。

2025-09-30

2025-09-30

中南卡通股份有限公司副总经理沈杰表示：“苏东坡数字人是公司在制作苏东坡相关动画剧集时同步研发的，自诞生以来大受欢迎，在大模型的支持下，可以说是‘上知天文，下知地理’，不仅有很高的文学造诣，还是杭州文化的宣传推…

2025-09-30

利用深度学习模型对业务逻辑和用户行为进行建模，预测不同业务场景下可能出现的数据模式和查询需求，进而生成更具针对性和前瞻性的测试数据。在面对新兴的业务模式和技术应用时，如物联网、区块链与数据库的融合应用，Gol…

2025-09-30

对于参赛原因，高校组一等奖项目由云到端的AI语音交互引擎——“万物灵”项目负责人姜昊对集微网表示，“我们是一个以技术和产品为主导的学生研发团队，能够较早洞察到技术的最新突破和创新应用，这次‘飞翔杯’挑战赛给…

2025-09-30

IT之家 9 月 30 日消息，荣耀全球首家阿尔法旗舰店今日正式开业（地点：深圳湾万象城 D 区），官方表示这里将成为完全开放的 AI生态平台，汇聚全球最新的 AI 灵感。 IT之家注意到，荣耀终端股份有限…

2025-09-30

作为深耕智能科技领域的头部企业，科大讯飞始终将规范运作与内部控制置于战略高度，从企业发展全局出发构建完善的内控体系，为企业稳健运营奠定了坚实基础。此次获评“中国上市公司内部控制最佳实践案例”，既体现了监管机构…

2025-09-30

IT之家 9 月 30 日消息，据谷歌于当地时间周一发布的公告，该公司正将渐变色“G”标志定为全公司新标识。该新标识于今年 5月首次在安卓（Android）和 iOS 系统的谷歌应用中亮相，很快将全面应用于…

2025-09-30

一位参会者戴上VR设备，瞬间“走入”故宫未开放的造办处遗址，俯身端详清代内务府的陈设细节——这一幕，正是高德地图以AI技术切入文博数字化赛道的缩影。用户可在高德地图上追溯苏东坡一生足迹，联动多家博物馆的藏品、…

2025-09-30

邱泽奇教授建议平台把社会责任融入在生产服务之中，为用户匹配更多高信息密度的内容，“我不太赞同把内容划分为低质和高质或劣质与优质，不同人群对优质内容的定义不同。彭兰教授提出，当下算法越来越聪明，能更好地满足…

2025-09-30