ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

百度千帆团队发布Qianfan-VL视觉模型,多尺寸适配多场景,OCR与推理能力表现亮眼

时间:2025-09-23 13:39:24来源:小AI编辑:快讯

百度智能云千帆团队近日宣布,正式推出并全面开源新一代视觉理解模型Qianfan-VL。该系列模型包含3B、8B、70B三种参数规格,专为企业级多模态应用场景设计,通过深度优化实现了卓越的视觉处理性能。

基于开源框架开发的Qianfan-VL,依托百度自研的昆仑芯P800硬件完成全流程训练。强大的算力支撑使模型能够高效处理复杂数据结构,尤其在光学字符识别(OCR)和教育领域应用中展现出显著优势。研发团队针对行业高频需求进行了专项优化,使模型在实际部署中具备更强的适应性。

该模型系列呈现三大核心特性:其一,提供多维度参数选择,3B轻量级模型适配移动端部署,8B和70B中大型模型可满足复杂业务需求;其二,8B及以上版本具备推理能力,通过特殊标识符激活后可处理图表解析、视觉推理等高阶任务;其三,在文档理解领域实现突破性进展,不仅能精准识别手写字体和复杂排版,还可进行结构化信息提取。

基准测试数据显示,Qianfan-VL在视觉理解、专业问答等任务中均取得优异成绩。特别是在OCR与文档分析场景,模型展现出全场景识别能力和复杂文档解析水平,为企业级应用提供了高精度解决方案。数学解题测试中,8B和70B版本通过融合视觉信息与外部知识,在复杂推理任务中表现出色。

在实际应用层面,该模型已具备商业落地价值。其数据分析功能可自动提取关键信息,辅助企业进行智能化决策。教育领域的应用测试表明,模型能有效解析教材图表、作业题目等教学素材,为个性化学习提供技术支撑。

目前,Qianfan-VL已开放技术文档与代码仓库。开发者可通过官方渠道获取模型架构说明、训练方法及部署指南,项目地址:https://github.com/baidubce/Qianfan-VL。更多技术细节可参考官方介绍页面:https://baidubce.github.io/Qianfan-VL/

更多热门内容
石头科技2025年回购进展:已购37万股耗资7387万,中期收入79.03亿
石头科技(688169)发布公告,截至2025年9月22日,公司已累计回购37万股,占总股本的0.1424%,回购总金额为7387万元,回购价格区间为175.01元/股至219.16元/股。 2025年中期,…

2025-09-23