ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

百度智能云开源Qianfan-VL视觉模型,多尺寸适配+自研芯片助力多场景应用

时间:2025-09-23 03:13:44来源:小AI编辑:快讯

百度智能云千帆平台近日迎来重要突破——全新视觉理解大模型Qianfan-VL正式开源,并同步推出3B、8B、70B三个参数规模的版本。这款专为企业级多模态应用场景设计的模型,在OCR识别、文档理解等产业高频需求领域实现了专项优化,其8B和70B版本即日起至10月10日可在千帆平台免费体验。

研发团队采用四阶段创新训练策略,构建了覆盖文档识别、数学解题等核心任务的高精度数据合成管线。基于百度自研的昆仑芯P800芯片,该模型实现了单任务5000卡规模的并行计算能力,在视觉理解通用能力评测中展现出显著优势。从ScienceQA专业问答到RefCOCO多模态任务,模型性能随参数规模提升呈现良好Scaling趋势,在物体识别、关联分析等维度达到行业领先水平。

针对企业级应用痛点,模型特别强化了三大核心能力:其一,提供3B、8B、70B多尺寸选择,满足不同规模企业的部署需求;其二,8B和70B版本通过特殊token激活思维链功能,可处理复杂图表分析、视觉推理等场景;其三,在OCR全场景识别方面,不仅能精准解析手写体、数学公式,还能对卡证票据进行结构化提取。在文档理解领域,模型可自动分析版面元素,实现表格图表解析与智能问答。

基准测试数据显示,Qianfan-VL在数学解题领域表现尤为突出。8B和70B版本通过融合视觉与文本推理数据,在MathVista-mini等测试中取得优异成绩,可实现几何推理、公式识别等复杂任务的分步求解。在文档处理场景,模型在OCRBench等专业测试中的准确率随参数规模提升持续优化,为金融、教育等行业的文档智能化提供了高精度解决方案。

技术架构层面,研发团队构建了业界领先的分布式计算系统。通过创新的并行策略与算子优化,昆仑芯P800芯片组成功支撑起超大规模模型训练,使数据处理效率得到显著提升。这种软硬协同的创新模式,不仅优化了计算资源利用率,更为模型在垂类任务中的性能突破奠定了基础。

目前,该模型已在OCR识别、文档解析等场景形成典型应用案例。除已展示的票据结构化提取、复杂版面分析等功能外,模型在图表数据可视化、视频内容理解等延伸领域也展现出良好适应性。随着开源版本的发布,百度智能云千帆平台正通过技术赋能推动AI在产业界的深度落地。

更多热门内容
工业互联网浪潮涌动 中国电信云网融合赋能工业智能化升级
长期以来,中国电信立足自身优势,坚持以云网融合为核心抓手,在持续夯实工业智能底座、筑牢产业数字化根基的同时,不断加大科技创新力度,通过技术突破与模式创新,为工业企业提供全链条智能化解决方案,有效赋能工业生产全…

2025-09-23

微店24参会华为全联接大会2025,借昇腾之力赋能实体零售智慧升级
本次大会以“跃升行业智能化”为主题,聚焦人工智能技术与产业融合的创新实践,为实体零售行业的数字化转型提供新动能。华为作为全面智能化战略的倡导者和实践者,致力于通过领先的产品与解决方案,携手伙伴共建健康生态。 …

2025-09-23

厘米级精准!360°灵动!哈工程“海龟”水下机器人开启探测新篇
这是哈尔滨工程大学船舶与工程学院王刚教授团队研发的敏捷型水下机器人“海龟”的真实工作场景。王刚团队将目光投向海洋生物,仔细研究了数十种海底动物后,从海龟的推进方式中找到了灵感。 在实海测试中,科研人员在海…

2025-09-23