ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

百度开源PaddleOCR-VL模型:以轻量化设计实现多模态文档解析全球领先

时间:2025-10-17 20:56:35来源:互联网编辑:快讯

百度自主研发的多模态文档解析模型PaddleOCR-VL近日正式开源,该模型在全球权威评测OmniBenchDoc V1.5中以92.6分综合成绩登顶榜首,在文本解析、表格结构还原、公式识别和阅读顺序预测四大核心指标上均展现出领先优势。这一成果标志着我国在智能文档处理领域实现了关键技术突破。

作为文心4.5大模型的衍生应用,PaddleOCR-VL-0.9B通过创新融合NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,在保持0.9B参数量的轻量化设计下,实现了精度与效率的双重优化。实测数据显示,该模型在A100GPU上每秒可处理1881个Token,较主流模型MinerU2.5提升14.2%,较dots.ocr模型提速达253.01%,推理性能达到行业新高度。

在核心指标方面,该模型在OmniDocBench v1.5评测中交出亮眼成绩单:文本编辑距离低至0.035,公式识别的CDM指标达91.43,表格结构还原的TEDS评分高达93.52,阅读顺序预测误差值仅0.043。这些数据充分验证了其在处理复杂版面、手写文档及历史档案等高难度场景时的稳定性,尤其擅长识别混合了印刷体、手写体、数学符号的多模态文档。

该模型支持109种语言的文档解析,覆盖中文、英语、法语、日语、俄语、阿拉伯语及西班牙语等主流语言场景。其独特的两阶段处理架构——首阶段进行版面区域检测与阅读顺序预测,次阶段完成元素识别与结构化输出——使模型能够像人类一样理解文档版式逻辑,自动还原符合认知习惯的信息排列顺序。这种设计显著提升了复杂文档的处理效率,在财务报表解析、科研文献信息抽取、档案数字化等场景中具有显著优势。

实际应用测试表明,PaddleOCR-VL可精准识别包含文本、手写汉字、表格、公式及图表的复合型文档,在政企文档管理、知识图谱构建、教育领域笔记整理等场景中表现突出。其轻量化特性使得模型在边缘计算设备上也能高效运行,为移动端文档处理提供了新的技术路径。

更多热门内容
文心4.5衍生模型PaddleOCR-VL登顶HF Trending全球榜首
10月17日消息,HuggingFace官网显示,百度昨晚发布的自研多模态文档解析模型PaddleOCR-VL,发布20小时内即登顶HuggingFace Trending全球第一。据了解,该模型核心参数仅0.9B,轻量高效,能以极低计算开销精准识别文本、手写汉字、表格、公式、图表等复杂元素,支持109种

2025-10-17