百度开源PaddleOCR-VL模型：以轻量化设计实现多模态文档解析全球领先-业界动态-ITBear科技资讯

百度自主研发的多模态文档解析模型PaddleOCR-VL近日正式开源，该模型在全球权威评测OmniBenchDoc V1.5中以92.6分综合成绩登顶榜首，在文本解析、表格结构还原、公式识别和阅读顺序预测四大核心指标上均展现出领先优势。这一成果标志着我国在智能文档处理领域实现了关键技术突破。

作为文心4.5大模型的衍生应用，PaddleOCR-VL-0.9B通过创新融合NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型，在保持0.9B参数量的轻量化设计下，实现了精度与效率的双重优化。实测数据显示，该模型在A100GPU上每秒可处理1881个Token，较主流模型MinerU2.5提升14.2%，较dots.ocr模型提速达253.01%，推理性能达到行业新高度。

在核心指标方面，该模型在OmniDocBench v1.5评测中交出亮眼成绩单：文本编辑距离低至0.035，公式识别的CDM指标达91.43，表格结构还原的TEDS评分高达93.52，阅读顺序预测误差值仅0.043。这些数据充分验证了其在处理复杂版面、手写文档及历史档案等高难度场景时的稳定性，尤其擅长识别混合了印刷体、手写体、数学符号的多模态文档。

该模型支持109种语言的文档解析，覆盖中文、英语、法语、日语、俄语、阿拉伯语及西班牙语等主流语言场景。其独特的两阶段处理架构——首阶段进行版面区域检测与阅读顺序预测，次阶段完成元素识别与结构化输出——使模型能够像人类一样理解文档版式逻辑，自动还原符合认知习惯的信息排列顺序。这种设计显著提升了复杂文档的处理效率，在财务报表解析、科研文献信息抽取、档案数字化等场景中具有显著优势。

实际应用测试表明，PaddleOCR-VL可精准识别包含文本、手写汉字、表格、公式及图表的复合型文档，在政企文档管理、知识图谱构建、教育领域笔记整理等场景中表现突出。其轻量化特性使得模型在边缘计算设备上也能高效运行，为移动端文档处理提供了新的技术路径。