百度飞桨团队近期推出了PaddleOCR的最新版本——3.0版,并将其面向公众开源。此次更新标志着PaddleOCR在文字识别技术上的又一次重大飞跃,特别是在识别精度、多语言支持、手写体辨识以及复杂文档解析方面,均实现了显著提升。
自诞生以来,PaddleOCR凭借其前沿的学术算法与实际产业应用的紧密结合,赢得了学术界、产业界及研究机构的广泛青睐,并已成功融入众多知名开源项目中。新版本PaddleOCR3.0与飞桨框架3.0正式版完美兼容,不仅大幅提升了文字识别的准确性,还新增了对多种文字类型及手写体的识别能力,完美契合了大模型应用对高精度文档解析的严苛需求。
尤为PaddleOCR3.0引入了全场景文字识别模型PP-OCRv5,该模型能够在一套体系下精准识别简体中文、繁体中文、中文拼音、英文、日文五种文字,以及手写体、竖排文本、拼音标注、生僻字等特殊文本场景。与上一代模型相比,PP-OCRv5的整体识别精度跃升了13个百分点,引领行业潮流。通过统一模型架构,PP-OCRv5简化了部署流程,实现了识别速度与精度的双重提升。
在文档解析领域,PaddleOCR3.0推出了升级版的通用文档解析方案PP-StructureV3。该方案在版面区域检测、表格识别、公式识别等方面能力显著增强,同时新增了图表理解功能,并能恢复多栏阅读的原始顺序,输出格式包括Markdown和JSON。在OmniDocBench基准测试中,PP-StructureV3力压众多开源及闭源方案,展现了其在多场景、多版式PDF文档高精度解析方面的卓越实力。
PaddleOCR3.0还带来了智能文档理解方案PP-ChatOCRv4,该方案与文心大模型4.5Turbo深度融合,关键信息抽取精度较上一代提高了15个百分点。PP-ChatOCRv4巧妙融合了大模型与小模型的优势,支持离线使用多模态文档理解模型PP-DocBee2,能够一站式解决版面分析、生僻字识别、多页PDF处理、表格解析、印章识别等复杂文档信息抽取难题。
PaddleOCR3.0的发布,彰显了百度在OCR技术领域的持续创新能力,同时也为广大开发者提供了功能更为强大、操作更为便捷的工具,助力他们加速推进AI应用的落地实施。感兴趣的开发者可以访问PaddleOCR的开源地址,获取更多详细信息。
开源地址:https://github.com/PaddlePaddle/PaddleOCR