ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

百度“无限OCR”突破:AI像人类抄书般高效,长文档处理一键搞定

时间:2026-06-26 04:24:31来源:互联网编辑:快讯

百度研究团队近日在计算机视觉领域取得重要进展,其开发的“无限OCR”系统突破了传统光学字符识别技术在处理长文档时的性能瓶颈。该系统通过创新设计的“参考滑动窗口注意力”机制,实现了处理速度与输出长度无关的突破性表现,相关论文已发布于预印本平台arXiv,代码和模型权重同步开源。

传统OCR系统在处理长文档时面临双重困境:全注意力机制需要保存所有历史输出作为参考,导致内存占用随文本长度线性增长;线性注意力机制虽能控制内存,但会逐步模糊原始图像信息。百度团队提出的R-SWA机制巧妙解决了这对矛盾——系统始终完整保留原始图像的视觉编码,同时仅对最近生成的128个字符建立滑动窗口参考。这种设计使内存占用恒定在图像编码与固定窗口大小之和,彻底消除了输出长度对处理速度的影响。

技术实现的关键在于深度编码器与MoE架构的协同创新。研究团队沿用并优化了DeepSeek OCR的深度编码器,通过融合SAM-ViT的局部细节捕捉能力与CLIP-ViT的全局语义理解能力,将1024×1024分辨率的文档图像压缩为256个视觉词元,压缩率达16倍且信息损失极小。后端采用30亿参数的MoE语言模型,实际运算时仅激活约5亿参数,在保证识别精度的同时大幅降低计算开销。整个系统的注意力层全部替换为R-SWA机制,确保解码过程始终维持恒定内存占用。

在OmniDocBench基准测试中,新系统展现出显著优势。对比基线模型DeepSeek OCR,其综合识别准确率从87.01%提升至93.23%,文字编辑距离降低47.9%,公式识别准确率提高11.1%。特别在长文档处理场景下,系统在512路并发测试中达到每秒5580词元的处理速度,较传统模型提升12.7%。当输出长度扩展至6144词元时,速度优势扩大至35%,且未出现传统模型因KV缓存扩容导致的性能骤降现象。

多页文档专项测试验证了系统的实际处理能力。在包含20页学术论文的测试集中,文字编辑距离维持在0.087,生成文本的35字组合独特性达98.2%;处理40页小说时,虽然小字体识别误差有所上升,但Distinct-35指标仍保持96.9%,未出现长序列常见的重复输出问题。研究团队指出,当前性能瓶颈主要来自图像分辨率限制,而非注意力机制设计缺陷。

该技术的突破性不仅体现在性能指标上,更在于其设计理念对传统AI架构的革新。R-SWA机制通过分离原始信息与生成内容的更新机制,为需要长序列建模的任务提供了新范式。研究团队已验证该机制在表格结构提取、阅读顺序预测等复杂文档解析任务中的普适性,并计划将其扩展至自动语音识别、机器翻译等领域。

目前,研究团队正着手开发支持128K上下文长度的升级版本,通过构建“前缀池”机制实现真正意义上的无限文档处理。这项技术有望重塑文档数字化工作流程,使整本书籍扫描、多页合同转换等场景实现真正的“一键处理”。完整技术细节可通过arXiv编号2606.23050查阅,代码与模型权重已在GitHub平台开放下载。

更多热门内容
一月三发!TJS-26A入轨,通信技术试验卫星与星链价值逻辑大不同
首先,这次发射的通信技术试验卫星二十六号A星,本身并不是普通意义上的通信载荷,它除了承担通信、广播电视和数据传输等任务之外,更重要的是进行一系列技术验证与试验探索,由中国航天科技集团八院抓总研制,其定位与低轨…

2026-06-26

中国为何执着登月?四大关键因素意义重大,太空竞速不容有失
说句不夸张的话,能不能登上月球、能不能在月球站稳脚跟,关乎的是中华民族未来几十年甚至上百年的国运。五院的青年们深度参与了我国载人航天工程首次应急发射任务,在一线岗位上承担起应急处置、流程把控、多系统联调等重要…

2026-06-26

深信服MSCI ESG评级稳居A级,在A股软件行业16家公司中排名第4,治理评分亮眼
同行业对比来看,A股上市公司中,按照GICS三级软件行业,16家公司获得MSCI ESG评级,深信服位居第4名。 机构持仓方面,截止2026年3月31日,深信服十大流通股东中,香港中央结算有限公司位居第三大…

2026-06-26