Andrej Karpathy评DeepSeek-OCR：图像输入或为大语言模型输入方式开辟新路径-业界动态-ITBear科技资讯

卡帕西从信息密度、表达维度和注意力机制三个层面展开论证。他指出，将文本渲染为图像后，单个视觉块可承载多个字符信息，而传统分词方式需为每个字符或子词分配独立token。在处理长文档时，这种压缩机制能显著降低计算资源消耗。以视觉编码器处理为例，Vision Transformer架构已证明其高效性，而DeepSeek-OCR的实践更验证了视觉到文本转换的高精度。

在信息表达层面，图像输入天然包含字体、颜色、布局等视觉元素，这些格式信息在纯文本中需依赖Markdown等标记语言实现，既增加token数量又损失自然性。卡帕西特别提到，双向注意力机制在图像处理中的运用，使模型能同时捕捉上下文信息，突破自回归文本生成中因果注意力的局限，从而提升理解深度。

针对传统分词器的弊端，卡帕西直言其"历史遗留问题"。他举例说明，相同视觉字符因Unicode编码差异可能被映射为不同token，导致模型对相似输入产生不同响应。若直接处理图像，可消除这种非端到端架构带来的复杂性，使系统更加简洁统一。

尽管技术可行性已获验证，卡帕西也指出实践中的不对称性：用户输入可转为图像形式，但模型输出仍需保持文本形态，因当前图像生成技术尚未完全解决逼真度问题。这意味着模型架构需同时支持视觉理解与文本生成能力，无法彻底摒弃传统处理方式。

这场讨论延伸至效率、统一性与生态兼容性等多个维度。支持者认为，图像输入可统一文档理解、OCR、多模态问答等任务，简化模型设计；反对者则担忧计算成本增加——虽然信息密度提升，但图像编码本身的算力消耗可能抵消部分收益。纯文本的可编辑性与现有工具链的兼容性问题，也成为完全转向图像输入的主要障碍。

DeepSeek-OCR论文的走红，恰逢OCR技术从字符识别向文档理解演进的关键期。当视觉模型能准确解析复杂格式文本时，将所有文本任务视为"视觉理解"任务在概念上成立。卡帕西以半开玩笑的方式提到抑制开发纯图像输入聊天机器人的冲动，既表达对技术前景的期待，也暗示实际落地需克服多重挑战。

产业界更倾向渐进式过渡方案。混合输入模式被视为更现实的选择：在需要保留视觉格式的场景使用图像输入，在需要灵活编辑的场景沿用文本输入。这种策略既能利用图像的高密度优势，又可维持文本处理的便利性。

卡帕西的论断挑战了文本token作为语言模型标准输入的固有认知，为优化模型输入表示提供了新视角。尽管完全实现尚需时日，但这一讨论已推动学界重新思考信息处理的本质，可能催生更高效、统一的AI架构。