日本东北大学推出Sumi模型：可反复修改文字的AI写作新探索-信息流-ITBear科技资讯

日本东北大学自然语言处理实验室近日宣布，其主导研发的新型语言模型Sumi正式发布预印本论文，编号为arXiv:2606.19005。该模型突破传统自回归架构，采用"均匀扩散"技术路线，允许在生成过程中任意修改已生成的文本内容。这项研究在1.5万亿词规模的数据集上完成70亿参数模型的训练，相关代码、权重和训练细节已全部公开。

与传统自回归模型"单向生成"的特性不同，Sumi的运作机制更接近画家创作过程。模型首先在虚拟画布上随机填充词语，随后通过多轮迭代逐步优化文本内容。每个词语位置都保持可编辑状态，这种设计理论上赋予模型自我纠错能力。研究团队将其命名为"均匀扩散语言模型"，强调其与现有掩码扩散模型在修改机制上的本质差异——后者仅允许填充预设的空白位置。

训练数据构建体现显著创新性。研究团队设计两阶段筛选机制：预训练阶段使用1.3万亿词互联网文本，通过教育价值评估系统过滤低质量内容，保留学术文献、数学证明和代码等高价值数据；中期训练阶段强化特定领域能力，代码占比提升至32.5%，数学内容达29.7%，并扩展文本处理长度至4864词。这种数据配方使模型在编程和学科知识测试中表现突出，Humaneval编程测试得分22.6，MMLU综合知识测试得分51.1，均领先同规模自回归模型。

基准测试暴露模型明显短板。在常识推理测试中，Sumi在PIQA物理常识测试仅得66.4分，显著低于Falcon-7B的80.5分。研究团队分析认为，这与训练数据筛选策略直接相关——日常对话类文本因教育价值评分较低被大量剔除。这种"精英化"训练策略虽提升专业领域表现，却导致模型缺乏生活常识积累，形成类似"高分低能"的特殊现象。

生成机制实验揭示关键发现。研究团队通过控制变量法观察模型行为：当画布长度低于1024词时，数学题生成质量显著下降；采用信心采样策略时，模型自发形成任务特定的生成顺序；编程任务可承受每步4词并行处理，而数学题超过1词并行即导致逻辑断裂。最引人注目的是自我纠错实验，尽管模型在修改阶段改动比例达100%，但99%的修改属于无效摆动，最终答案准确率未获提升。

完全开源成为重要里程碑。研究团队同步公开模型权重、训练代码和中间检查点，详细记录数据获取与筛选流程。这种开放程度在扩散语言模型领域尚属首次，为学术界提供可复现的研究范式。实验室特别声明，该模型未进行安全对齐训练，可能生成有害内容，建议仅用于研究目的。目前团队正开发指令微调版本，并探索错误检测机制以激活模型的自我纠错潜力。

这项研究为语言模型架构创新提供新思路。均匀扩散技术路线突破传统生成范式，其可修改特性在代码生成、数学推理等需要迭代优化的场景具有潜在优势。尽管当前版本在常识理解和有效纠错方面存在局限，但完全开源的策略将加速相关技术演进，推动整个研究社区探索语言模型的新可能性。