ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

日本东北大学推出Sumi模型:可反复修改文字的AI写作新探索

时间:2026-06-23 01:55:11来源:互联网编辑:快讯

日本东北大学自然语言处理实验室近日宣布,其主导研发的新型语言模型Sumi正式发布预印本论文,编号为arXiv:2606.19005。该模型突破传统自回归架构,采用"均匀扩散"技术路线,允许在生成过程中任意修改已生成的文本内容。这项研究在1.5万亿词规模的数据集上完成70亿参数模型的训练,相关代码、权重和训练细节已全部公开。

与传统自回归模型"单向生成"的特性不同,Sumi的运作机制更接近画家创作过程。模型首先在虚拟画布上随机填充词语,随后通过多轮迭代逐步优化文本内容。每个词语位置都保持可编辑状态,这种设计理论上赋予模型自我纠错能力。研究团队将其命名为"均匀扩散语言模型",强调其与现有掩码扩散模型在修改机制上的本质差异——后者仅允许填充预设的空白位置。

训练数据构建体现显著创新性。研究团队设计两阶段筛选机制:预训练阶段使用1.3万亿词互联网文本,通过教育价值评估系统过滤低质量内容,保留学术文献、数学证明和代码等高价值数据;中期训练阶段强化特定领域能力,代码占比提升至32.5%,数学内容达29.7%,并扩展文本处理长度至4864词。这种数据配方使模型在编程和学科知识测试中表现突出,Humaneval编程测试得分22.6,MMLU综合知识测试得分51.1,均领先同规模自回归模型。

基准测试暴露模型明显短板。在常识推理测试中,Sumi在PIQA物理常识测试仅得66.4分,显著低于Falcon-7B的80.5分。研究团队分析认为,这与训练数据筛选策略直接相关——日常对话类文本因教育价值评分较低被大量剔除。这种"精英化"训练策略虽提升专业领域表现,却导致模型缺乏生活常识积累,形成类似"高分低能"的特殊现象。

生成机制实验揭示关键发现。研究团队通过控制变量法观察模型行为:当画布长度低于1024词时,数学题生成质量显著下降;采用信心采样策略时,模型自发形成任务特定的生成顺序;编程任务可承受每步4词并行处理,而数学题超过1词并行即导致逻辑断裂。最引人注目的是自我纠错实验,尽管模型在修改阶段改动比例达100%,但99%的修改属于无效摆动,最终答案准确率未获提升。

完全开源成为重要里程碑。研究团队同步公开模型权重、训练代码和中间检查点,详细记录数据获取与筛选流程。这种开放程度在扩散语言模型领域尚属首次,为学术界提供可复现的研究范式。实验室特别声明,该模型未进行安全对齐训练,可能生成有害内容,建议仅用于研究目的。目前团队正开发指令微调版本,并探索错误检测机制以激活模型的自我纠错潜力。

这项研究为语言模型架构创新提供新思路。均匀扩散技术路线突破传统生成范式,其可修改特性在代码生成、数学推理等需要迭代优化的场景具有潜在优势。尽管当前版本在常识理解和有效纠错方面存在局限,但完全开源的策略将加速相关技术演进,推动整个研究社区探索语言模型的新可能性。

更多热门内容