在自然语言处理领域的顶级盛会——第63届国际计算语言学年会(ACL)上,九章云极DataCanvas公司凭借其在人工智能领域的深厚积累与创新探索,成功收获了两项重要学术认可。ACL 2025的论文收录结果揭晓,九章云极的两篇研究论文脱颖而出,分别被ACL主会场及Findings板块接纳。
其中,九章云极科研团队独立完成的论文《语言模型能否成为类比标注专家?》深入探讨了语言模型在类比推理任务中的潜力与局限,为突破机器在类比认知上的难题提供了新视角。该论文被ACL的Findings板块收录,彰显了九章云极在理论探索与技术实践上的双重实力。
与此同时,九章云极与中国人民大学AI Box研究团队携手打造的论文《YuLan-Mini:探索开源数据高效语言模型的极限》同样备受瞩目,被ACL 2025主会场接纳。该论文聚焦于大型语言模型预训练中的瓶颈问题,成功预训练出高性能的开源基座模型YuLan-Mini,为资源受限场景下的模型应用开辟了新路径。
ACL作为自然语言处理领域的顶级学术会议,其论文收录标准极为严苛,需经过多轮“双盲评审”与领域专家的精心筛选,接收率常年维持在低水平。今年,ACL共收到超过8000篇投稿,竞争异常激烈。九章云极的两篇论文能在如此高水准的学术竞争中脱颖而出,无疑是对其科研实力与创新能力的有力证明。
值得注意的是,九章云极DataCanvas在产学研用方面的深度融合也是其成功的关键。被ACL Findings收录的论文整合了九章云极在工业级大模型训练中的实战经验,而与高校联合创新的YuLan-Mini模型则体现了产学研用的紧密合作。这种协同创新的模式不仅推动了AI技术的快速发展,也为产业融合注入了新的活力。
在《语言模型能否成为类比标注专家?》一文中,九章云极团队通过实证研究揭示了当前语言模型在类比推理任务中的局限性,并创新性地将认知心理学中的结构映射理论(SMT)引入其中,提出了多阶段渐进式类比推理框架A3E。实验结果显示,该框架使大语言模型的类比标注准确率达到了人类专家水平,为突破类比推理的机器认知瓶颈提供了切实可行的技术路径。
而在《YuLan-Mini:探索开源数据高效语言模型的极限》一文中,九章云极团队针对大型语言模型预训练中的关键瓶颈进行了深入探索,成功预训练出高性能的开源基座模型YuLan-Mini。该模型在训练稳定性、数据流程优化以及全栈开源实践等方面均实现了创新突破,为开源社区进行大模型研究提供了宝贵的经验与技术路径。
YuLan-Mini模型不仅在训练效率上表现出色,还在性能上达到了商用小模型的水平。这一成果为资源受限场景下的模型部署提供了新的解决方案,同时也为开源大语言模型的发展注入了新的动力。
九章云极DataCanvas在Transformer架构的训练稳定性问题上也取得了重要进展。团队深入研究了隐藏状态爆炸和RMSNorm表示坍塌等关键因素,并提出了创新性的解决方案,有效缓解了训练不稳定性问题。在数据优化方面,团队构建了一套精细的数据处理流程,创新性融合了数据合成、数据课程与数据筛选等机制,进一步提升了模型的性能。
此次ACL 2025的两项学术认可不仅是对九章云极DataCanvas在AI研究领域前沿实力的肯定,更是对公司产学研用协同模式有效性的验证。九章云极将继续聚焦人工智能领域的核心技术问题,持续进行攻关与创新突破,为全球自然语言处理领域的发展贡献更多中国智慧与中国方案。