人工智能领域再迎重要进展,DeepSeek团队近日宣布推出新一代大语言模型DeepSeek-V3.1-Terminus,并同步开源模型代码。这款被命名为"Terminus"(拉丁语意为"终点"或"界限")的模型,在官方技术文档中被描述为现有架构的成熟版本,标志着该技术路线进入稳定阶段。
据官方披露,新模型在保持原有功能的基础上,重点修复了此前版本存在的两个关键缺陷。其一,针对用户反馈的随机异常字符输出问题,团队通过优化模型训练机制,彻底解决了在特定场景下可能出现的"极"、"extreme"等无意义字符重复现象。测试数据显示,在涉及Go语言编程、版本号处理等高危场景中,新模型未再出现异常输出。
另一个被修复的缺陷涉及多语言处理。此前版本在翻译小语种内容时,存在中、英、俄三种语言混用的情况,错误比例最高达5%。新模型通过强化语言边界识别能力,显著提升了翻译准确性。实测表明,在将包含复杂语义的句子翻译为7种小语种时,未出现语言混杂现象。
性能提升方面,基准测试显示新模型在非Agent类任务中实现0.2%-36.5%的性能提升。特别是在人类终极测试(HLE)中,模型展现出更强的专家级知识掌握能力和多模态推理水平。该测试重点考察模型处理高难度知识问题和深度推理的能力,新模型在此环节的表现提升尤为突出。
在智能体能力优化方面,新模型展现出显著进步。编程测试中,模型成功实现了具有物理效果的小球弹跳动画,其模拟的重力、摩擦力等物理特性获得专业人士认可。这项测试不仅要求模型具备扎实的编程基础,更需要其对物理学原理有准确理解。
搜索智能体能力测试显示,新模型在信息交叉验证和整合方面表现优异。当被要求推荐适合新手阳台种植的可食用植物时,模型能够准确筛选出同时满足"生长快速"、"对儿童安全"等条件的植物品种,并主动提示相关种植注意事项。经人工核查,其提供的信息完整且可靠。
目前,DeepSeek官方App、网页端、小程序及API接口均已完成模型升级。开发者可通过HuggingFace和ModelScope平台获取开源代码。技术团队透露,新模型的命名可能暗示着当前技术路线的成熟,但关于"Terminus"的具体寓意,官方尚未给出明确解释。
值得注意的是,此前有海外媒体报道DeepSeek计划在年底前推出Agent模型。随着本次升级的完成,业界普遍关注该团队是否会加速推进更复杂的智能体技术研发。新模型在编程终端和跨模态推理方面的突破,为后续发展奠定了技术基础。