ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

月之暗面联创深夜AMA:回应全球网友23问,杨植麟揭秘Kimi K3重大升级

时间:2026-01-29 09:16:38来源:互联网编辑:快讯

月之暗面核心团队近日在社交媒体平台Reddit上举办了一场长达三小时的有问必答活动,三位联合创始人就模型技术、算力储备和未来规划等关键问题与全球网友展开深入交流。针对Kimi K2.5模型偶尔自称为Claude的现象,CEO杨植麟解释称这是由于预训练阶段对最新编程数据进行了上采样处理,导致模型对"Claude"这个特定词元的响应概率异常升高,实际上K2.5在多项基准测试中已展现出超越Claude的性能表现。

在技术细节方面,团队透露Kimi K2.5通过智能体蜂群技术实现了对100个子智能体的高效调度,任务执行效率提升最高达450%。该模型采用约470:1的参数比例,虽然存在一定程度的计算资源"浪费",但这是为了在模型规模和推理效率之间取得平衡。针对模型幻觉问题,算法负责人吴育昕表示已通过提升数据质量和优化奖励机制进行改善,未来仍需探索更多解决方案。

关于算力储备的尖锐提问,团队坦言GPU数量差距并未缩小,但强调创新往往诞生于资源约束之中。周昕宇指出,可用算力受多种因素影响,公司通过独特的组织文化和技术路线来应对挑战。这种文化体现在对失败研究的包容态度——团队会深入讨论所有实验结果,即使三个月未见明显性能提升也会客观评估是否继续投入。

对于备受期待的Kimi K3,杨植麟透露将在Kimi Linear架构基础上进行多项优化,虽然未承诺具体性能提升倍数,但坚信新模型将带来显著进步。团队正在探索持续学习技术以增强模型自主性,同时保持对线性注意力机制的研究投入。针对模型个性变化的问题,吴育昕承认这是当前面临的棘手挑战,正在努力平衡性能提升与用户个性化需求。

在多模态发展方面,Kimi Code凭借视频输入等独有功能形成差异化优势。团队认为文本和视觉能力的提升可以相互促进,强大的文本基座对视觉性能至关重要。对于在线学习计划,周昕宇表示这是提升Agentic模型自主性的关键方向,相关研究正在积极推进中。虽然目前没有推出原生音频输入模型的计划,但团队会持续关注技术发展趋势。

这场问答活动共回应了40余个问题,涵盖从技术架构到商业策略的多个层面。团队强调始终秉持"把事情真正做成并落地"的价值观,这种理念体现在对基础研究的长期投入和对工程实现的极致追求。通过持续优化训练方法和基础设施,月之暗面正在探索通用人工智能发展的新路径,其技术路线选择和问题解决思路为行业提供了重要参考。

更多热门内容
英伟达开源框架Polar:助力代码智能体训练,SWE-Bench分数显著提升
IT之家注:GRPO 是一种面向强化学习训练的优化方法,会依据奖励信号调整模型策略,让模型在多步决策任务里学会更优动作。论文还把初始化、运行中、后处理拆到独立工作池,并设置 READY 缓冲区,让运行时预…

2026-05-29

Grok Build 0.1编程实战表现亮眼,成本低于竞品获马斯克盛赞
月 29 日消息,AI 编程智能体 IDE 工具 Kilo Code 今天在 X 平台发布系列图文,分享了 Grok Build 0.1实战开发报告,称构建交付服务过程零工具调用失败,且成本低于 GPT-5…

2026-05-29

iOS 27前瞻:苹果重塑Siri,多模态交互与AI网页搜索功能齐升级
苹果公司“彻底重做”Siri,将其从一款语音助手升级为具备多模态交互能力的AI平台。 核心内容包括:重新设计的Siri界面、引入谷歌Gemini技术的全新底层模型、AI驱动的网页搜索功能,以及一款对标Chat…

2026-05-29

Blackwell架构引领新潮,AI大模型密集发布,能力跃迁与商业变革双加速
花旗研究把"首批基于Blackwell架构训练的模型"列为近期AI竞争中最关键的技术催化剂,逻辑很直接:目前所有排在前沿模型榜单上的产品,包括OpenAI GPT-5.5(花旗AI智能指数60)、谷歌Gem…

2026-05-29

亚马逊关停内部AI排行榜“Kirorank”:纠偏形式化倾向,回归技术实用价值
【环球网科技综合报道】5月29日消息,据《金融时报》报道,亚马逊公司宣布关闭内部 AI 评分排行榜 “Kirorank”,针对部分员工为追求排名、过度消耗算力资源的现象及时纠偏,明确倡导人工智能技术回归实用…

2026-05-29

国产AI芯片迎里程碑!9款芯片通过国家安全可靠测评 昇腾等领衔
2026年5月26日,中国信息安全测评中心与国家保密科技测评中心联合发布《安全可靠测评结果公告(2026年第2号)》,首次将人工智能训练推理芯片纳入安全可靠测评体系。 随着大模型和AI应用在政务、国防、金融…

2026-05-29

解锁教育新玩法!这些互联网新词带你领略学习新体验
指的是教学从来不止局限于方寸教室,走出课堂、奔赴户外,在广阔天地间开展社会实践。对于课堂而言,教师应该保留一些“无目的时间”“无标准答案的问题”以及“无考核压力的角落”,让漫风草思维自然发生。晨读不再是任务…

2026-05-29

Grok Build 0.1 编程实战表现出色,成本低于竞品获马斯克盛赞“物超所值”
月 29 日消息,AI 编程智能体 IDE 工具 Kilo Code 今天在 X 平台发布系列图文,分享了 Grok Build 0.1实战开发报告,称构建交付服务过程零工具调用失败,且成本低于 GPT-5…

2026-05-29

马斯克SpaceX弃JAX选C语言新堆栈 大模型训练提速 硬件算力同步扩张
马斯克还透露,SpaceX正在与其他公司洽谈类似的算力租赁合作,轨道数据中心也在规划中。 更关键的是,和A社抢算力的竞争者恰恰是老马自家人,Grok系列需要训练,Tesla的自动驾驶业务对算力的胃口也在快速…

2026-05-29

Anthropic估值达9650亿美元超OpenAI,数周内将推新型AI模型
据日本共同社5月29日报道,美国人工智能企业Anthropic于28日宣布,其企业估值已达到9650亿美元(约154万亿日元),实现对OpenAI的超越,反映全球高性能AI普及推动的爆发式增长。 公司同时表…

2026-05-29