ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

武汉大学团队新突破:MAPO让AI训练学会“因材施教”,提升效果显著

时间:2025-10-15 03:37:50来源:互联网编辑:快讯

人工智能训练领域迎来一项突破性进展。由武汉大学、国防科技大学、南洋理工大学及AGH科拉科夫大学学者组成的跨学科团队,联合字节跳动公司研发出新型训练框架MAPO(混合优势策略优化),有效解决了大型语言模型推理训练中的评分偏差难题。相关研究成果已发表于arXiv预印本平台(论文编号:arXiv:2509.18849v3)。

研究团队发现,当前主流的GRPO(组相对策略优化)训练方法存在根本性缺陷。该技术通过比较多个解题思路的优劣来指导模型学习,但采用"一刀切"的评分标准——无论题目难易,均使用相同的评价体系。这种模式导致两个典型问题:一是"优势反转"现象,即简单题目的偶然错误被过度惩罚;二是"优势镜像"现象,本质不同的问题(如全员正确与全员错误)获得对称评分。

针对上述缺陷,MAPO框架创新性引入"轨迹确定性"评估机制。该指标通过分析模型多次尝试的表现稳定性,将问题划分为高确定性(简单或极难)和低确定性(能力边界)两类。对于高确定性问题,系统采用"优势百分比偏差"评分法,重点考察答案质量相对于群体水平的比例关系;对于低确定性问题,则延续传统标准化评分。

技术实现层面,MAPO构建了动态权重调节系统。当模型在特定问题上的正确率接近50%时,系统自动增强传统评分方法的权重;当正确率趋近0%或100%时,则优先采用百分比偏差法。这种自适应机制通过数学公式精确控制两种评分方式的混合比例,确保评价标准始终与问题难度相匹配。

实验验证环节,研究团队选用Qwen2.5-VL-7B多模态大语言模型,在几何推理和情感识别两个不同领域展开测试。几何任务要求模型分析图形计算答案,情感任务则需判断图像中的情绪类别。结果显示,MAPO训练使几何任务准确率从51.91%提升至54.41%,情感任务准确率从77.20%提升至77.86%。更重要的是,新方法显著增强了模型处理未知问题的泛化能力。

理论分析表明,MAPO的评分权重分配符合认知科学规律。该方法自动为困难问题分配更高学习权重,为简单问题分配较低权重,这种"难者重教,易者轻训"的策略与人类教育中的因材施教原则高度契合。数学推导证实,该框架在收敛性和稳定性方面具有显著优势。

这项创新具有双重价值:技术层面,MAPO无需改造现有模型架构或增加计算资源,可无缝集成至现有训练流程;理念层面,其"自适应学习"思想为AI发展开辟新路径。研究团队在数学和情感两个完全不同领域的成功验证,证明该方法具有广泛适用性。

值得注意的是,MAPO的设计理念折射出人工智能向人类学习模式的演进趋势。人类在学习过程中会自然根据任务难度调整策略,而MAPO首次使AI系统具备这种动态调节能力。不过研究也指出,当前成果主要基于中小规模实验,未来需在更大模型和数据集上验证;同时,轨迹确定性判断机制和跨领域扩展性仍有优化空间。

更多热门内容
武山县第三届中小学生数字盛宴:创客编程与AI机器人大赛火热开赛
李峰在致辞中指出,近年来,武山县科技教育工作始终围绕“启迪青少年科学心智,增强创新思维能力,提升科学素养”的宗旨,立足“全面育人”理念,大力实施科研兴教行动,积极构建高效课堂。目前,全县已建成智慧教室2间、…

2025-10-15

滴普科技通过港交所聆讯,冲刺港股“企业级大模型AI应用第一股”,上半年营收增亏减
瑞财经吴文婷10月12日,滴普科技股份有限公司(以下简称“滴普科技”)通过港交所上市聆讯,中信证券、民银资本、国泰君安国际、浦银国际与交银国际担任联席保荐人。 这意味着,滴普科技有望成为港股市场“企业级大…

2025-10-15

端侧大模型落地:挑战重重,未来端云协同将如何破局前行?
跑的快:端侧 AI 的核心价值在于隐私保护和低时延,在大模型场景,为了在端侧为开发者提供快速的大模型响应体验,我 们 CANN提供的亲和量化算法提供了混合 bit 量化能力可以充分利用好 NPU 的算力…

2025-10-15

OpenAI与英伟达、AMD合作后再携手博通,共探定制AI加速器新路径
OpenAI和他们合作的10吉瓦定制AI加速器,将由OpenAI设计加速器和系统,两家公司则会在开发和部署上进行合作。 1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此…

2025-10-15

OpenAI密集布局算力领域,牵手英伟达、AMD、博通共筑26吉瓦算力蓝图
作为全球领先的人工智能企业,OpenAI近期在不到一个月的时间内,连续披露了三项规模空前的硬件合作:与博通(Broadcom)共同研发10吉瓦定制AI加速器;与英伟达(NVIDIA)签署最高1000亿美元的…

2025-10-15