ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

北大杨仝团队发布FairyR1模型:5%参数量数学和代码能力超越满血DeepSeek

时间:2025-05-26 09:30:51来源:互联网编辑:茹茹

北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。研究探索了在参数量大幅减少的情况下,模型在特定任务上实现与更大模型相当甚至更优性能的可能性。该研究得到了国家自然科学基金委项目(624B2005, 62372009)的资助。FairyR1-32B模型已在huggingface开源:https://huggingface.co/PKU-DS-LAB/FairyR1-32B。

FairyR1-32B模型是在团队前期TinyR1工作基础上进行的进一步探索,沿用了“分合蒸馏”的研究思路,提出了多种改进方法,包括自我合并、多教师交叉蒸馏、轻蒸馏等方法,并在数据处理进行了优化,模型精度有了显著提升。

本次工作重点改进了蒸馏数据的构建流程,对来源于AI-MO/NuminaMath-1.5(数学)和open-thoughts/OpenThoughts-114k(代码)等数据集的原始数据,通过多个“教师模型”生成答案,随后对问答数据进行精心筛选、结构调整与思维链优化,并进行多阶段筛选。筛选过程包括基于答案的正确性验证(针对数学数据),以及基于长度的筛选(数学数据保留2k-8k tokens范围,代码数据保留4k-8k tokens范围),最终构建了更具针对性的约6.6k条数学数据和约3.8k条代码数据用于训练。

在模型结构方面,研究团队尝试训练两个领域(数学和代码)的专业模型进行合并,旨在进一步优化流程和资源消耗。这两个专业模型在一致的训练参数下(例如相同的学习率和批次大小)独立训练约5个周期后,利用AcreeFusion工具进行了合并。在多个公开基准测试中,FairyR1展现出了在低参数量下的竞争力表现。以下为FairyR1与DeepSeek-R1-671B及DeepSeek-R1-Distill-Qwen-32B在部分基准上的得分对比:

从测试结果可以看出,FairyR1-32B在AIME 2025和LiveCodeBench基准上得分略高于DeepSeek-R1-671B,在AIME 2024上表现接近。在GPQA-Diamond科学基准上,FairyR1的得分低于DeepSeek-R1-671B。这些结果表明,FairyR1在采用DeepSeek-R1-Distill-Qwen-32B基座并经过特定技术处理后,能够在约5%参数量的情况下,在数理和编程等领域实现与大型模型相当或略优的性能水平,但在科学等其他领域可能存在差距。这项工作探索了通过优化的数据处理和模型融合技术,在保证特定任务性能的前提下,大幅降低模型规模和潜在推理成本的可能性。

北京大学杨仝教授团队表示:“FairyR1-32B模型是我们探索高效大型语言模型技术路线的阶段性成果。通过对蒸馏和合并方法的改进,我们初步验证了在有限资源下实现高性能模型的可行性。”

团队成员:李旺、周俊廷、刘文睿、姚一伦、王融乐、杨仝

更多热门内容
2025最强折叠手机是哪一款?这款轻薄旗舰遥遥领先
如果说2024年是折叠屏技术的成熟年,那2025就是折叠屏旗舰全面比拼“硬实力”的时代。而在众多新品中,哪一款才配得上“2025最强折叠手机”的称号?答案已经非常明确:荣耀Magic V5凭借全球最薄的机身设计、超大电池续航以及全面均衡的性能表现,稳居行业之巅。2025最强

2025-07-21

三伏克星,智慧恒护!A.O.史密斯“数字真五恒系统”打造清凉无敏堡垒
告别闷热黏腻,远离空调病!三伏天的热浪滚滚而来,高温高湿不仅让人汗流浃背、心烦气躁,更易诱发空调病,甚至加重尘螨、霉菌滋生带来的过敏困扰。紧闭门窗躲清凉?空气沉闷、病菌滋生反而更伤身。如何在酷暑中,为家人筑起一道清凉、洁净、恒久舒适的暑期防线?A.O.史密

2025-07-21

维谛Vertiv收购定制化机柜解决方案制造商
维谛宣布收购定制化机柜解决方案制造商,此次收购将巩固维谛在高密一体化基础设施解决方案的领导地位。作为全球领先的关键数字基础设施及连续性解决方案提供商,维谛(Vertiv,NYSE:VRT)于2025年7月17日宣布,其已达成协议以2亿美元收购Great Lakes Data RacksCabinets

2025-07-21

迎14周年,春雨医生开启“线上直播感恩月”
2025年7月19日,中国移动互联网医疗的开创者春雨医生,迎来了14周岁的生日。14岁的春雨医生,已近成年。巧合的是:春雨医生在诞生之初,恰好迎来了移动互联网时代的发展,并乘势开创了在线问诊、空中诊所、开放平台等如今移动医疗行业的“标配”服务;而14年后的今年,随

2025-07-21

福昕软件"数智枫桥·数治北京"解决方案获评全国智慧检务创新案例
近日,由法制日报社主办的2025政法智能化建设案例及论文征集宣传活动评选结果揭晓。本次共评出智慧治理、智慧法院、智慧检务、智慧警务、智慧司法典型案例各10个、创新案例各20个、创新论文各30篇。福昕软件联合北京市人民检察院研发的“数智枫桥·数治北京”解决方案,

2025-07-21

从700万到800万台仅2个月,九号智能两轮电动车为何能领跑行业?
九号公司最近真的是喜事连连,最近九号公司生产的第800万台九号电动两轮车正式发车,而距离700万台发车仅仅过去了2个月的时间,毫无疑问九号电动车的增长势能领跑整个行业。在此期间,九号公司也正参展第三届链博会,并在“数字科技链条”展区展出多款重磅新品及核心零

2025-07-21

强势通过欧盟能效测试 三星Galaxy Z Flip7|Z Flip7 FE耐用性太出色
随着智能手机市场趋于饱和,消费者的换机周期越来越长。在TechInsights发布的调研报告显示,消费者的换机周期已经从此前的18个月增至51个月。因此,消费者在选择机型时,更加注重其使用寿命。近日,据外媒报道,三星全新推出的Galaxy Z Flip7和Galaxy Z Flip7 FE在续航

2025-07-21

TCL科技以绿色产业链筑牢化学品安全防线,强化绿色制造与合规运营
化学品安全是工业生产中保障人类健康、生态环境与产业可持续发展的重要环节。为确保生产运营合规稳定,TCL科技旗下生产型子公司设立专责部门,负责化学品全流程风险识别与管控,严格执行有害物质管理要求,确保产品在生产、运输、使用、处置等各环节中的安全性。全流程

2025-07-21

扬帆起航,争做行业“小龙” ——2025“直通乌镇”全球互联网大赛火热报名中
自2014年世界互联网大会乌镇峰会启幕以来,这一国际盛会已走入新的十年。“直通乌镇”全球互联网大赛作为乌镇峰会的亮点活动,历经六年深耕,已成为全球互联网领域的重要赛事之一。2025“直通乌镇”全球互联网大赛已全面开放报名,诚邀全球互联网领域项目踊跃参赛,在全

2025-07-21

从尖端技术到无障碍关怀:vivo携多项创新成果亮相联通合作伙伴大会
2025年7月18日,中国联通合作伙伴大会于上海盛大启幕,本次大会以“向实同行 共融新生态”为主题,汇聚全球伙伴共谋智能时代新机遇。vivo作为中国联通核心战略合作伙伴及创新领军企业,以“智领未来,共融新生态”为主题,全面展示其在6G技术、AI个人化智能、无障碍科技

2025-07-21