ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Predibase发布端到端强化微调平台,开启AI大模型训练新篇章

时间:2025-03-20 13:25:18来源:ITBEAR编辑:快讯团队

近日,Predibase平台宣布了一项重大创新,正式推出了业内首个端到端的强化微调平台(RFT),这一消息迅速在AI领域引起了广泛关注。

Predibase强调,DeepSeek-R1的开源项目不仅揭示了强化学习微调在大模型训练中的关键作用,更为他们开发RFT平台提供了灵感。该平台旨在简化并优化大模型的微调过程。

与传统的监督式微调方法相比,RFT平台摒弃了对大量标注数据的依赖,转而采用奖励机制和自定义函数来驱动持续的强化学习。这一平台集成了无服务器和端到端的训练方法,使得从数据管理、模型训练到应用部署的全过程都可以在单一平台上无缝完成。用户只需通过浏览器界面设定微调目标并上传数据,即可轻松完成以往繁琐复杂的大模型微调任务。

为了直观展示RFT平台的强大功能,Predibase团队利用阿里开源的Qwen2.5-Coder-32B-instruct模型,微调出了一个专门用于将PyTorch代码转换为Triton格式的模型——Predibase-T2T-32B-RFT。这一成果进一步证明了RFT平台在优化模型行为和提高下游任务质量方面的显著优势。

Predibase-T2T-32B-RFT模型通过RFT平台以交互方式调整行为,仅需极少的标记数据即可实现任务优化。这一特性使其成为了专有大型语言模型(LLM)的高性价比、高性能替代方案。在训练过程中,RFT结合了冷启动监督式微调、强化学习和课程学习等多种策略,即便是在标记数据点有限的情况下(仅使用了十几个标记数据点),也能取得令人瞩目的成果。

在Kernelbench数据集上的基准测试结果显示,经过强化学习的Qwen2.5-Coder-32B-instruct模型在正确率方面表现优异,较DeepSeek-R1和OpenAI的o1模型高出3倍,更是远超Claude 3.7 Sonnet模型4倍以上。值得注意的是,尽管Predibase的模型在体量上远小于这三者,但其性能却毫不逊色。

对于感兴趣的开发者和研究人员而言,Predibase已经将Predibase-T2T-32B-RFT模型开源,并提供了在线体验平台,以便更多人能够亲身感受RFT平台的强大功能。

开源地址:https://huggingface.co/predibase/Predibase-T2T-32B-RFT

在线体验地址:https://predibase.com/reinforcement-fine-tuning-playground

更多热门内容
中证人工智能指数微涨,科大讯飞等领衔前十大权重股
金融界7月14日消息,A股三大指数收盘涨跌不一,中证人工智能主题指数(CS人工智,930713)上涨0.05%,报3314.95点,成交额483.82亿元。 数据统计显示,中证人工智能主题指数近一个月上涨3…

2025-07-15

科大讯飞融资热度不减,近三日获融资买入3.59亿元
7月14日,沪深两融数据显示,科大讯飞获融资买入额0.88亿元,居两市第230位,当日融资偿还额0.95亿元,净卖出702.46万元。 最近三个交易日,10日-14日,科大讯飞分别获融资买入0.66亿元、2.…

2025-07-15