ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AI大牛卡帕西开源nanochat:百元成本4小时训练,12小时性能超GPT-2

时间:2025-10-14 14:24:12来源:快讯编辑:快讯

不同于卡帕西早期开发的纯预训练模型nanoGPT,此次发布的nanochat构建了完整的全栈训练-推理流程。项目通过精简代码库(仅8304行代码),整合了从数据预处理到强化学习的全流程,其架构设计融合了meta Llama的简化结构与modded-nanoGPT的改进方案。开发者只需启动云GPU实例并运行单个脚本,最快4小时即可完成基础模型训练。

实验数据显示,该系统在成本控制方面表现突出。卡帕西透露,完成指令微调(SFT)阶段的训练仅耗时3小时51分钟,总成本92.4美元(约合人民币657.4元)。当训练时长延长至12小时,模型在CORE评估指标上的表现已超越GPT-2;若投入提升至1000美元(约合人民币7114.7元)进行41.6小时训练,系统可解决基础数学与编程问题,并通过选择题测试。

技术实现层面,项目包含七大核心功能:采用Rust语言重写的训练分词器、基于FineWeb数据集的预训练机制、多阶段中期训练(含用户对话数据与工具使用数据)、指令微调与多基准评估、可选的GRPO强化学习算法、带KV缓存的高效推理引擎,以及自动生成的Markdown评估报告。其中,推理引擎支持Python解释器工具调用,可通过命令行或网页界面交互。

性能测试表明,深度为30的模型训练24小时后(计算量相当于GPT-3的千分之一),在MMLU语言理解基准取得超40分,ARC-Easy常识推理突破70分,GSM8K数学测试达20分以上。卡帕西展示的对话案例显示,基础版系统已具备撰写诗歌、回答常识问题的能力。

开源社区对该项目反应热烈。网友不仅称赞其"极具启发性",更有人制作出可交互的实时代码图谱,帮助开发者直观探索代码结构。有评论指出,这种高效开发模式为AI技术普及开辟了新路径——在适当架构设计下,百美元级成本实现基础对话功能已成为技术现实。

尽管当前版本与商用大模型存在性能差距,但其展现的性价比优势已引发行业关注。随着开源社区持续优化,这种轻量化开发模式或将在教育、客服等场景催生新的应用可能。

更多热门内容
IBM与Anthropic携手:Claude大语言模型融入软件,加速企业级AI开发
(全球TMT2025年10月13日讯)10月7日,在TechXchange 2025期间,IBM与Anthropic宣布达成战略合作:IBM将Anthropic旗下的Claude大语言模型系列融入IBM软件产…

2025-10-14

AI赋能电商新篇章:技术演进下的智能工具与商业增长实践
AI电商工具是指利用人工智能技术优化电子商务运营的软件平台,旨在通过自动化、数据分析和智能决策帮助商家提升效率、增加销售额。机器学习用于预测销售趋势和用户行为,实现个性化推荐;自然语言处理赋能智能客服和内容生…

2025-10-14

OpenAI携手博通2026年推定制AI芯片,多元化算力布局下博通市值再攀升
此次与OpenAI合作,是博通在AI领域的又一重大布局。今年9月,英伟达与OpenAI宣布合作,OpenAI将建成并部署至少10吉瓦的AI数据中心,配备数百万块英伟达GPU,用于构建下一代AI基础设施。受此…

2025-10-14

AI驱动智慧调度:武汉公交集团项目入选省级名单,赋能出行新体验
极目新闻记者 黄永进 通讯员 方中智近日,湖北省经济和信息化厅公布2025年人工智能典型应用场景认定名单,武汉公交集团“基于AI的智能公交调度系统研究与示范应用”项目成功入选。 该项目聚焦“人-车-线”全要…

2025-10-14

三星电子2025年三季业绩预喜,AI助力存储芯片涨价促利润大增
10月14日,三星电子宣布2025年第三季度初步业绩,其合并销售额约85万亿-87万亿韩元,同比增长超7.4%;合并营业利润约12万亿-12.2万亿韩元,同比增长超30.7%,创近几年新高,这主要得益于AI…

2025-10-14

ABB与英伟达强强联合,以800VDC架构开启AI算力能源新时代
这场聚焦千兆瓦级数据中心的战略合作,核心是为英伟达800 VDC高压直流架构打造定制化电力解决方案,看似是电力领域的技术升级,实则是为大模型向多模态、AGI演进扫清最关键的能源障碍——毕竟在AI世界里,算力的…

2025-10-14