ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AI大牛卡帕西开源nanochat:百元成本4小时训练,12小时性能超GPT-2

时间:2025-10-14 14:51:54来源:快讯编辑:快讯

与卡帕西此前开发的nanoGPT不同,nanochat构建了完整的全栈训练/推理流程。项目采用Rust语言实现分词器训练,在FineWeb数据集上进行Transformer模型预训练,并通过CORE指标体系评估模型的基础能力。开发者仅需启动云GPU实例并运行单一脚本,即可在4小时内完成从零开始的模型训练,生成可进行简单对话、创作诗歌、解答基础问题的AI系统。

技术实现层面,项目整合了多项创新:中期训练阶段引入SmolTalk对话数据与选择题数据,指令微调阶段覆盖常识推理(ARC-E/C)、数学计算(GSM8K)、代码生成(Humaneval)等基准测试。特别设计的"GRPO"算法支持GSM8K数据集上的强化学习,配合带KV缓存的推理引擎,实现了包含工具调用(Python解释器)的高效交互,用户可通过命令行或网页界面与模型交互。

性能表现方面,训练12小时的模型已在CORE指标上超越GPT-2。当预算提升至1000美元(约合人民币7114.7元)时,41.6小时训练可使模型具备基础数学与编程能力。具体测试数据显示,深度30的模型训练24小时后,在MMLU语言理解基准取得40+分,ARC-Easy常识推理突破70分,GSM8K数学测试获得20+分,性能相当于GPT-3千分之一计算量的水平。

项目代码库包含8304行实现,涵盖从数据预处理到模型评估的全流程。开发者可生成单页Markdown报告,以可视化方式追踪训练进度。卡帕西展示的对话案例显示,基础版模型已能完成诗歌创作等创意任务。开源社区迅速响应,已有开发者制作出交互式代码图谱,帮助新手更直观地理解项目架构。

这项成果为AI开发成本控制提供了新范式。通过架构优化与流程简化,项目证明了在有限预算下实现基础AI功能的可行性。尽管当前性能与商业大模型存在差距,但其展现的性价比优势为AI技术普及开辟了新路径。随着社区持续优化,这种高效开发模式有望推动AI技术在更多场景的落地应用。

更多热门内容
张一鸣沉寂四年后现身,聚焦人才培育,为AI时代播撒创新种子
知春创新中心希望培养的是——思维活跃、有热情和韧性的人才,核心是独立思考和重视实践,关注长期和全局,在探索中学习,保持平常心,放松自信,拥抱不确定性。在字节早期,张一鸣几乎把全部精力都花在“找人”这件事上,…

2025-10-14

OpenAI携手博通开发定制AI芯片 博通股价大涨 开启算力策略新篇章
此次与OpenAI合作,是博通在AI领域的又一重大布局。今年9月,英伟达与OpenAI宣布合作,OpenAI将建成并部署至少10吉瓦的AI数据中心,配备数百万块英伟达GPU,用于构建下一代AI基础设施。受此…

2025-10-14

OpenAI与博通10GW定制AI加速器合作,为AGI演进筑牢硬件根基
10月13日,OpenAI与博通联合官宣的10GW定制AI加速器合作,如同投入算力赛场的深水炸弹。这场秘密筹备18个月的战略合作,不仅让OpenAI首款自研芯片蓝图落地,更标志着AI行业从"通用GPU堆砌"向…

2025-10-14

博通CEO陈福阳详述与OpenAI合作:四年开发10吉瓦定制AI芯片
陈福阳在接受CNBC采访时表示,OpenAI是“少数处于基础模型研发前沿的领军者之一”,尽管这家ChatGPT开发商尚未上市,但其估值已达到大约5000亿美元。 陈福阳透露,博通正与“大约七家企业”紧密合作…

2025-10-14

OpenAI与博通合作定制芯片,拟再投数千亿扩增AI算力储备
根据最新协议,OpenAI与博通共同设计了专门用于运行其自家AI模型的定制芯片,这标志着这家创业公司首次生产自有AI芯片。他表示,该公司已与博通合作开发定制芯片长达18个月时间,这将为其带来“巨量计算基础设…

2025-10-14

OpenAI与博通共启10GW自研AI芯片项目,合作或引领AI基础设施新变革
当地时间10月13日,人工智能技术大厂OpenAI和芯片设计大厂博通宣布达成合作,双方共同开发10吉瓦(GW)规模的数据中心所需的定制AI加速器。 事实上,OpenAI这次与博通的10GW自研AI芯片合作协…

2025-10-14

OpenAI携手博通共启新篇:联合开发10吉瓦级AI加速器,构建算力新生态
OpenAI CEO Sam Altman表示,「与博通的合作是构建释放人工智能潜能所需基础设施的关键一步,这将帮助我们为个人和企业带来真正的价值。」 对于博通而言,此次合作进一步凸显了定制加速器的重要…

2025-10-14

科创板人工智能ETF10月13日融资净卖出近300万 余额下滑3.72%
证券之星消息,10月13日,科创板人工智能ETF(588930)融资买入444.19万元,融资偿还741.72万元,融资净卖出297.53万元,融资余额7702.71万元。包括券商对投资者的融资、融券和金融机…

2025-10-14

AI大牛卡帕西开源nanochat:百元成本4小时训练,12小时性能超GPT-2
在原推文的评论区中,卡帕西还给出了一个nanochat与用户对话的案例。在这个对话中,基础版nanochat已经实现AI聊天机器人的对话功能,并且可以根据要求撰写诗歌。 nanochat项目的推出,为AI模…

2025-10-14

IBM与Anthropic携手:Claude大语言模型融入软件,加速企业级AI开发
(全球TMT2025年10月13日讯)10月7日,在TechXchange 2025期间,IBM与Anthropic宣布达成战略合作:IBM将Anthropic旗下的Claude大语言模型系列融入IBM软件产…

2025-10-14