ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

参数破3000亿却性能平庸?大模型的新革命来了!

时间:2024-04-17 16:56:00来源:ITBEAR编辑:快讯

【ITBEAR科技资讯】4月17日消息,近日,科技领域对于模型训练的效率和性能展开了新的讨论。这主要源于面壁智能发布的一系列高效、低参数的大模型,这些模型在保持高性能的同时,显著降低了参数规模和训练成本。

大约一个月前,马斯克旗下的xAI团队开源了名为Grok-1的巨型MoE模型,其参数量高达3140亿,被誉为“庞然大物”。然而,令人惊讶的是,尽管Grok-1在参数规模上占据优势,但其性能表现却仅与Mistral AI的8x7B MoE模型相当。这一现象引发了业内对于“参数数量与模型性能”关系的深入反思。

在此背景下,面壁智能的最新研究成果显得格外引人注目。据悉,面壁智能自2020年开始训练大模型以来,便始终致力于提升模型训练的效率。他们坚信,“让每一个参数发挥最大的作用”,在同等参数量上实现更好的性能,才是解决大模型“高效”训练的核心。

今年2月,面壁智能发布了MiniCPM 2B模型,该模型在较小的参数量基础上实现了与Mistral-7B相当的性能,验证了其“低参数、高性能”的方法论。更重要的是,面壁智能通过这一系列研究,成功降低了千亿大模型的训练成本。

4月11日,面壁智能又推出了新一代端侧旗舰大模型系列,包括显著增强OCR能力的2.8B多模态模型MiniCPM-V 2.0、仅1.2B却强过llama2-13B的MiniCPM-1.2B模型等。这些模型的推出进一步证明了面壁智能在高效训练大模型方面的实力。

据ITBEAR科技资讯了解,面壁智能之所以能够在模型训练效率和性能上取得显著成果,得益于他们独特的“高效训练”理念以及在小模型上的深入探索。通过小模型验证大模型的训练投入产出比,面壁智能走出了一条独特的研发路线。这不仅使他们在资源有限的情况下实现了模型的高效训练,还为未来实现通用人工智能(AGI)奠定了坚实的基础。

近日,面壁智能也完成了新一轮数亿元融资,这将为他们未来的研发工作提供更多的资金支持。在追求高效训练的道路上,面壁智能正不断取得新的突破,为大模型领域的发展注入了新的活力。

更多热门内容
OpenAI与博通10GW定制AI加速器合作,为AGI演进筑牢硬件根基
10月13日,OpenAI与博通联合官宣的10GW定制AI加速器合作,如同投入算力赛场的深水炸弹。这场秘密筹备18个月的战略合作,不仅让OpenAI首款自研芯片蓝图落地,更标志着AI行业从"通用GPU堆砌"向…

2025-10-14

博通CEO陈福阳详述与OpenAI合作:四年开发10吉瓦定制AI芯片
陈福阳在接受CNBC采访时表示,OpenAI是“少数处于基础模型研发前沿的领军者之一”,尽管这家ChatGPT开发商尚未上市,但其估值已达到大约5000亿美元。 陈福阳透露,博通正与“大约七家企业”紧密合作…

2025-10-14

OpenAI与博通合作定制芯片,拟再投数千亿扩增AI算力储备
根据最新协议,OpenAI与博通共同设计了专门用于运行其自家AI模型的定制芯片,这标志着这家创业公司首次生产自有AI芯片。他表示,该公司已与博通合作开发定制芯片长达18个月时间,这将为其带来“巨量计算基础设…

2025-10-14

OpenAI与博通共启10GW自研AI芯片项目,合作或引领AI基础设施新变革
当地时间10月13日,人工智能技术大厂OpenAI和芯片设计大厂博通宣布达成合作,双方共同开发10吉瓦(GW)规模的数据中心所需的定制AI加速器。 事实上,OpenAI这次与博通的10GW自研AI芯片合作协…

2025-10-14

OpenAI携手博通共启新篇:联合开发10吉瓦级AI加速器,构建算力新生态
OpenAI CEO Sam Altman表示,「与博通的合作是构建释放人工智能潜能所需基础设施的关键一步,这将帮助我们为个人和企业带来真正的价值。」 对于博通而言,此次合作进一步凸显了定制加速器的重要…

2025-10-14

科创板人工智能ETF10月13日融资净卖出近300万 余额下滑3.72%
证券之星消息,10月13日,科创板人工智能ETF(588930)融资买入444.19万元,融资偿还741.72万元,融资净卖出297.53万元,融资余额7702.71万元。包括券商对投资者的融资、融券和金融机…

2025-10-14

AI大牛卡帕西开源nanochat:百元成本4小时训练,12小时性能超GPT-2
在原推文的评论区中,卡帕西还给出了一个nanochat与用户对话的案例。在这个对话中,基础版nanochat已经实现AI聊天机器人的对话功能,并且可以根据要求撰写诗歌。 nanochat项目的推出,为AI模…

2025-10-14

IBM与Anthropic携手:Claude大语言模型融入软件,加速企业级AI开发
(全球TMT2025年10月13日讯)10月7日,在TechXchange 2025期间,IBM与Anthropic宣布达成战略合作:IBM将Anthropic旗下的Claude大语言模型系列融入IBM软件产…

2025-10-14

AI赋能电商新篇章:技术演进下的智能工具与商业增长实践
AI电商工具是指利用人工智能技术优化电子商务运营的软件平台,旨在通过自动化、数据分析和智能决策帮助商家提升效率、增加销售额。机器学习用于预测销售趋势和用户行为,实现个性化推荐;自然语言处理赋能智能客服和内容生…

2025-10-14

OpenAI携手博通2026年推定制AI芯片,多元化算力布局下博通市值再攀升
此次与OpenAI合作,是博通在AI领域的又一重大布局。今年9月,英伟达与OpenAI宣布合作,OpenAI将建成并部署至少10吉瓦的AI数据中心,配备数百万块英伟达GPU,用于构建下一代AI基础设施。受此…

2025-10-14