ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

中国大模型公司提出新架构,解决Context无限长问题,开启Agent时代

时间:2025-01-16 21:15:30来源:ITBEAR编辑:汪淼

日月开新元,万象启新篇。

1月15日,MiniMax发布并开源新一代01系列模型,包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破Transformer传统架构记忆瓶颈,在综合性能比肩GPT-4o、Claude-3.5等海外领军模型的基础上,能够高效处理高达400万token的输入,可输入长度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。

目前,MiniMax-01系列开源模型已应用于MiniMax旗下产品海螺AI并在全球上线,企业与个人开发者可前往MiniMax开放平台使用API。

以架构创新实现高效超长文本输入

2017年,具有里程碑意义的论文《Attention Is All You Need》正式发表,Transformer架构问世并逐步发展成为该领域的主流技术范式。自2023年起,自然语言处理领域迎来了一股创新浪潮,对模型架构的创新需求日益增加。

MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,并使其综合能力达到全球第一梯队。而受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理高达400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。

MiniMax-01模型发布后,在国内外迅速掀起了热议浪潮。海外媒体与AI从业者聚焦该模型,深入探讨其技术内涵与潜在价值,对其所展现出的创新性给予了高度肯定。

性能比肩国际领军模型

在应用创新架构之外,MiniMax大规模重构了01系列模型的训练和推理系统,包括更高效的MoE All-to-all通讯优化、更长的序列的优化,以及推线性注意力层的高效Kernel实现,使得模型能力可与全球顶级闭源模型相媲美。

在业界主流的文本和多模态理解任务处理表现上,MiniMax-01系列模型大多情况下可以追平海外公认最先进的两个模型,GPT-4o-1120以及Claude-3.5-sonnet-1022。过往的模型能力评测中,Google的自研模型Gemini有着显著的长文优势。而在01系列模型参评的长文任务下,相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢,效果及其出众。

▲ 多项任务评测结果显示,MiniMax-01系列模型核心性能稳居全球第一梯队。(图源MiniMax-01系列模型技术报告)

▲ MiniMax-01系列模型长上下文处理能力全球领先。(图源MiniMax-01系列模型技术报告)

加速AI Agent时代到来

2025年,AI将迎来至关重要的发展节点,AI Agent有望成为新一年最重要的产品形态,引领AI从传统的“工具”角色向更具互动性与协作性的“伙伴”角色转变。AI Agent时代,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升,是AI Agent为各行业带来更为丰富、高效、智能的解决方案的必要条件。

MiniMax在Github上开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”

凭借开放、共享、协作的特点,开源模型激发AI产业的创新活力,正在成为赋能新质生产力发展的关键引擎。受益于Linear Attention层面的架构创新、算力层面的优化,以及集群上的训推一体的设计,MiniMax以业内极具性价比的价格提供文本模型和多模态理解模型的API服务,标准定价是输入token 1元/百万token,输出token 8元/百万token。

论文链接:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

更多热门内容
iHerb29周年庆:全球精选好物,健康生活新选择
现在买东西就怕“到处跑”:想给全家囤货,得在护肤品店、母婴店、宠物用品店之间来回跑,好不容易凑齐,还得担心有的是假货、有的不划算。直到发现iHerb,才知道什么叫实在太全面,从自己用的身体乳、胶原蛋白,到孩子吃的维生素,连狗狗的护毛喷雾都能一站式买齐,关

2025-09-13

国产芯开行业新局,至像Z35国产芯系列新品打印机赋能中国打印
9 月 12 日,至像 Z35 国产芯系列新品发布会暨 2025 年渠道大会,在北京朗丽兹西山花园酒店盛大召开。发布会以“国产芯领航,智印中国造”为核心主题,重磅推出搭载国产双芯的Z35国产芯系列黑白激光打印机,旨在推动打印机行业的国产化升级,为政企用户带来更加安全、高

2025-09-13

高端母婴消费科技第一股“不同集团”通过聆讯:六年崛起背后的“不同”逻辑
在人口政策春风下,高端母婴消费科技赛道迎来新动向——BeBeBus品牌的母公司“不同集团”已正式通过港交所聆讯。这也意味着不同集团或将以“高端母婴消费科技第一股”的身份登陆资本市场。试想这样的场景:90后、00后新手爸妈一手推着婴儿车,一手滑动手机挑选尿布——

2025-09-13

2025拍照手机推荐:vivo X300 Pro 2亿像素怎么拍都出片
随着智能手机的飞速发展,拍照已成为消费者最关注的核心功能之一。2025年,各家厂商在影像技术上持续发力,而据vivo产品经理和多家权威媒体曝光,即将发布的vivoX300 Pro将搭载2亿像素的长焦主摄,让其成为“2025拍照手机推荐”榜单上最值得期待的产品。影像能力:2亿高

2025-09-13

百年声学品牌再创新!拜雅新品AMIRON 200 & AMIRON ZERO定义开放聆听新方式
中国·北京,2025 年 9 月 12日——德国101年专业音频品牌拜雅(beyerdynamic)携手高达尚,在北京CHAO酒店·日光礼堂举行主题开放新声活的新品发布会,高达尚抖音号同步直播。作为德国拜雅品牌Enjoyment系列产品的中国区总代理,高达尚自2022年起便与德国拜雅建立了稳固

2025-09-13

优刻得参加第十届“一带一路”高峰论坛
9月10-11日,由香港特别行政区政府与香港贸易发展局合办的第十届“一带一路”高峰论坛在香港会议展览中心成功举行。论坛以“合作求变 共建未来”为主题,共同探讨商贸、投资、科创、绿色等多方面的发展机遇。优刻得副总裁刘杰和与会嘉宾在峰会上海展区前合影作为上海市

2025-09-13

FF启动Crypto飞轮分拆上市:新公司独立融资独立运转,打造双上市公司体系
9月13日,Faraday Future(纳斯达克:FFAI,简称FF)今天宣布,根据整体战略规划,公司正在积极筹划将其CryptoC10及加密相关资产和业务独立拆分并推动公开上市,计划尽快成立由上市公司FFAI控股的第二个独立上市公司。公司将在即将到来的919发布会上正式披露详细信息。此

2025-09-13

AirPods Pro 3至高减1770元 入手Apple新品就来京东用“京补合约”下单
9月12日晚8点,iPhone 17系列开启预售,同时发布的新款Apple Watch和AirPods Pro 3也已开启预售。如果想以专属低价入手这些Apple新品,可以来京东通过“京补合约”下单,购买时办理指定话费套餐,不仅可享受几百到几千元不等的合约购机补贴,部分地区还可叠加国家补贴,

2025-09-12

亚信科技联合清华AIR等发布全球首部 AI-RAN商业展望白皮书
2025年9月12日,亚信科技联合英特尔、清华大学智能产业研究院(AIR)、香港理工大学人工智能高等研究院、IEEE,正式发布《AI-RAN面向垂直行业的商业展望白皮书》(以下简称“白皮书”)中英文版!该白皮书已被学术网站arXiv收录。作为全球首部系统梳理 Private AI-RAN 商业可

2025-09-12

聚焦万亿GDP 城市存量改造:蜜蜂公司十周年官宣BEEPLUS等多品牌战略
9月10日,“拾光筑梦·向远而行——蜜蜂公司十周年成长礼”在深圳盛大启幕。活动现场汇聚了众多重要嘉宾,包括中国企业家协会俱乐部主席、招商银行原行长马蔚华,香港浸会大学第三任校长、北师香港浸会大学BNBU创校校长吴清辉教授,北师香港浸会大学校长陈致教授,广东

2025-09-12