ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

中国大模型公司提出新架构,解决Context无限长问题,开启Agent时代

时间:2025-01-16 21:15:30来源:ITBEAR编辑:汪淼

日月开新元,万象启新篇。

1月15日,MiniMax发布并开源新一代01系列模型,包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破Transformer传统架构记忆瓶颈,在综合性能比肩GPT-4o、Claude-3.5等海外领军模型的基础上,能够高效处理高达400万token的输入,可输入长度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。

目前,MiniMax-01系列开源模型已应用于MiniMax旗下产品海螺AI并在全球上线,企业与个人开发者可前往MiniMax开放平台使用API。

以架构创新实现高效超长文本输入

2017年,具有里程碑意义的论文《Attention Is All You Need》正式发表,Transformer架构问世并逐步发展成为该领域的主流技术范式。自2023年起,自然语言处理领域迎来了一股创新浪潮,对模型架构的创新需求日益增加。

MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,并使其综合能力达到全球第一梯队。而受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理高达400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。

MiniMax-01模型发布后,在国内外迅速掀起了热议浪潮。海外媒体与AI从业者聚焦该模型,深入探讨其技术内涵与潜在价值,对其所展现出的创新性给予了高度肯定。

性能比肩国际领军模型

在应用创新架构之外,MiniMax大规模重构了01系列模型的训练和推理系统,包括更高效的MoE All-to-all通讯优化、更长的序列的优化,以及推线性注意力层的高效Kernel实现,使得模型能力可与全球顶级闭源模型相媲美。

在业界主流的文本和多模态理解任务处理表现上,MiniMax-01系列模型大多情况下可以追平海外公认最先进的两个模型,GPT-4o-1120以及Claude-3.5-sonnet-1022。过往的模型能力评测中,Google的自研模型Gemini有着显著的长文优势。而在01系列模型参评的长文任务下,相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢,效果及其出众。

▲ 多项任务评测结果显示,MiniMax-01系列模型核心性能稳居全球第一梯队。(图源MiniMax-01系列模型技术报告)

▲ MiniMax-01系列模型长上下文处理能力全球领先。(图源MiniMax-01系列模型技术报告)

加速AI Agent时代到来

2025年,AI将迎来至关重要的发展节点,AI Agent有望成为新一年最重要的产品形态,引领AI从传统的“工具”角色向更具互动性与协作性的“伙伴”角色转变。AI Agent时代,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升,是AI Agent为各行业带来更为丰富、高效、智能的解决方案的必要条件。

MiniMax在Github上开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”

凭借开放、共享、协作的特点,开源模型激发AI产业的创新活力,正在成为赋能新质生产力发展的关键引擎。受益于Linear Attention层面的架构创新、算力层面的优化,以及集群上的训推一体的设计,MiniMax以业内极具性价比的价格提供文本模型和多模态理解模型的API服务,标准定价是输入token 1元/百万token,输出token 8元/百万token。

论文链接:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

更多热门内容
3大维度盘清中国10大HR SaaS厂商,助力AI+HR转型创新、重塑管理
自2025年以来,前有DeepSeek搅动国内外AI圈,后又国内外各大厂商纷纷加速AI技术及产品应用落地,紧随而来,在AI Agent成为又一关键热词,Manus携“全球首款通用Agent产品”再次掀起一番躁动。如此喧嚣热闹的背景之下,向广大人力资源从业者传递一个强烈信号:AI技术的发

2025-03-12

杭州“生育友好岗”来了!
杭州市妇联联合“青团社”推出“生育友好”名企专场,为宝妈提供灵活就业新机遇!专场汇聚希尔顿、奈雪的茶、外婆家、Tims咖啡、麦当劳等众多知名企业,精选优质岗位,覆盖零售、餐饮、茶咖等多个热门行业。无论您是想要尝试新领域的职场妈妈,还是寻求兼职工作的全职妈

2025-03-11

BOE(京东方)携手微博举办“微博影像年”年度影像大展 创新科技赋能专业影像惊艳呈现
3月8日,微博旗下S级影像赛事IP——微博影像年“光与万物”年度影像大展在北京市鸟巢文化中心盛大启幕。继2024年合作之后,BOE(京东方)与微博再度携手,作为“微博影像年”独家显示技术合作伙伴,以裸眼3D沉浸式体验空间、百变屏、画屏等一系列顶尖科技赋能专业级影像呈

2025-03-11

华安基金:美国就业增长放缓,上周金价收涨
黄金行情回顾及主要观点:上周金价收涨。伦敦现货黄金收于2,907美元/盎司(1.8%),国内AU9999黄金收于679元/克(周环比1.3%)。十年期美债利率上行8个基点至4.32%。美国非农数据不及预期,黄金冲高后受美联储鹰派表述回落。美国劳工部周五报告,美国2月就业人数增加15.1万人

2025-03-11

离火启元·芳华智绽 露次元冠名"离火时代 幸福花开"千企商业领袖峰会
——解码千年香火基因 开启女性觉醒生物密码2025年3月8日,适逢九紫离火大运元年,由深圳石岩策划机构主办、露次元品牌总冠名的全球女性商业领袖峰会在鹏城盛大启幕。这场以离火启元·她创未来为主题的盛会,汇聚千位商界木兰、AI科技女杰及健康产业先锋,共同见证东方

2025-03-10

洲际航天六年磨一剑,百星耀香江
自2019年9月成立以来,洲际航天科技集团历经六载,从无到有,从设想到落地,终于在2025年3月成功下线首批百颗卫星,并与国际宇航联合会共同举办全球百颗卫星巡展的首站——中国香港,进行为期三天的公众展览。随后,展览将在美国、加拿大、欧洲、亚洲等多国展开全球巡展。六年

2025-03-10

科信融一发布“融一平台”,一站式解决信创系统Windows应用原生兼容难题
2025年3月10日,科信融一软件(扬州)有限公司(简称“科信融一”)正式发布用于信创系统的Windows应用兼容平台“融一平台”,用户无需Windows操作系统和虚拟化技术,即可在信创操作系统上原生运行Windows应用,并享有与Windows 操作系统一致的应用体验,这一创新预示着计算

2025-03-10

免费AI律师法行宝携手多家品牌致敬女性:爱自己,就现在!
三月八日是一年一度的国际妇女节,为了庆祝这一特殊的日子,法行宝携手爱采购、爱企查、百度健康、百度网盘、大姨妈App、警网优选、联想官网、和府捞面、脆升升薯条等知名品牌,共同发起了以“爱自己的N种方式”为主题的联合线上活动。此次活动旨在呼吁女性在日常生活中更

2025-03-08

“离火灼灼耀鹏城 香露润泽绽芳华”——露次元启幕九紫大运时代东方康养智慧新纪元
2025年3月8日,值此三八女神节之际,由中国深圳石岩策划机构主办、露次元品牌总冠名的离火时代 幸福花开企业家千人峰会于深圳启幕。这场恰逢九紫离火大运元年与女神节双重时空坐标的盛会,汇聚千余名商界领袖(其中女性企业家占比达68%)、AI科技先锋及健康产业专家,共同

2025-03-08

优刻得×DeepWisdom:无需邀请码!云端极速体验OpenManus
过去48h,整个科技圈被AI Agent所点燃。现象级AI产品manus一经上线后,迅速登上各大平台热搜,但官方邀请码一码难求,甚至引发二手市场邀请码炒至数万元的荒诞乱象。这背后,折射出广大用户对AI智能体近乎疯狂的需求,所有人都在为抢先触达下一代生产力工具而躁动。3月8

2025-03-08