ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

中国大模型公司提出新架构,解决Context无限长问题,开启Agent时代

时间:2025-01-16 21:15:30来源:ITBEAR编辑:汪淼

日月开新元,万象启新篇。

1月15日,MiniMax发布并开源新一代01系列模型,包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破Transformer传统架构记忆瓶颈,在综合性能比肩GPT-4o、Claude-3.5等海外领军模型的基础上,能够高效处理高达400万token的输入,可输入长度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。

目前,MiniMax-01系列开源模型已应用于MiniMax旗下产品海螺AI并在全球上线,企业与个人开发者可前往MiniMax开放平台使用API。

以架构创新实现高效超长文本输入

2017年,具有里程碑意义的论文《Attention Is All You Need》正式发表,Transformer架构问世并逐步发展成为该领域的主流技术范式。自2023年起,自然语言处理领域迎来了一股创新浪潮,对模型架构的创新需求日益增加。

MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,并使其综合能力达到全球第一梯队。而受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理高达400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。

MiniMax-01模型发布后,在国内外迅速掀起了热议浪潮。海外媒体与AI从业者聚焦该模型,深入探讨其技术内涵与潜在价值,对其所展现出的创新性给予了高度肯定。

性能比肩国际领军模型

在应用创新架构之外,MiniMax大规模重构了01系列模型的训练和推理系统,包括更高效的MoE All-to-all通讯优化、更长的序列的优化,以及推线性注意力层的高效Kernel实现,使得模型能力可与全球顶级闭源模型相媲美。

在业界主流的文本和多模态理解任务处理表现上,MiniMax-01系列模型大多情况下可以追平海外公认最先进的两个模型,GPT-4o-1120以及Claude-3.5-sonnet-1022。过往的模型能力评测中,Google的自研模型Gemini有着显著的长文优势。而在01系列模型参评的长文任务下,相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢,效果及其出众。

▲ 多项任务评测结果显示,MiniMax-01系列模型核心性能稳居全球第一梯队。(图源MiniMax-01系列模型技术报告)

▲ MiniMax-01系列模型长上下文处理能力全球领先。(图源MiniMax-01系列模型技术报告)

加速AI Agent时代到来

2025年,AI将迎来至关重要的发展节点,AI Agent有望成为新一年最重要的产品形态,引领AI从传统的“工具”角色向更具互动性与协作性的“伙伴”角色转变。AI Agent时代,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升,是AI Agent为各行业带来更为丰富、高效、智能的解决方案的必要条件。

MiniMax在Github上开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”

凭借开放、共享、协作的特点,开源模型激发AI产业的创新活力,正在成为赋能新质生产力发展的关键引擎。受益于Linear Attention层面的架构创新、算力层面的优化,以及集群上的训推一体的设计,MiniMax以业内极具性价比的价格提供文本模型和多模态理解模型的API服务,标准定价是输入token 1元/百万token,输出token 8元/百万token。

论文链接:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

更多热门内容
2025年京东双十一活动叠加国补优惠,苹果17最佳入手时间是10月14日,iPhone双十一第二波降价来了,如何购买最划算?
2025 年淘宝天猫京东双 11 活动已火热开启啦!活动期间,在这三大平台上,每天都能领 1 次 “天天开红包” 哦,京东的红包最高能达 11111 元,淘宝和天猫则最高可领 25888 元呢;而且通过 “购物车优惠发现” 还能额外多领 1 次红包。只要领取对应商品的粉丝福利购优惠券

2025-10-13

2025中国移动全球合作伙伴大会动态:高通支持中国移动的全球化发展与布局
10月10日至10月12日,2025中国移动全球合作伙伴大会在广州保利世贸博览馆盛大召开。作为中国移动在全球及中国的合作伙伴,高通公司参与了大会多个环节,并打造了内容丰富的主题展区,携手中国移动及广大生态伙伴协同,集中展示多项前沿技术与创新产品,助力释放“AI+”

2025-10-13

高通、中国移动等携手释放“AI+”时代潜力,加速终端侧AI落地应用
以“碳硅共生 合创AI+时代”为主题的2025中国移动全球合作伙伴大会,于10月10日至12日在广州召开。作为中国移动长期的重要合作伙伴,高通公司深度参与本次盛会,除了参加会议论坛活动,还以“我们一起 让智能计算无处不在”为主题设立展台,集中展示终端侧AI、跨品类智

2025-10-13

十月家电焕新指南:三星115英寸Neo QLED 4K QN90F解锁全场景软装灵感
当硬装工程悉数竣工,空间的灵魂便等待着通过软装陈设来唤醒。在定义居住品味的关键环节,电视作为客厅的视觉焦点与情感枢纽,其选择不仅关乎视听体验的层次,更意味着家居空间即将完成从基础功能到个性表达的蜕变。三星115英寸Neo QLED 4K QN90F凭借前沿技术与场景创新

2025-10-13

以5G-A和6G为连接纽带支持混合AI未来,高通专家:携手中国伙伴继续前行
近日,2025中国移动全球合作伙伴大会在广州召开。高通公司今年继续深度参与这一盛会,参加了多场活动,并设立展台,展示与中国移动及众多生态合作伙伴,在终端侧AI、跨品类智能终端、5G-Advanced、6G等前沿领域的创新成果与合作进展。高通公司首席运营官兼首席财务官Aka

2025-10-13

LG电子荣获百项顶尖设计大奖,以卓越设计展现品质生活新内涵
近日,LG电子凭借出色的设计创新实力,在全球三大最具声望的设计竞赛——红点设计奖、iF设计奖和IDEA奖项中大放异彩,斩获100项大奖。在2025年红点设计奖的角逐中,LG电子在品牌与传播设计这一类别中表现卓越,荣获12项荣誉。红点设计奖每年都会在产品设计、设计概念和

2025-10-13

2025淘宝京东双十一红包活动,京东双十一红包口令【有惊喜228】,双十一活动哪天买最便宜
一年一度的双十一购物狂欢节即将拉开帷幕,京东、天猫、淘宝三大平台都已摩拳擦掌,准备为消费者带来一场购物盛宴。今天,就为大家详细解读三大平台的双十一玩法,让你轻松购物,省钱不踩雷!2025年京东双十一红包口令是:【有惊喜228】核心口令领取时间至11月11日,高频

2025-10-13

伊斯坦布尔·黄昏的集市
黄昏时分,伊斯坦布尔的空气开始变得厚重。太阳缓缓沉入博斯普鲁斯海峡,余晖把整座城市涂抹成橘红与金黄的层次。远处清真寺的宣礼声在空中回荡,与鸽群扑翅的声音交织在一起。就在这片渐渐收拢的光线里,大巴扎集市开始达到一天的鼎沸。段元诚随着人潮踏入狭窄的拱形走廊,

2025-10-13

FX与ZEVO签订1000台FX Super One预订单 共创生态线上直销模式再下一州
10月13日,Faraday Future(FF)创始人、联席CEO贾跃亭在Co-CEO周报中透露,FX 与ZEVO签订1000台FX Super One预订单,共创生态线上直销模式拓展至得州;FF和FX政府事务团队受邀出席华盛顿政界活动。此外,FF对QLGN的战投完成后,Crypto团队在推进业务的同时,也基本完成了

2025-10-13

2025京东双11苹果优惠终极攻略:红包和国补叠加更合适 淘宝天猫双11红包领取入口攻略
2025年淘宝天猫京东双11活动已开启!活动期间,三大平台每天可领1次“天天开红包”,京东最高11111元,淘宝/天猫最高25888元;通过“购物车优惠发现”还能额外多领1次红包。领取对应商品的粉丝福利购优惠券后,叠加双11活动优惠,折扣力度拉满。首先划重点!双平台苹果专属

2025-10-13