ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

苹果自研多模态AI模型Manzano:混合分词器架构,解码器三版本支持多分辨率

时间:2025-09-28 12:14:53来源:互联网编辑:快讯

苹果公司正在秘密推进一项名为Manzano的图像模型研发项目,该模型试图在图像理解与生成两大领域实现突破性整合。目前这项研究仍处于实验室阶段,仅通过预印本论文披露了技术框架,并释放了少量低分辨率演示图像。

技术文档显示,Manzano系统由三大核心模块构成:负责特征提取的混合分词器、处理多模态数据的统一语言模型,以及支持动态分辨率的图像解码器。其中解码器特别开发了轻量版、标准版和专业版三种形态,分别对应720P、1080P和4K级输出能力。训练阶段使用了超过20亿组图文对数据,内部测试表明该模型在处理包含复杂文本的图像场景时,准确率较同类产品提升37%。

性能曲线分析显示,Manzano的各项指标随模型规模扩大呈现显著提升趋势,这印证了研发团队关于"规模效应"的假设。不过苹果工程师坦承,当前基础版本在细节渲染精度和语义理解深度上,仍与行业顶尖水平存在15%-20%的差距。他们计划通过引入三维空间感知模块和动态注意力机制,在后续版本中弥补这些短板。

这项研究引发了AI领域的广泛关注。有专家指出,Manzano采用的混合编码方案可能为多模态大模型开辟新的技术路径,但其复杂的架构设计也对硬件算力提出了更高要求。苹果方面表示,该模型未来将优先应用于增强现实和内容创作领域,具体商业化时间表尚未确定。

更多热门内容
OpenAI推出GDPval评估法:AI在多领域接近专家水平,Claude表现亮眼
有趣的是,在 GDPval 上,OpenAI 大方地承认了 Claude 的领先地位:Claude Opus 4.1 是该数据集中表现最佳的模型,尤其在美观性(例如文档格式、幻灯片布局)方面表现出色,该模型…

2025-09-28

李开复:AI Agent浪潮来袭,企业数智化转型核心引擎已启动
李开复表示,当企业不再为模型买单,⽽是为“结果”与“价值”付费时,AI创造的价值将从降本转向增效。 沈鹏飞向记者表示,大型企业面对大量客户群体,更倾向于提供标准化产品,尽管在浅层合作和交付层面看似没有问题,但…

2025-09-28

安徽90后博士领衔,优艾智合冲刺港股IPO,成移动操作机器人领跑者
今年4月,优艾智合执行董事兼首席战略官梅婉箐在深圳具身智能产业化发展座谈会上接受21世纪经济报道记者采访时指出,过去公司基于工业场景积累了丰富的经验,尤其是在半导体工业场景深耕近7年,“当前公司基于客户的应…

2025-09-28