ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

谷歌DeepMind突破AI长视频处理瓶颈:延迟降低35%,帧数与准确率双提升

时间:2026-05-26 08:36:20来源:快讯编辑:快讯

当人工智能尝试理解一部两小时的电影时,它面临的挑战堪比人类在一秒钟内读完整本厚书。传统视频处理系统在面对长视频时,总会遭遇一道难以突破的计算瓶颈。谷歌DeepMind与首尔国立大学联合开发的新型视觉编码器Liteframe,为破解这一难题提供了全新思路。这项研究成果以预印本形式发布,编号为arXiv:2605.17260,标志着视频理解技术进入效率革命的新阶段。

主流视频AI系统普遍采用"视觉编码器+语言模型"的架构模式。视觉编码器像眼睛般逐帧扫描画面,将每帧图像转换为数字信号;语言模型则扮演大脑角色,对这些信号进行理解和推理。问题在于,视频帧数与计算量呈指数级增长关系——帧数翻倍时,视觉编码器和语言模型的工作量都会大幅增加,而语言模型处理复杂度更呈平方级上升。实验显示,现有系统如InternVL3-8B最多只能处理64帧画面,超过这个阈值系统性能就会急剧下降。

针对计算瓶颈问题,传统解决方案采用"事后削减"策略:先完整处理所有帧生成大量视觉令牌,再通过技术手段删减重复信息。这种方法虽减轻了语言模型负担,却将压力转移至视觉编码器。研究团队通过实验证明,在16倍压缩率条件下,语言模型处理时间显著降低,但视觉编码器耗时成为新的性能瓶颈。随着帧数增加,系统整体速度反而更慢,这种"头痛医脚"的解决方案暴露出根本性缺陷。

研究团队在系统测试中发现关键规律:AI理解能力与输入帧数呈对数正相关。在Video-MME、MLVU等主流测试集上,帧数增加始终能提升准确率,尽管边际效益逐渐递减。这一发现促使团队转变思路:若能在相同计算预算下处理更多帧数,就能显著提升系统性能。这种认知直接催生了Liteframe的核心设计理念。

在正式推出Liteframe前,研究团队先验证了加权平均池化(WAP)技术的有效性。该方法通过评估像素区域重要性进行差异化信息保留,在16倍压缩比条件下达到62.0%的平均准确率,显著优于传统采样方法。更重要的是,实验证实用压缩信息换取更多帧数的策略具有显著优势:在相同视觉令牌总量下,处理16倍压缩后的16倍帧数比处理原始帧数效果更好。这为Liteframe的诞生奠定了理论基础。

Liteframe的创新在于重构了视觉编码器的核心架构。这个仅8700万参数的轻量级模型(仅为传统模型的29%),通过两大关键设计实现效率飞跃:深度可分离一维时间卷积模块专门识别帧间重复信息,在对话场景等静态画面中可自动合并重复内容,计算成本比注意力机制降低60%;渐进式压缩机制在第4层和第8层插入步进卷积层,逐步缩减特征图分辨率,最终将每帧256个视觉令牌压缩至16个。这种"源头压缩"策略使视觉编码器耗时降低70%,彻底改变了传统处理流程。

训练这个"聪明眼睛"的关键在于压缩令牌蒸馏(CTD)技术。研究团队让大型教师模型生成完整视觉令牌后,用WAP技术压缩为精华令牌,再训练Liteframe直接预测这些精华信息。这种训练方式使模型内化了信息重要性判断能力,推理时无需额外计算即可输出高质量精简特征。对比实验显示,CTD训练的准确率比重构令牌蒸馏(RTD)高出1.3-2.6个百分点,证明明确指导信息筛选比让模型自主探索更有效。

为使语言模型适应新编码器输出,研究团队采用LoRA技术进行轻量级微调。在8块H100 GPU上训练数小时后,语言模型即可高效处理Liteframe输出的16个视觉令牌格式。实验发现,低秩设置(秩=4)比高秩设置效果更好,表明语言模型只需小幅调整即可适应新输入格式。这种高效适配机制确保了系统整体性能的提升。

综合测试显示,Liteframe在128帧条件下将端到端延迟从403.6毫秒降至272.6毫秒,准确率从62.2%提升至63.7%;处理256帧时,延迟降低34.6%的同时准确率微升0.4个百分点。与需要额外预筛选模块的AutoGaze方法相比,Liteframe在256帧条件下的延迟不足其十分之一,准确率却高出2.6个百分点。在高分辨率测试中,Liteframe通过分块处理策略实现零样本泛化,在2688像素、48帧配置下取得54.1分,超越需要3584像素和1024帧的AutoGaze方法。

消融实验清晰展示了各组件的贡献值:仅缩小模型规模会导致准确率下降2个百分点;加入压缩架构后准确率恢复至61.9%;采用深度可分离卷积使延迟进一步降低14.5%;CTD训练将准确率提升至62.8%;最终加上语言模型适配后,系统在87.4毫秒延迟下达到63.4%准确率,全面超越基准系统。这些数据验证了Liteframe设计理念的科学性。

研究团队同时指出当前工作的局限性:训练数据规模限制了模型处理超长视频的能力,未在静态图像测试集评估性能,更小规模模型训练存在不稳定问题。这些边界为后续研究指明了方向,而"内化压缩"理念已为视频AI效率提升开辟了全新路径。对于普通用户而言,这意味着未来的AI视频助手将具备更强的长视频处理能力,在监控分析、内容审核、智能问答等场景将发挥更大价值。技术细节可通过论文编号arXiv:2605.17260深入探究。

更多热门内容
马斯克点赞重庆东站引热议,这座世界级超级枢纽如何重塑城市未来?
首先,重庆东站能火出圈、获得马斯克关注,核心原因是它契合当下全球超级交通枢纽的优质建设水准,兼具规模、科技、战略三重硬核优势。 科技赋能是它亮眼的标签,也是吸引海外关注的核心亮点。同时,枢纽的辐射能力将带动…

2026-05-26

荣耀600系列手机正式发布 肖战代言 超大电池与影像升级成亮点
新机采用全新“3D星河美学”设计语言,加入42颗钻闪四芒星元素以及双重磁吸猫眼双子星环设计,并提供幸运星、光羽蓝、青苹果和曜石黑等多款配色。性能方面,荣耀600 Pro搭载天玑8550 Elite处理器;荣…

2026-05-26

荣耀600 Pro来袭:全焦段4K实况记录生活,8000mAh大电池续航无忧
其中幸运星ID设计、支持全焦段4KLive、0.98mm极窄四等边、双重磁吸工艺都是行业首发或独家,2亿超清大底主摄、教科书级护眼屏、8000mAh大电池等配置也做到了行业领先。在功能层面,荣耀600 …

2026-05-26

小米汽车电池经1230项严苛测试,安全性能卓越,引领电动车行业新高度
面对电动车的安全问题,你是否也感到过担忧?看到这,可能你会好奇:小米汽车的供应链布局又是怎样的呢?尽管具体份额尚未最终确定,但这一举措无疑显示了小米汽车在供应链管理上的前瞻性。如果你是电动车车主,你会选择这样…

2026-05-26