ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

南洋理工频谱强制技术:为AI图像生成精准“导航” 聚焦有效信号

时间:2026-06-20 01:16:40来源:互联网编辑:快讯

南洋理工大学S-Lab实验室近期发布的一项预印本研究,为提升AI图像生成模型的训练效率提供了新思路。该研究指出,现有扩散模型在训练过程中存在大量无效计算,并提出了名为“频谱强制”(Spectral Forcing)的解决方案。实验表明,该方法可在几乎不增加计算成本的前提下,显著提升模型性能并缩短训练时间。

扩散模型通过逐步去除图像噪声来学习生成清晰图像,其核心机制类似于将照片分解为噪点再反向还原。然而,研究团队发现,在训练的早期阶段,图像中的高频细节(如纹理、边缘)往往已被噪点完全覆盖,AI却仍在尝试从这些无意义信号中提取信息。这种“盲目努力”不仅浪费计算资源,还可能干扰模型对有效数据的学习。

为解决这一问题,研究团队设计了频谱强制技术。该技术通过动态调整低通滤镜的截止频率,在训练的不同阶段屏蔽不同范围的高频信息。具体而言,在训练初期,滤镜仅允许极低频信号通过;随着训练推进,截止频率逐步提高,更多细节逐渐被纳入训练范围。这一过程通过二维离散余弦变换实现,计算开销仅占总训练成本的0.5%,且无需修改模型架构或训练参数。

实验验证了频谱强制的有效性。在ImageNet-256数据集上,采用该技术的模型在训练60个轮次后,FID分数(衡量生成图像质量)从24.19降至20.68,提升幅度达14.5%;Inception Score(衡量多样性和清晰度)从83.28提升至93.96,增幅约13%。更关键的是,模型达到相同质量所需的训练轮次减少了17%至33%,硬件成本几乎未增加。在更高分辨率(512×512)的测试中,该技术仍能带来稳定提升。

研究进一步揭示了频谱强制的适用边界。当图像被切割为较大图块(如64块)时,模型本身已难以捕捉高频细节,此时频谱强制的效果最为显著;若图块数量增加(如256块),模型本身已能处理更多细节,频谱强制的贡献则相应减弱。该技术对数据内容敏感:若图像高频部分包含关键信息(如医学影像中的病变特征),强行屏蔽可能损害模型性能。

在文字生成图像任务中,频谱强制同样表现出色。以SenseNova-U1模型为例,在DPG-Bench基准测试中,其综合得分从64.35提升至67.85,涵盖的13个子类别中有9个获得改善。提升最明显的维度包括“实体状态”“实体整体”等依赖低频语义信息的类别,而依赖高频细节的类别则变化较小。这一结果与理论预测一致,进一步验证了频谱强制的机制设计。

研究团队还对比了多种替代方案,发现恒定低通滤镜、空间域高斯模糊等方法效果均不如频谱强制。原因在于,这些方法或永久屏蔽部分频率,或无法精准匹配训练阶段的需求,而频谱强制的动态调整机制恰好弥补了这些缺陷。线性调度方案(截止频率随时间均匀扩大)在多数场景下表现稳健,尤其在标准ImageNet配置中优于理论推导的解析方案,这为实际部署提供了实用参考。

目前,该研究的完整论文已通过预印本平台发布,论文编号为arXiv:2606.15236。研究团队强调,频谱强制并非万能解决方案,但其为优化扩散模型训练提供了低成本、高回报的路径。对于开发者而言,这一技术可轻松集成到现有流程中;对于普通用户,则意味着未来图像生成模型的训练效率将进一步提升,生成质量更高且成本更低。

更多热门内容
印度五舱空间站设计亮相:舱段多却容积小,背后是多重能力差距
印度则属于典型的跨越式追赶路径,在尚未完全完成空间实验室验证、重型火箭尚未成熟、载人飞行尚未实现的情况下,直接规划五舱空间站方案,其本质是对现有能力的一种结构性折中,以实现拥有自主空间站这一战略…

2026-06-19

黄景瑜300万飞太空背后:前央视主持雷诗情跨界创业,掌控首批登天名单
大家讨论的重点几乎都落在两块:一是票价高得让普通人望而却步,二是黄景瑜背后的能量似乎大得惊人,竟然能拿下这种有市无价的体验资格。还有一处细节很多外人并不清楚——雷诗情给自己也锁定了一个太空体验席位。 一个…

2026-06-19

比地球小未必不宜居?斯坦福新模型解锁行星大气层“生命密码”
最近一项来自斯坦福大学的研究告诉我们,答案比想象中更有层次——“比地球还小”的行星并非立刻被排除在生命候选名单之外,但能否长期保有大气层,决定了它们能不能成为真正的宜居行星。模型显示,当行星半径至少达到地球的…

2026-06-19