ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

从“生成”到“理解”的跨越:浙大等团队打造的DiGSeg如何重塑图像分割?

时间:2026-05-13 02:19:02来源:互联网编辑:快讯

图像分割技术,这一在无人驾驶、医学影像分析和手机摄影等领域广泛应用的技术,正迎来一场革新。由国内多所顶尖高校联合开展的研究,提出了一种基于扩散模型的新方法,有望突破传统图像分割的局限,实现更广泛的应用场景。

扩散模型,作为当前AI绘图工具的核心技术,其原理是通过逐步添加噪点破坏清晰图像,再训练模型将其还原。这一过程看似与图像分割无关,但研究人员发现,模型在反复训练中积累了丰富的视觉知识,包括物体轮廓、颜色分布和语义关联等。这些知识若加以利用,完全可能转化为强大的图像分割能力。

传统图像分割模型面临一个长期难题:每处理一类新任务,就需要重新训练一个专用模型。例如,识别农田杂草的模型无法直接用于分析医学影像,城市道路分割模型换到乡村场景就失效。研究人员试图构建一个通用分割系统,但始终未能突破技术瓶颈。此次研究提出的DiGSeg系统,通过改造扩散模型,为这一难题提供了新思路。

DiGSeg的核心创新在于将扩散模型从“生成器”转变为“理解器”。研究团队没有沿用以往通过注意力地图间接获取分割结果的方法,而是直接训练模型输出精准的分割掩模。这一过程分为三个关键步骤:首先,利用扩散模型自带的编解码器,将输入图像和分割标注转换为紧凑的潜在表示,提高处理效率;其次,引入CLIP技术,使模型能够理解文字描述与图像内容的对应关系,支持开放词汇分割;最后,对去噪U-Net进行微调,使其在图像和文字信息的双重引导下,逐步还原出正确的分割标注。

在训练阶段,研究团队冻结了扩散模型的大部分参数,仅调整交叉注意力层和小型投影层,保留了模型原有的视觉理解能力。同时,他们设计了一种“多分辨率退火噪点”策略,通过混合不同粗细的噪点,帮助模型同时学习精细边界和大范围语义结构。实验表明,这种噪点配方显著提升了分割边界的平滑度和准确性。

实际应用中,DiGSeg的表现令人瞩目。在开放词汇分割测试中,使用CLIP ViT-L/14模型时,DiGSeg在五个常用基准数据集上的mIoU指标均超过此前最佳方法,最高提升达2.8个百分点。即使使用轻量级CLIP ViT-B/16模型,其性能依然领先。在闭集语义分割任务中,DiGSeg在COCO和ADE20K数据集上的mIoU分别达到50.8和58.6,刷新了记录。更值得一提的是,在遥感道路提取和农业图像分割等跨领域任务中,DiGSeg未经任何调整便取得了优异成绩,证明其通用性并非虚言。

然而,DiGSeg并非完美无缺。在医学图像分割任务中,其表现远不及专用模型。研究人员指出,这是因为CLIP的训练数据中医学影像极少,导致系统对专业术语的理解能力不足。作为扩散模型,DiGSeg的推理速度较慢,最快配置下每秒仅能处理约11张图片,难以满足实时应用需求。不过,研究团队认为,随着扩散模型加速技术的发展,这一问题有望得到解决。

数据效率是DiGSeg的另一大优势。实验显示,即使仅使用ADE20K数据集四分之一的训练量,系统性能下降幅度极小。这一特性对于标注成本高昂的领域,如医学和农业,具有重要意义。研究团队还发现,训练数据与目标任务的相关性比数据量更重要。例如,仅用ADE20K训练的模型,在城市驾驶场景数据集上的表现优于混合COCO数据训练的模型。

DiGSeg的研究为图像分割领域开辟了新方向。它表明,生成模型与理解模型之间的界限并非不可逾越,通过合理改造,生成模型积累的视觉知识可以高效迁移到理解任务中。这一思路或许能减少对大量专属标注数据的依赖,为专业领域的应用带来实际节省。目前,该研究的完整论文已上传至arXiv平台,编号为2604.24575,感兴趣者可查阅获取更多细节。

更多热门内容
数字孪生驱动景区变革:智慧文旅新体验,开启出游与运营双提升新篇章
助力景区实现状态可感知、风险可预判、资源可调控、数据可溯源,重构文旅服务与运营体系,开启智慧运维新范式。数字孪生的景区赋能覆盖全场景,核心聚焦两大维度:游客体验升级与景区运营提效。 多个标杆景区已落地实践:…

2026-05-27

iPhone 20四曲面屏设计惊艳,然耐用性或难突破现款水平引担忧
据一位消息人士透露,苹果预计不会让它在抗摔方面比现有产品系列更耐用,而这都要归因于公司即将坚持的一项决定。 在一项对比 iPhone 17Pro Max 和 Galaxy S25 Ultra 的跌落测试中,…

2026-05-27

iPhone 18 Pro系列将搭载C2基带芯片 5G卫星通信或成日常使用新标配
来源:环球网【环球网科技综合报道】5月27日消息,据forbes报道称,随着今年9月苹果秋季发布会的临近,关于下一代旗舰机型的爆料逐渐浮出水面。据最新供应链及科技媒体消息透露,即将发布的iPhone 18…

2026-05-27

vivo新品发布会三箭齐发!S60影像旗舰领衔,耳机双雄重塑全场景影音体验
5月29日19:30,vivo新品发布会重磅来袭,一口气推出三款硬核新品:vivo S60系列、TWS 5e真无线耳机、首款无线头戴降噪耳机,覆盖手机、便携入耳、专业头戴音频三大场景,全方位升级影音穿戴体验。…

2026-05-27

荣耀WIN Turbo新机来袭:6.79英寸OLED绿洲屏,5月29日震撼发布
IT之家 5 月 27 日消息,荣耀 WIN官方微博今日继续预热 WIN Turbo新机。据介绍,该机将配备荣耀绿洲护眼屏,主打“全天候舒适护眼”。 据介绍,荣耀 WIN Turbo 新机采用了一块 6.7…

2026-05-27

华为“麒麟2026”芯片将面世,逻辑折叠技术开启性能提升与制程突破新路径
PChome 5月25日消息,在国际电路与系统研讨会(ISCAS2026)上,华为公司董事、半导体业务部总裁何庭波表示,将于今年秋季面世的麒麟手机芯片率先采用了逻辑折叠技术,性能大幅提升。 据悉,华为公司董…

2026-05-27