通义大模型官方公众号近日对外宣布,其研发的Qwen-Image-2512模型正式开源。这一消息标志着图像生成领域的技术迭代迈入新阶段,该模型在视觉效果呈现上实现了突破性进展。
相较于今年8月发布的初代Qwen-Image模型,新版本在三大维度实现显著优化。通过改进的生成算法,人物皮肤质感呈现更趋真实,能够精准还原毛孔、汗毛等微观细节;自然场景中的岩石、水流、植被等纹理表现力大幅提升,光影过渡更加自然;针对文字元素的渲染能力得到质的飞跃,可生成符合物理规律的立体字效,支持多语言混合排版与复杂排版布局。
技术团队透露,此次升级采用多尺度特征融合架构,通过引入3D感知模块增强空间层次感,同时优化注意力机制提升局部细节精度。在开源协议方面,研发方选择完全开放的MIT许可,允许商业机构自由使用、修改及二次开发,此举或将加速AI图像技术在影视制作、游戏开发、广告设计等领域的落地应用。
目前,模型代码及预训练权重已在主流开源平台上线,配套发布的技术文档详细说明了训练数据构成与微调指南。开发者社区反馈显示,该模型在人物肖像生成、产品渲染图制作等场景中展现出明显优势,部分测试案例的视觉效果已接近专业设计师水准。
