ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里通义千问Qwen-Image:20亿参数多模态文生图模型,引领图像创作新潮流

时间:2025-08-05 10:06:17来源:ITBEAR编辑:快讯团队

通义千问系列近期宣布了一项重大开源举措,推出了一款名为Qwen-Image的图像生成基础模型。这款模型拥有20亿参数,采用了先进的多模态扩散变换器(MMDiT)技术,不仅在复杂文本渲染和精确图像编辑领域取得了重大突破,还在多个行业基准测试中展现了卓越的性能。

Qwen-Image以其卓越的文本渲染能力尤为引人注目。它能够支持多行布局和段落级文本生成,并能在细节呈现上达到极高的保真度。无论是英文还是中文,Qwen-Image都能游刃有余。例如,在渲染宫崎骏风格的动漫场景时,无论是店铺的牌匾、人物的姿势神态,还是酒缸上的微小文字,Qwen-Image都能精准捕捉并完美呈现。在中文对联的生成中,它不仅准确绘制了对联的左右联和横批,还巧妙融入了书法元素,令人赞叹不已。

在英文文本渲染方面,Qwen-Image同样表现出色。无论是书店橱窗的展示信息,还是复杂的信息图表,它都能准确无误地生成文本,并将其巧妙融入整体设计之中,展现出高度的艺术性和信息传达能力。尤其在处理不同大小和数量的文字时,Qwen-Image都能保持高度的清晰度和准确性,如生成手中纸张上的长段文字,或在玻璃板上呈现完整的手写体段落。

除了文本渲染外,Qwen-Image在图像编辑领域也展现出了非凡的实力。通过增强的多任务训练范式,它能够在编辑过程中保持高度的一致性,支持风格迁移、物体增减、细节增强以及人物姿态调整等多种操作。这使得普通用户也能轻松实现专业级的图像编辑效果,极大地降低了视觉内容创作的门槛。

目前,Qwen-Image已在魔搭社区、Hugging Face和GitHub等平台开源,并提供了详尽的技术报告和演示示例。用户可以通过访问QwenChat的“图像生成”功能,亲身体验这款强大模型的出色表现。对于感兴趣的开发者和研究者来说,ModelScope、Hugging Face和GitHub上的相关链接提供了丰富的资源和信息。

想要了解更多关于Qwen-Image的信息或亲自体验其强大功能,请访问以下链接:

ModelScope: https://modelscope.cn/models/Qwen/Qwen-Image

Hugging Face: https://huggingface.co/Qwen/Qwen-Image

GitHub: https://github.com/QwenLM/Qwen-Image

Demo展示: https://modelscope.cn/aigc/imageGeneration?tab=advanced

更多热门内容
科大讯飞攻克技术难关,成功适配MoE及强化学习算法至昇腾芯片
金融界8月4日消息,有投资者在互动平台向科大讯飞提问:董秘您好!讯飞星火采用昇腾芯片训练大模型,如何解决大模型训练过程中动态控制流支持不足和刚性架构对新算子和新架构的适配难题? 公司回答表示:您好,科大讯飞研…

2025-08-05