阿里通义千问Qwen-Image：20亿参数多模态文生图模型，引领图像创作新潮流-人工智能-ITBear科技资讯

通义千问系列近期宣布了一项重大开源举措，推出了一款名为Qwen-Image的图像生成基础模型。这款模型拥有20亿参数，采用了先进的多模态扩散变换器（MMDiT）技术，不仅在复杂文本渲染和精确图像编辑领域取得了重大突破，还在多个行业基准测试中展现了卓越的性能。

Qwen-Image以其卓越的文本渲染能力尤为引人注目。它能够支持多行布局和段落级文本生成，并能在细节呈现上达到极高的保真度。无论是英文还是中文，Qwen-Image都能游刃有余。例如，在渲染宫崎骏风格的动漫场景时，无论是店铺的牌匾、人物的姿势神态，还是酒缸上的微小文字，Qwen-Image都能精准捕捉并完美呈现。在中文对联的生成中，它不仅准确绘制了对联的左右联和横批，还巧妙融入了书法元素，令人赞叹不已。

在英文文本渲染方面，Qwen-Image同样表现出色。无论是书店橱窗的展示信息，还是复杂的信息图表，它都能准确无误地生成文本，并将其巧妙融入整体设计之中，展现出高度的艺术性和信息传达能力。尤其在处理不同大小和数量的文字时，Qwen-Image都能保持高度的清晰度和准确性，如生成手中纸张上的长段文字，或在玻璃板上呈现完整的手写体段落。

除了文本渲染外，Qwen-Image在图像编辑领域也展现出了非凡的实力。通过增强的多任务训练范式，它能够在编辑过程中保持高度的一致性，支持风格迁移、物体增减、细节增强以及人物姿态调整等多种操作。这使得普通用户也能轻松实现专业级的图像编辑效果，极大地降低了视觉内容创作的门槛。

目前，Qwen-Image已在魔搭社区、Hugging Face和GitHub等平台开源，并提供了详尽的技术报告和演示示例。用户可以通过访问QwenChat的“图像生成”功能，亲身体验这款强大模型的出色表现。对于感兴趣的开发者和研究者来说，ModelScope、Hugging Face和GitHub上的相关链接提供了丰富的资源和信息。

想要了解更多关于Qwen-Image的信息或亲自体验其强大功能，请访问以下链接：

ModelScope: https://modelscope.cn/models/Qwen/Qwen-Image

Hugging Face: https://huggingface.co/Qwen/Qwen-Image

GitHub: https://github.com/QwenLM/Qwen-Image

Demo展示: https://modelscope.cn/aigc/imageGeneration?tab=advanced