新一代视觉语言模型来袭！阿里通义千问支持20分钟长视频创作，颠覆你的想象！-手机快报-ITBear科技资讯

【ITBEAR】9月2日消息，近日，阿里云通义千问宣布推出全新升级的第二代视觉语言模型Qwen2-VL，该模型在视觉和语言理解能力上实现了质的飞跃。

与上一代相比，Qwen2-VL展现出了更为出色的性能。它不仅能够轻松解读各种分辨率和尺寸的图片，更在多项基准测试中，包括DocVQA、RealWorldQA和MTVQA，取得了令人瞩目的全球领先成绩。值得一提的是，该模型还具备了对长视频内容的深度理解能力，可以处理超过20分钟的视频，并支持基于视频的问答、对话以及内容创作等多种应用场景。

据ITBEAR了解，Qwen2-VL此次推出了2B和7B两种尺寸的模型，同时还提供了量化版本以供选择。此外，旗舰级的Qwen2-VL-72B模型也已通过API形式在阿里云百炼平台上开放，供用户直接调用，大大提升了使用的便捷性。

在功能方面，Qwen2-VL还展现了强大的视觉智能体实力。它能够自主操作手机和机器人，根据所处的视觉环境和文字指令进行智能化的自动操作，这一功能的加入无疑将极大地拓展模型的应用范围。

值得一提的是，Qwen2-VL还具备多语言文本理解能力，可以处理包括中文、英文、多数欧洲语言、日语、韩语、阿拉伯语以及越南语等在内的多种语言。这一特性将极大地提升其在国际市场中的竞争力。

在技术层面，Qwen2-VL延续了ViT加Qwen2的经典串联结构，并在此基础上进行了多项创新。所有尺寸的模型都采用了统一的600M规模ViT，这使得模型能够同时支持图像和视频的输入。为了进一步提升模型的感知和理解能力，团队还实现了对原生动态分辨率的全面支持，并引入了创新的多模态旋转位置嵌入（M-ROPE）方法。