多模态视频模型Vidu1.5：智能涌现，Scaling Law新起点？-人工智能-ITBear科技资讯

【ITBEAR】在自然语言处理领域，一个显著的转折点正在显现：单纯的模型规模和数据量增加，似乎已触及性能提升的瓶颈。业界开始质疑，Scaling Law是否已走到尽头，低精度训练与推理是否正导致模型性能提升的边际效益不断递减。然而，这一挑战也为新的探索开辟了道路。

尽管Scaling Law在自然语言处理中显露出“力不从心”的迹象，但在多模态模型领域，它还未被真正验证。多模态数据因其复杂性，在训练规模上难以达到与自然语言处理相当的水平。然而，清华系大模型公司生数科技最新发布的Vidu 1.5，却为这一领域带来了新曙光。

Vidu 1.5通过持续的规模扩展（Scaling Up），在多模态领域实现了突破性的“奇点”时刻。它涌现出了“上下文能力”，能够理解和记忆输入的多主体信息，并展现出对复杂主体更精准的控制。无论是细节丰富的角色还是复杂的物体，通过上传不同角度的三张图片，Vidu 1.5都能确保单主体形象的高度一致。

不仅如此，Vidu 1.5还实现了多主体之间的一致性。用户可上传包含人物角色、道具物体、环境背景等多种元素的图像，Vidu能够将这些元素无缝融合，并实现自然交互。这一成就不仅彰显了Scaling Law在多模态领域的潜力，更体现了生数科技所采用的无微调、大一统技术架构的优越性。

回顾大语言模型的发展历程，从GPT-2到GPT-3.5的质变，同样实现了从预训练+特定任务微调方式到整体统一框架的突破。Vidu 1.5的推出，标志着多模态大模型也迎来了类似的GPT-3.5时刻。生数科技CTO鲍凡表示，他们从一开始就瞄准了通用多模态大模型的目标，并未在Sora等已有方案上亦步亦趋。

生数科技不仅在技术路线上具有先发优势，更具备持续突破的能力。Vidu与业界其他视频生成模型相比，已初步形成技术代差。这得益于其重新设计的底层架构，该架构将问题统一为视觉输入、视觉输出的patches，并采用单个网络统一建模变长的输入和输出。

实现主体一致性，是视频模型领域的一大难题。鲍凡比喻道，这好比制造一台性能卓越的发动机，虽然知道其重要性，但实现起来却困难重重。Vidu在主体一致性方面的成果，并非一蹴而就。从Vidu上线之初主打解决一致性问题，到逐步拓展到单主体及多主体控制的全面能力，每一步都凝聚了团队的智慧与汗水。

与其他仍采用预训练+LoRA微调方案的模型不同，Vidu采用的大一统架构，无需单独进行数据收集、标注和微调，仅需1到3张图就能输出高质量视频。这一架构不仅提高了效率，还避免了过拟合和特征不精准等问题。

随着高质量数据的持续投入和模型规模的扩大，Vidu 1.5在底层视频生成模型上也展现出了类似于大语言模型的智能涌现。例如，它能够融合不同主体，创造出全新的角色，这是之前未曾预料到的能力。Vidu 1.5在上下文能力和记忆能力方面也取得了显著提升，能够生成一致、连贯且有逻辑的视频内容。

生数科技接下来将继续沿着上下文能力这一主线进行迭代。鲍凡表示，随着模型上下文能力的提升，将为用户带来更大的想象空间。例如，通过输入电影切片，可以生成具有相似摄影技巧的视频片段；通过输入经典打斗动作的视频，可以生成打斗技巧精妙、画面精良的视频。

Vidu在上下文能力方面的迭代有着自己的节奏和规划。从初期仅能参考单一主体的面部特征，到现在能参考多个主体，未来还将实现参考拍摄技巧、运镜、调度等更多因素。这一过程中，参考对象从具体到抽象，要求和难度逐渐提升，但Vidu正稳步前行。