welcome-美嘉体育智东西11月13日报道,今日,国内视频大模型创企生数科技发布Vidu 1.5新版本。该版本全新上线“多图参考”功能,突破了“一致性”难题,具备涵盖人物、物体、环境等融合的多主体一致性能力。
通过上传1~3张参考图,Vidu 1.5可实现对单主体100%的精确控制,同时实现多主体交互控制、主体与场景融合控制,能够无缝集成人物、道具和场景。
在拥有处理更复杂任务能力的同时,Vidu 1.5延续了其业界领先的生成效率,不到30秒即可生成一段视频。
今日上新的Vidu 1.5版本首次展现出上下文学习的能力,告别了单点微调,体现出视觉模型与语言模型一样,在经过充分的训练后,具备对上下文的深刻理解、记忆等能力。这也标志着视觉模型进入全新的“上下文”时代。
视频生成的一个难题是“一致性控制”问题,即在不同的生成视频之间,模型往往难以确保主体的外观、特征、风格保持一致。尤其是在处理包含多个角色或物理的场景时,模型很难做到对多个主体同时控制,主体间的互动也难以保持自然连贯。
Vidu自上线以来就致力于解决“一致性”核心难题,起初具备“角色一致性”生成能力,确保了人物面部特征的一致性;9月又在全球率先发布了“主体一致性”功能,实现角色全身形象一致。此次“多图参考”进一步强化了Vidu在一致性方面的优势。
据介绍,目前除了Vidu,其他视频生成模型都无法有效控制面部一致性。少数模型通过大量相似图片的输入进行成本高昂的单点微调,才能实现基本的面部一致性。
Vidu直接提升了整体视频模型的可控性,通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。其技术突破具体体现在以下三个方面:
1、复杂主体的精准控制:无论是细节丰富的角色,还是复杂的物体,都能保证其在多个不同视角下的一致性。比如造型复杂的3D动画风格角色,在各种刁钻视角下,都能确保头型、服饰等细节一致。
2、人物面部特征和动态表情的自然一致:在人物特写画面中,能确保人物面部特征细节和表情变化自然流畅,不会出现面部僵硬或失线、多主体一致性:
Vidu支持上传多个主体图像,包括人物角色、道具物体、环境背景等,并在视频生成中实现这些元素的交互。例如,用户可以上传主体、客体和环境的图片,创建定制角色身穿特定服装、在定制空间内自由动作的场景。Vidu还支持多个主体之间的互动,用户可以上传多个自定义角色,让它们在指定空间内进行交互。此外,Vidu支持融合不同主体特征,例如将角色A的正面与角色B的反面无缝融合,创造出全新的角色或物体。
此前LoRA微调一直是业界解决一致性问题的主流方案。LoRA(Low-Rank Adaptation)方案,即在预训练模型的基础上,用特定主体的多段视频进行微调,让模型理解该主体的特征,从而能生成该主体在不同角度、光线和场景下的形象,保证其在若干次不同生成时的一致性。
但通常LoRA需要20~100段的视频,数据构造繁琐,且需要一定的训练时间,通常需要数个小时甚至更久的时间,成本是单次视频生成的成百上千倍。
在语言模型中,理解上下文不仅仅是处理单一的文本输入信息,而是通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。
2、统一架构:大语言模型和Vidu均用单个Transformer统一建模变长的输入和输出;
Vidu 1.5则展现了出色的上下文学习能力。这意味着视觉模型不仅具备了理解和想象的能力,还能够在生成过程中进行记忆管理。