welcome-美嘉体育TAG标签主页

把Runwa美嘉体育y、Luma们一锅端了!这款视频模型上“杀手级”功能:一致性魔咒终于打破

作者:小编    发布时间:2024-11-15    浏览量:

  welcome-美嘉体育把Runway、LumaAI等一众视频模型都一锅端了。海外用户评价,一众视频模型都实现不了的能力,它竟然给攻破了,甚至在语义理解甚至比图像模型王者Midjorney还强。

  这背后就是国产视频模型Vidu——全球最早对标Sora发布的视频模型。昨天新上的“杀手级”功能:多主体一致性。(传送门:)

  这个功能上周六Vidu就在X上偷偷预热了,昨天正式上线。简单讲,这个功能支持上传1~3张参照,来实现对多主体的控制。

  以官方发布的demo为例,丢入“黑人男子、机甲、城市街景”三张图,Vidu 能提取主体、服装、场景,将三者无缝融合, 输出一段“男子穿着机甲走在城市街道”的视频内容。

  想不到啊!要知道,之前的视频模型理解一段promot都费劲,需要来回抽卡,现在用Vidu生成视频,已经可以跟写作文似的,明确地点、人物、行为、形象,就能实现精准控制和编辑。

  海外用户更是直呼“改变了游戏规则”,未来“只要上传一张角色图+一张环境图”就可以创作连续的视频故事。

  比如有用户上传一个女战士的形象图+战场场面,就可以生成堪称史诗级的战争画面。

  更有上难度的,直接上群像图,一次上传十个主体(拼图放一块),让Vidu生成一段视频,但显然,这都没有难倒它。

  前面提到,这是目前Runway、Luma AI等全球一众高手都不具备的能力,在功能层面,上述几家都仅仅支持单图输入。

  这是视频模型的老大难问题,在吐出生成结果的时候,模型往往难以确保主体(无论是人物还是物体)的外观、特征、风格保持一致。

  尤其是一上难度,涉及多主体时,模型更是很难对多个主体同时进行控制,更别提主体间还要保持自然连贯的交互。

  不过这一“世纪难题”现在被Vidu 完美解决了!Attention please!上新期间每人3次免费机会,大家且玩且珍惜。

  早在7月底全球上线时,Vidu就推出了“角色一致性”功能,解决人脸一致性问题,对比看,近期可灵1.5刚上线人脸一致性功能。

  在9月初,Vidu又全球首发了“主体一致性”功能,允许用户上传任意主体的一张图片,从“人脸一致”拓展到“主体一致”,例如人物的全身一致,不再局限于人脸,甚至动物、商品的一致性保持也不在话下。

  短短两个月,Vidu又又又升级了,能实现对单主体的多角度一致,也能实现多主体交互控制、主体与场景融合控制。

  通过上传特定主体的不同角度或不同景别下的图片,能够能实现对单主体的100%精准控制。

  难点可不仅是还原少女的美貌,还有她的头饰、发型、服饰十分复杂,模型很容易犯脱离图片“自行脑补”的灾难。

  但在Vidu生成的中景镜头视频中,美女姐姐转个圈圈(涉及背后、侧面视角),不同视角下,角色形象始终如一,保持得挺好。

  通过上传多张人物特写图,Vidu能够确保人物面部的特征细节和表情变化自然流畅,不会出现面部僵硬或失真的现象。

  多个主体的组合,可以是人物+人物,也可以是人物+场景、人物+道具等,甚至是人物+道具+场景,并在视频生成中实现这些元素的自然交互。

  首先是多主体交互,用户可以上传多个自定义角色,让它们在指定空间内进行交互。何不试试让AI界奥特曼和光之巨人迪伽奥特曼同框出镜?

  这里还可以是融合不同主体特征,比如人脸融合,将角色A的正面与角色B的反面无缝融合。

  终极难度就是,人物+道具+场景,用户可以上传主体、客体和环境的图片,创建定制角色身穿特定服装、在定制空间内自由动作的场景。

  比如丢给它一张马斯克帅照、一件东北花袄、一辆电动小摩托,输入prompt:

  必须要提的一点是,以上这些能力的实现并不来自业界主流的LoRA(Low-Rank Adaptation)微调方案。

  简单理解,过往的视频模型如果想实现上述换装、人脸融合等场景能力,均需要针对每一个场景设计进行微调。

  LoRA效果虽不错,但通常需要20~100段视频,数据构造繁琐,且需要数小时甚至更久的训练时间成本为单次视频生成的成百上千倍;另外LoRA微调模型容易产生过拟合,导致对于动态的表情或肢体动作的变化,很难有效控制。

  但Vidu选择在自身通用架构上持续迭代升级,通过提升基础模型带来更泛化的能力,无需专门的数据采集、数据标注、微调训练环节。

  仅靠三张图就实现高可控的稳定输出,直接省去LoRA“炼丹”。好家伙,LoRA终结器嘛这不是!

  细品,这不就是和LLM一致的“设计哲学”:将所有问题统一为简单输入输出,从压缩中获取智能,同样单个网络统一建模变长的输入和输出。

  一旦接受了这个设定,再细品看,想必我们想到了同样的一个类似事件:ChatGPT的智能涌现。

  相较于GPT-2、GPT-3,初代ChatGPT背后GPT-3.5之所以能够一炮轰出个AI新时代,正是因为OpenAI在其基础模型上大花功夫,带来通用模型能力的提升。

  从开始的预训练+微调的路径,伴随不断的Scaling Up,最终基于一个通用基础模型实现泛化能力。

  Vidu的提出让我们看到了,视频模型的训练范式也从“预训练+微调”的路径升级到了通用化的统一架构,并在任务层面实现泛化。

  另外还有一点,则是上下文理解能力方面,GPT-3.5能够更好地处理复杂的指令和问题,理解更长的上下文信息,通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。

  此次升级,从单图输入到输入多张参考图像,Vidu能够理解多个输入图像的准确含义和它们之间的关联性,以及能够根据这些信息生成一致、连贯且有逻辑的输出。

  这与大语言模型的“上下文学习”(In-Context Learning)能力具有显著相似性,通过上下文学习基于少量的示例或提示快速适应新任务。

  至此,Vidu不再仅仅是从文本到视频的渲染工具,不仅仅具备了理解和想象的能力,还能够在生成过程中对上下文信息进行记忆管理。

  视觉模型也出现了和语言模型一样的“大跨越”,AGI版图里的一块重要拼图,正在加速进化中。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

推荐新闻

在线客服 :

服务热线:400-123-4567

电子邮箱: admin@dezhouyayi.com

公司地址:广东省广州市天河区美嘉体育工业园88号

深圳美嘉体育服饰有限公司一家集品牌女装 男装 童装 中老年装 批发及加盟于一体的大型专业品牌服饰折扣公司,成立于2005年,在长期的公司经营中,和客户形成了良好而坚定的联系

友情链接:
Copyright © 2012-2025 美嘉体育公司 版权所有