Google VLOGGER AI 通过栩栩如生的会说话的头像让照片变得栩栩如生

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

重点说明

  • 谷歌人工智能从单张照片创建栩栩如生的会说话的头像。
  • VLOGGER 使用扩散模型来逼真地制作照片动画。
  • 潜在的应用包括 VR 头像和视频配音。

谷歌研究人员开发了一种名为 VLOGGER 的新人工智能系统,可以生成人们说话、手势和动作的逼真视频 来自一张静态照片。

这项技术在题为“VLOGGER:用于体现化身合成的多模态扩散”的研究论文中进行了描述,它利用扩散模型,这是一种擅长从文本描述创建图像的机器学习类型。通过将这项技术应用于视频并在海量数据集上对其进行训练,VLOGGER 可以以一种非常令人信服的方式将照片制作成动画。

与之前的工作相比,我们的方法不需要对每个人进行训练,不依赖于面部检测和裁剪,生成完整的图像(不仅仅是面部或嘴唇),并考虑广泛的场景(例如可见的躯干)或不同的主体身份),这对于正确合成进行交流的人类至关重要。

作者写道。

VLOGGER 的功能包括自动为不同语言的视频配音、编辑视频,甚至从单个图像创建完整视频。

研究人员声称 VLOGGER 在图像质量和真实感方面优于其他方法。随着这项技术的进步,真实视频和人造视频之间的界限可能会变得模糊。 VLOGGER 让我们一睹人工智能的未来。

然而,人们对潜在的滥用存在担忧。随着 VLOGGER 不断完善自己的能力,制作 Deepfakes 的难度也在不断提高——用另一个人的肖像取代一个人的肖像的视频,比如 发生在泰勒·斯威夫特身上。

您可以查看示例 此处.