Google VLOGGER AI 通过栩栩如生的会说话的头像让照片变得栩栩如生

阅读时间图标 2分钟读

日历图标发表于 2024 年 3 月 18 日

发表于 2024 年 3 月 18 日

读者帮助支持 MSpoweruser。如果您通过我们的链接购买，我们可能会获得佣金。

重点说明

谷歌研究人员开发了一种名为 VLOGGER 的新人工智能系统，可以生成人们说话、手势和动作的逼真视频 来自一张静态照片。

这项技术在题为“VLOGGER：用于体现化身合成的多模态扩散”的研究论文中进行了描述，它利用扩散模型，这是一种擅长从文本描述创建图像的机器学习类型。通过将这项技术应用于视频并在海量数据集上对其进行训练，VLOGGER 可以以一种非常令人信服的方式将照片制作成动画。

与之前的工作相比，我们的方法不需要对每个人进行训练，不依赖于面部检测和裁剪，生成完整的图像（不仅仅是面部或嘴唇），并考虑广泛的场景（例如可见的躯干）或不同的主体身份），这对于正确合成进行交流的人类至关重要。

作者写道。

VLOGGER 的功能包括自动为不同语言的视频配音、编辑视频，甚至从单个图像创建完整视频。

研究人员声称 VLOGGER 在图像质量和真实感方面优于其他方法。随着这项技术的进步，真实视频和人造视频之间的界限可能会变得模糊。 VLOGGER 让我们一睹人工智能的未来。

然而，人们对潜在的滥用存在担忧。随着 VLOGGER 不断完善自己的能力，制作 Deepfakes 的难度也在不断提高——用另一个人的肖像取代一个人的肖像的视频，比如发生在泰勒·斯威夫特身上。

您可以查看示例此处.

德韦什·贝里

科技记者

这些是激励我的事情 - 创造信息丰富且有用的内容，追求我对赛车运动和音乐的热情，参与探险，保持健康的生活方式，以及与我可爱的猫 Taco 共度时光。