微软的 VALL-E 复制原始演讲者的声音和情绪来合成个性化演讲

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

微软新的语言模型VALL-E是一个有趣的人工智能工具,可以复制人的声音,甚至可以复制其中的情绪和语调。 它只需要三秒钟的录音就可以用作声音提示,但可以使用原始说话者的声音传递不同的信息。 (人工智能专题 通过 中央的Windows)

微软在人工智能方面投入了大量资金。 除了 OpenAI 的 ChatGPT AI 技术(将集成到 和别的 Office应用程序),它还有最近发布的 VALL-E 工具。 它是在 60,000 小时的英语语音数据上训练的语言模型。 通过这项技术,一个人可以使用不同说话者的声音合成个性化的语音。

在一篇论文中详述的实验中(美国康奈尔大学), VALL-E 经过测试并取得了良好的结果。

“实验结果表明,VALL-E 在语音自然度和说话人相似度方面明显优于最先进的零样本 TTS 系统,”论文中写道。 “此外,我们发现 VALL-E 可以在合成中保留说话者的情绪和声音提示的听觉环境。”

在一些 样本 共享,使用声音提示的合成语音听起来几乎完美无缺。 VALL-E 成功地复制了原演讲者的相同语调和情绪,甚至用它们来发表截然不同的个性化演讲。 例如,它能够制作同一句话的录音(“我们必须减少塑料袋的数量“)以不同的情绪或语气表达,例如愤怒、困倦、中立、娱乐和厌恶。

尽管有如此出色的性能,但微软可能有进一步的计划在未来对 VALL-E 进行更多改进,以帮助其提供更完美的性能。 虽然它对各种案例场景都有用,但该技术在错误的人手中也可能很危险。 值得庆幸的是,它目前不对公众开放,这可以让雷德蒙德公司有更多时间考虑如何以及在何处提供这项技术。

你对此有何看法? 在评论部分让我们知道。 

有关主题的更多信息: 人工智能, 瓦力

发表评论

您的电邮地址不会被公开。 必填带 *