Stability AI 通过 Stable Audio 2.0 将 AI 驱动的音频生成提升到新的水平

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

重点说明

  • Stability AI 发布了 Stable Audio 2.0 模型。
  • Stable Audio 2.0 可以生成完整长度的曲目。
  • 新模型还可以从音频样本生成输出。
稳定的音频

介绍完之后 从 3D 图像生成 2D 视频 上个月,Stability AI 发布了 Stable Audio 2.0,将 AI 生成的音频提升到一个新的水平。 Stable Audio 2.0 建立在 Stable Audio 1.0 的基础上,允许用户生成歌曲,包括前奏、展开、结尾和立体声效果,长度最多为三分钟。除了生成完整长度的音轨外,Stable Audio 2.0 还提供了许多其他值得注意的增强功能。

虽然全曲目生成很有用,但音乐艺术家似乎广泛赞赏的是新添加的对音频到音频功能的支持。就像输入文本提示可以生成音乐一样,现在可以为 Stability AI 上传小型音频样本,将其转换为“各种声音”。因此,得益于稳定音频 2.0,以前的一个小想法现在可以变成一个完整制作的样本。

值得指出的是,您获得的最终输出是可定制的。换句话说,如果您不喜欢该音频中的某些内容,您可以更改风格和音调以满足您的特定需求。也就是说,上传的内容应该没有版权声明。

在其官方博客文章中分享了有关 Stable Audio 2.0 模型 Stability AI 的一些研究细节时, :

Stable Audio 2.0 潜在扩散模型的架构经过专门设计,能够生成具有连贯结构的完整音轨。为了实现这一目标,我们对系统的所有组件进行了调整,以提高长期的性能。一种新的高度压缩的自动编码器将原始音频波形压缩为更短的表示形式。对于扩散模型,我们采用类似于稳定扩散 3 中使用的扩散变压器 (DiT) 来代替之前的 U-Net,因为它更擅长处理长序列上的数据。这两个元素的结合产生了一个能够识别和再现高质量音乐作品所必需的大规模结构的模型。

Stability Audio 2.0 不仅可以生成完整长度的曲目,还可以帮助您制作各种声音和音频效果,从某人打字时发出的声音到人群的欢呼声。

如果这一切听起来令人印象深刻,您今天就可以开始免费使用它,方法是访问 稳定音频网站。另一方面,Stable Audio 2.0 将“很快”在 Stable Audio API 上提供。

有关主题的更多信息: 音频生成, 稳定人工智能, 稳定音频2.0

发表评论

您的电邮地址不会被公开。 必填带 *