Stability AI 通过 Stable Audio 2.0 将 AI 驱动的音频生成提升到新的水平

主页 » 新闻

阅读时间图标 2分钟读

日历图标发表于 2024 年 4 月 3 日

by 拉胡尔

发表于 2024 年 4 月 3 日

读者帮助支持 MSpoweruser。如果您通过我们的链接购买，我们可能会获得佣金。

重点说明

Stability AI 发布了 Stable Audio 2.0 模型。
Stable Audio 2.0 可以生成完整长度的曲目。
新模型还可以从音频样本生成输出。

介绍完之后从 3D 图像生成 2D 视频上个月，Stability AI 发布了 Stable Audio 2.0，将 AI 生成的音频提升到一个新的水平。 Stable Audio 2.0 建立在 Stable Audio 1.0 的基础上，允许用户生成歌曲，包括前奏、展开、结尾和立体声效果，长度最多为三分钟。除了生成完整长度的音轨外，Stable Audio 2.0 还提供了许多其他值得注意的增强功能。

虽然全曲目生成很有用，但音乐艺术家似乎广泛赞赏的是新添加的对音频到音频功能的支持。就像输入文本提示可以生成音乐一样，现在可以为 Stability AI 上传小型音频样本，将其转换为“各种声音”。因此，得益于稳定音频 2.0，以前的一个小想法现在可以变成一个完整制作的样本。

在其官方博客文章中分享了有关 Stable Audio 2.0 模型 Stability AI 的一些研究细节时，写:

Stable Audio 2.0 潜在扩散模型的架构经过专门设计，能够生成具有连贯结构的完整音轨。为了实现这一目标，我们对系统的所有组件进行了调整，以提高长期的性能。一种新的高度压缩的自动编码器将原始音频波形压缩为更短的表示形式。对于扩散模型，我们采用类似于稳定扩散 3 中使用的扩散变压器 (DiT) 来代替之前的 U-Net，因为它更擅长处理长序列上的数据。这两个元素的结合产生了一个能够识别和再现高质量音乐作品所必需的大规模结构的模型。

Stability Audio 2.0 不仅可以生成完整长度的曲目，还可以帮助您制作各种声音和音频效果，从某人打字时发出的声音到人群的欢呼声。

如果这一切听起来令人印象深刻，您今天就可以开始免费使用它，方法是访问稳定音频网站。另一方面，Stable Audio 2.0 将“很快”在 Stable Audio API 上提供。

有关主题的更多信息：音频生成, 稳定人工智能, 稳定音频2.0

拉胡尔

科技记者

Rahul 是一名科技记者，在报道软件（主要是 Windows 和 Android）方面拥有多年经验。他还喜欢分享她对各种科技话题的看法。

发表评论