Что такое новый AI-модуль Meta для создания аудио из простых подсказок, MAGNeT?

Значок времени чтения 2 минута. читать


Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам. Значок подсказки

Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее

Мета магазин

MAGNeT от Meta — это новая модель преобразования текста в аудио, способная генерировать высококачественный звук из текстовых описаний.

MAGNeT отходит от традиционных методов авторегрессии, которые генерируют аудио по одному сегменту за раз, используя неавторегрессивный подход. Это позволяет параллельно прогнозировать несколько аудиосегментов, значительно увеличивая скорость генерации. Тесты показывают, что MAGNeT может быть в семь раз быстрее своих предшественников.

Это означает, что он может прогнозировать несколько частей звука одновременно, а не генерировать их одну за другой. Это похоже на то, как если бы в нескольких духовках одновременно готовились разные блюда.

Кроме того, MAGNeT включает в себя гибридный механизм, который сочетает в себе начальную точность методов авторегрессии с эффективностью неавторегрессионных методов. Это гарантирует, что сгенерированный звук сохранит высокую точность, сохраняя при этом повышенную скорость.

Другими словами, он использует специальную технику «гибридного механизма», обеспечивающую хорошее звучание звука, несмотря на то, что он генерируется быстро.

Потенциальные возможности применения MAGNeT обширны и охватывают различные отрасли. Вот несколько ярких примеров:

  • Музыкальная композиция: Музыканты и продюсеры могут использовать MAGNeT для быстрого экспериментирования с новыми идеями и создания музыкальных элементов с помощью искусственного интеллекта.
  • Звуковое оформление фильмов и игр: MAGNeT может создавать динамичные и захватывающие саундтреки в реальном времени, улучшая впечатления зрителей и игроков.
  • Голосовые приложения: Способность модели генерировать естественно звучащие синтетические голоса открывает перспективы для виртуальных помощников и других голосовых интерактивных технологий.
  • Инструменты доступности: Возможности MAGNeT по преобразованию текста в речь в режиме реального времени могут расширить возможности людей с нарушениями зрения и произвести революцию в решениях по обеспечению доступности.

Мета ИИ выбрал MAGNeT с открытым исходным кодом, способствуя сотрудничеству и инновациям в области преобразования текста в аудио. Подход с открытым исходным кодом также открывает путь для создания новых методологий ИИ в звуковом дизайне и других областях, где ИИ взаимодействует с человеческими чувствами.

Важно отметить, что MAGNeT все еще находится в стадии разработки, и его возможности и ограничения продолжают изучаться. 

Больше здесь.

Подробнее о темах: Мета