Що таке новий AI-модуль Meta для композиції аудіо з простих підказок, MAGNeT?

Значок часу читання 2 хв. читати


Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання. Значок підказки

Прочитайте нашу сторінку розкриття інформації, щоб дізнатися, як ви можете допомогти MSPoweruser підтримувати редакційну команду Читати далі

Мета магазин

MAGNeT від Meta — це нова модель перетворення тексту в аудіо, здатна генерувати високоякісний звук із текстових описів.

MAGNeT відходить від традиційних авторегресійних методів, які генерують аудіо по одному сегменту за раз, використовуючи неавторегресійний підхід. Це дозволяє паралельно прогнозувати кілька аудіосегментів, значно збільшуючи швидкість генерації. Тести показують, що MAGNeT може бути в сім разів швидшим за своїх попередників.

Це означає, що він може прогнозувати кілька аудіочастей одночасно, а не генерувати їх одну за одною. Це як мати купу печей, які одночасно готують різні страви.

Крім того, MAGNeT містить гібридний механізм, який поєднує початкову точність авторегресійних методів з ефективністю неавторегресійних методів. Це гарантує, що згенероване аудіо зберігає високу точність, водночас збільшуючи швидкість.

Іншими словами, він використовує спеціальну техніку «гібридного механізму», щоб гарантувати хороше звучання звуку, незважаючи на швидке генерування.

Потенційне застосування MAGNeT величезне й охоплює різні галузі. Ось кілька яскравих прикладів:

  • Композиція музики: Музиканти та продюсери можуть використовувати MAGNeT для швидкого експериментування з новими ідеями та створення музичних елементів за допомогою ШІ.
  • Звукове оформлення фільмів та ігор: MAGNeT може створювати динамічні та захоплюючі звукові доріжки в реальному часі, покращуючи враження для глядачів і гравців.
  • Голосові програми: Здатність моделі генерувати синтетичні голоси з природним звучанням є перспективною для віртуальних помічників та інших голосових інтерактивних технологій.
  • Інструменти доступності: Можливості перетворення тексту в мовлення в режимі реального часу MAGNeT можуть розширити можливості людей із вадами зору та зробити революцію в рішеннях доступності.

Meta AI вибрав відкритий вихідний код MAGNeT, сприяючи співпраці та інноваціям у створенні тексту в аудіо. Підхід із відкритим вихідним кодом також прокладає шлях для створення нових методологій ШІ у звуковому дизайні та інших сферах, де ШІ взаємодіє з органами чуття людини.

Важливо зазначити, що MAGNeT все ще знаходиться в стадії розробки, і його можливості та обмеження продовжують вивчатися. 

більше тут.

Детальніше про теми: Meta