Новий VASA-1 від Microsoft створює реалістичні розмовні обличчя із зображень і мови

Перед виборами говорять про поганий момент.

Значок часу читання 2 хв. читати


Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання. Значок підказки

Прочитайте нашу сторінку розкриття інформації, щоб дізнатися, як ви можете допомогти MSPoweruser підтримувати редакційну команду Читати далі

Основні нотатки

  • VASA, нова система штучного інтелекту, створює реалістичні розмовляючі обличчя з одного зображення та аудіокліпу.
  • VASA виходить за рамки синхронізації губ, фіксуючи емоції та природні рухи голови для реалістичних результатів.
  • Система пропонує контроль над поглядом, відстанню та емоціями у згенерованому відео.

Дослідники Microsoft розробили нову систему VASA, яка може створювати реалістичні розмовляючі обличчя з одного зображення та аудіокліпу. VASA-1, перша модель, побудована на цьому каркасі, може створювати міміку, точно синхронізовані рухи губ і природні рухи голови. Це має потенціал для створення більш привабливого та реалістичного досвіду в різних програмах.

VASA-1 виходить за рамки простого зіставлення рухів губ зі звуком. Він може вловлювати широкий діапазон емоцій, тонкі нюанси обличчя та природні рухи голови, завдяки чому створені обличчя виглядають більш правдоподібними. Він також контролює згенероване відео. Користувачі можуть вказати напрямок погляду персонажа, сприйняту відстань і навіть свій емоційний стан.

Найкраще те, що система також розроблена для обробки несподіваних вхідних даних. Незважаючи на те, що він не навчався на художніх фотографіях, співочих голосах або неанглійській мові, VASA-1 все одно може створювати відео за допомогою цих вхідних даних.

VASA-1 отримує цю реалістичність, розділяючи риси обличчя, 3D-положення голови та вираз обличчя на окремі частини. Це «розлучення» забезпечує незалежний контроль і редагування цих аспектів у створеному відео.

Дослідники, які стоять за VASA-1, підкреслюють його ефективність у режимі реального часу. Система може створювати відео високої роздільної здатності (512 × 512 пікселів) з високою частотою кадрів. В автономному режимі він генерує кадри зі швидкістю 45 кадрів на секунду, тоді як онлайн-генерація забезпечує 40 кадрів на секунду.

Визнаючи можливість неправильного використання, дослідники підкреслюють позитивне застосування VASA-1. Вони включають покращення освітнього досвіду, допомогу людям із проблемами спілкування та надання товариства чи терапевтичної підтримки.

У будь-якому випадку, я все ще сумніваюся в термінах цієї дослідницької роботи. Я вважаю, що це могло бути відкладено, враховуючи, що люди повірять всьому, що побачать у соціальних мережах; цією технологією можна серйозно зловживати, особливо коли наближаються вибори. Крім того, я знаходжу цю технологію дуже схожий на VLOGGER від Google.

Я знаю, що він ще новий, але рух очей мені здається дивним тут.