Nowa kamera VASA-1 firmy Microsoft tworzy realistyczne mówiące twarze na podstawie obrazów i mowy

Tuż przed wyborami mówi się o złym momencie.

Ikona czasu czytania 2 minuta. czytać


Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków. Ikona podpowiedzi

Przeczytaj naszą stronę z informacjami, aby dowiedzieć się, jak możesz pomóc MSPoweruser w utrzymaniu zespołu redakcyjnego Czytaj więcej

Kluczowe uwagi

  • VASA, nowy system sztucznej inteligencji, tworzy realistyczne mówiące twarze z pojedynczego obrazu i klipu audio.
  • VASA wykracza poza synchronizację ruchu warg, rejestrując emocje i naturalne ruchy głowy, aby uzyskać realistyczne rezultaty.
  • System zapewnia kontrolę nad spojrzeniem, dystansem i emocjami w generowanym filmie.

Badacze firmy Microsoft opracowali nowy system VASA, który może tworzyć realistyczne mówiące twarze z pojedynczego obrazu i klipu audio. VASA-1, pierwszy model zbudowany w oparciu o tę konstrukcję, może wytwarzać mimikę twarzy, precyzyjnie zsynchronizowane ruchy warg i naturalne ruchy głowy. Może to potencjalnie zapewnić bardziej wciągające i realistyczne wrażenia w różnych zastosowaniach.

VASA-1 wykracza poza proste dopasowanie ruchów warg do dźwięku. Potrafi uchwycić szeroką gamę emocji, subtelne niuanse twarzy i naturalne ruchy głowy, dzięki czemu wygenerowane twarze wydają się bardziej wiarygodne. Ma także kontrolę nad generowanym wideo. Użytkownicy mogą określić kierunek spojrzenia postaci, postrzeganą odległość, a nawet jej stan emocjonalny.

Najlepsze jest to, że system jest również zaprojektowany do obsługi nieoczekiwanych danych wejściowych. Mimo że nie był szkolony w zakresie fotografii artystycznej, śpiewu ani mowy w języku innym niż angielski, VASA-1 może nadal generować filmy przy użyciu tych wejść.

VASA-1 uzyskuje ten realizm poprzez rozdzielenie rysów twarzy, pozycji głowy 3D i mimiki na odrębne części. To „rozplątanie” daje niezależną kontrolę i edycję tych aspektów w wygenerowanym wideo.

Naukowcy stojący za VASA-1 podkreślają jego wydajność w czasie rzeczywistym. System może generować filmy o wysokiej rozdzielczości (512 × 512 pikseli) przy dużej liczbie klatek na sekundę. W trybie offline generuje klatki z szybkością 45 klatek na sekundę, natomiast generowanie online zapewnia 40 klatek na sekundę.

Uznając potencjał niewłaściwego użycia, badacze podkreślają pozytywne zastosowania VASA-1. Należą do nich ulepszanie doświadczeń edukacyjnych, pomaganie ludziom w obliczu wyzwań komunikacyjnych oraz zapewnianie towarzystwa lub wsparcia terapeutycznego.

Tak czy inaczej, nadal kwestionuję czas powstania tego artykułu badawczego. Uważam, że można było to opóźnić, biorąc pod uwagę, że ludzie uwierzą we wszystko, co zobaczą w mediach społecznościowych; ta technologia może zostać poważnie wykorzystana niewłaściwie, zwłaszcza gdy zbliżają się wybory. Również uważam tę technologię bardzo podobny do VLOGGERa Google.

Wiem, że to wciąż nowe, ale ruchy oczu wydają mi się dziwne, rozumiesz tutaj.

Forum użytkowników

Wiadomości 0