Nowa kamera VASA-1 firmy Microsoft tworzy realistyczne mówiące twarze na podstawie obrazów i mowy

Tuż przed wyborami mówi się o złym momencie.

2 minuta. czytać

Zaktualizowano na 10 lipca 2024 r.

zaktualizowany 10 lipca 2024 r.

Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków.

Kluczowe uwagi

VASA, nowy system sztucznej inteligencji, tworzy realistyczne mówiące twarze z pojedynczego obrazu i klipu audio.
VASA wykracza poza synchronizację ruchu warg, rejestrując emocje i naturalne ruchy głowy, aby uzyskać realistyczne rezultaty.
System zapewnia kontrolę nad spojrzeniem, dystansem i emocjami w generowanym filmie.

Badacze firmy Microsoft opracowali nowy system VASA, który może tworzyć realistyczne mówiące twarze z pojedynczego obrazu i klipu audio. VASA-1, pierwszy model zbudowany w oparciu o tę konstrukcję, może wytwarzać mimikę twarzy, precyzyjnie zsynchronizowane ruchy warg i naturalne ruchy głowy. Może to potencjalnie zapewnić bardziej wciągające i realistyczne wrażenia w różnych zastosowaniach.

VASA-1 wykracza poza proste dopasowanie ruchów warg do dźwięku. Potrafi uchwycić szeroką gamę emocji, subtelne niuanse twarzy i naturalne ruchy głowy, dzięki czemu wygenerowane twarze wydają się bardziej wiarygodne. Ma także kontrolę nad generowanym wideo. Użytkownicy mogą określić kierunek spojrzenia postaci, postrzeganą odległość, a nawet jej stan emocjonalny.

Najlepsze jest to, że system jest również zaprojektowany do obsługi nieoczekiwanych danych wejściowych. Mimo że nie był szkolony w zakresie fotografii artystycznej, śpiewu ani mowy w języku innym niż angielski, VASA-1 może nadal generować filmy przy użyciu tych wejść.

VASA-1 uzyskuje ten realizm poprzez rozdzielenie rysów twarzy, pozycji głowy 3D i mimiki na odrębne części. To „rozplątanie” daje niezależną kontrolę i edycję tych aspektów w wygenerowanym wideo.

Naukowcy stojący za VASA-1 podkreślają jego wydajność w czasie rzeczywistym. System może generować filmy o wysokiej rozdzielczości (512 × 512 pikseli) przy dużej liczbie klatek na sekundę. W trybie offline generuje klatki z szybkością 45 klatek na sekundę, natomiast generowanie online zapewnia 40 klatek na sekundę.

Uznając potencjał niewłaściwego użycia, badacze podkreślają pozytywne zastosowania VASA-1. Należą do nich ulepszanie doświadczeń edukacyjnych, pomaganie ludziom w obliczu wyzwań komunikacyjnych oraz zapewnianie towarzystwa lub wsparcia terapeutycznego.

Tak czy inaczej, nadal kwestionuję czas powstania tego artykułu badawczego. Uważam, że można było to opóźnić, biorąc pod uwagę, że ludzie uwierzą we wszystko, co zobaczą w mediach społecznościowych; ta technologia może zostać poważnie wykorzystana niewłaściwie, zwłaszcza gdy zbliżają się wybory. Również uważam tę technologię bardzo podobny do VLOGGERa Google.

Wiem, że to wciąż nowe, ale ruchy oczu wydają mi się dziwne, rozumiesz tutaj.

Devesh Beri

Dziennikarz techniczny

To mnie motywuje – tworzenie przydatnych i informacyjnych treści, realizowanie swojej pasji do sportów motorowych i muzyki, organizowanie wypraw, prowadzenie zdrowego trybu życia i spędzanie czasu z moim uroczym kotem Taco.

Forum użytkowników

Wiadomości 0

Sortuj według:

Dodaj komentarz