Microsoftov novi VASA-1 stvara realistična lica koja govore od slika i govora

Neposredno pred izbore pričajte o lošem tajmingu.

Naslovna » Vijesti iz kluba

Ikona vremena čitanja 2 min. čitati

Ikona kalendara Objavljeno na Travnja 18, 2024

by Devesh Beri

objavljeno Travnja 18, 2024

Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza.

Ključne napomene

VASA, novi AI sustav, stvara realistična lica koja govore iz jedne slike i audio isječka.
VASA ide dalje od sinkronizacije usana, hvatajući emocije i prirodne pokrete glave za realistične rezultate.
Sustav nudi kontrolu nad pogledom, udaljenošću i emocijama u generiranom videu.

Microsoftovi istraživači razvili su novi VASA sustav koji može stvoriti realistična lica koja govore iz jedne slike i audio isječka. VASA-1, prvi model napravljen s ovim okvirom, može proizvesti izraze lica, precizno sinkronizirane pokrete usana i prirodne pokrete glave. To ima potencijal za stvaranje zanimljivijih i realističnijih iskustava u raznim aplikacijama.

VASA-1 nadilazi jednostavno usklađivanje pokreta usana sa zvukom. Može uhvatiti širok raspon emocija, suptilne nijanse lica i prirodne pokrete glave, čineći da generirana lica izgledaju uvjerljivije. Također ima kontrolu nad generiranim videom. Korisnici mogu odrediti smjer pogleda lika, percipiranu udaljenost, pa čak i svoje emocionalno stanje.

Najbolja stvar je što je sustav također dizajniran za rukovanje neočekivanim unosima. Iako nije treniran na umjetničkim fotografijama, glasovima pjevanja ili ne-engleskom govoru, VASA-1 još uvijek može generirati videozapise pomoću ovih ulaza.

VASA-1 postiže ovaj realizam odvajanjem crta lica, 3D položaja glave i izraza lica u različite dijelove. Ovo "razdvajanje" daje neovisnu kontrolu i uređivanje ovih aspekata unutar generiranog videa.

Istraživači koji stoje iza VASA-1 ističu njegovu učinkovitost u stvarnom vremenu. Sustav može proizvesti video zapise visoke rezolucije (512 × 512 piksela) pri velikom broju sličica u sekundi. U izvanmrežnom načinu rada generira okvire pri 45 okvira u sekundi, dok mrežno generiranje daje 40 okvira u sekundi.

Premda priznaju mogućnost zlouporabe, istraživači naglašavaju pozitivnu primjenu VASA-1. To uključuje poboljšanje obrazovnih iskustava, pomoć ljudima s komunikacijskim izazovima i pružanje druženja ili terapeutske podrške.

U svakom slučaju, još uvijek sumnjam u vrijeme ovog istraživačkog rada. Vjerujem da je moglo biti odgođeno, s obzirom na to da će ljudi vjerovati svemu što vide na društvenim mrežama; ova se tehnologija može ozbiljno zloupotrijebiti, pogotovo kad su izbori. Također, nalazim ovu tehnologiju vrlo sličan Googleovom VLOGGERU.

Znam da je još uvijek nov, ali mi je pokret očiju čudan, vidite ovdje.

Devesh Beri

Tehnički novinar

Ovo su stvari koje me motiviraju - stvaranje informativnog i korisnog sadržaja, bavljenje mojom strašću prema motosportu i glazbi, sudjelovanje u ekspedicijama, održavanje zdravog načina života i provođenje vremena sa svojom ljupkom mačkom Tacom.