Microsoftov novi VASA-1 stvara realistična lica koja govore od slika i govora

Neposredno pred izbore pričajte o lošem tajmingu.

Ikona vremena čitanja 2 min. čitati


Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza. Ikona opisa alata

Pročitajte našu stranicu za otkrivanje kako biste saznali kako možete pomoći MSPoweruseru da održi urednički tim Čitaj više

Ključne napomene

  • VASA, novi AI sustav, stvara realistična lica koja govore iz jedne slike i audio isječka.
  • VASA ide dalje od sinkronizacije usana, hvatajući emocije i prirodne pokrete glave za realistične rezultate.
  • Sustav nudi kontrolu nad pogledom, udaljenošću i emocijama u generiranom videu.

Microsoftovi istraživači razvili su novi VASA sustav koji može stvoriti realistična lica koja govore iz jedne slike i audio isječka. VASA-1, prvi model napravljen s ovim okvirom, može proizvesti izraze lica, precizno sinkronizirane pokrete usana i prirodne pokrete glave. To ima potencijal za stvaranje zanimljivijih i realističnijih iskustava u raznim aplikacijama.

VASA-1 nadilazi jednostavno usklađivanje pokreta usana sa zvukom. Može uhvatiti širok raspon emocija, suptilne nijanse lica i prirodne pokrete glave, čineći da generirana lica izgledaju uvjerljivije. Također ima kontrolu nad generiranim videom. Korisnici mogu odrediti smjer pogleda lika, percipiranu udaljenost, pa čak i svoje emocionalno stanje.

Najbolja stvar je što je sustav također dizajniran za rukovanje neočekivanim unosima. Iako nije treniran na umjetničkim fotografijama, glasovima pjevanja ili ne-engleskom govoru, VASA-1 još uvijek može generirati videozapise pomoću ovih ulaza.

VASA-1 postiže ovaj realizam odvajanjem crta lica, 3D položaja glave i izraza lica u različite dijelove. Ovo "razdvajanje" daje neovisnu kontrolu i uređivanje ovih aspekata unutar generiranog videa.

Istraživači koji stoje iza VASA-1 ističu njegovu učinkovitost u stvarnom vremenu. Sustav može proizvesti video zapise visoke rezolucije (512 × 512 piksela) pri velikom broju sličica u sekundi. U izvanmrežnom načinu rada generira okvire pri 45 okvira u sekundi, dok mrežno generiranje daje 40 okvira u sekundi.

Premda priznaju mogućnost zlouporabe, istraživači naglašavaju pozitivnu primjenu VASA-1. To uključuje poboljšanje obrazovnih iskustava, pomoć ljudima s komunikacijskim izazovima i pružanje druženja ili terapeutske podrške.

U svakom slučaju, još uvijek sumnjam u vrijeme ovog istraživačkog rada. Vjerujem da je moglo biti odgođeno, s obzirom na to da će ljudi vjerovati svemu što vide na društvenim mrežama; ova se tehnologija može ozbiljno zloupotrijebiti, pogotovo kad su izbori. Također, nalazim ovu tehnologiju vrlo sličan Googleovom VLOGGERU.

Znam da je još uvijek nov, ali mi je pokret očiju čudan, vidite ovdje.