Der neue VASA-1 von Microsoft erstellt realistische sprechende Gesichter aus Bildern und Sprache

Sprechen Sie kurz vor Wahlen über schlechtes Timing.

Symbol für die Lesezeit 2 Minute. lesen


Leser unterstützen MSpoweruser. Wir erhalten möglicherweise eine Provision, wenn Sie über unsere Links kaufen. Tooltip-Symbol

Lesen Sie unsere Offenlegungsseite, um herauszufinden, wie Sie MSPoweruser dabei helfen können, das Redaktionsteam zu unterstützen Lesen Sie weiter

Wichtige Hinweise

  • VASA, ein neues KI-System, erstellt realistische sprechende Gesichter aus einem einzigen Bild und Audioclip.
  • VASA geht über die Lippensynchronisation hinaus und erfasst Emotionen und natürliche Kopfbewegungen für lebensechte Ergebnisse.
  • Das System bietet Kontrolle über Blick, Entfernung und Emotionen im generierten Video.

Microsoft-Forscher haben ein neues VASA-System entwickelt, das aus einem einzigen Bild und einem Audioclip lebensechte sprechende Gesichter erstellen kann. VASA-1, das erste Modell, das mit diesem Framework gebaut wurde, kann Gesichtsausdrücke, präzise synchronisierte Lippenbewegungen und natürliche Kopfbewegungen erzeugen. Dies hat das Potenzial, in verschiedenen Anwendungen ansprechendere und realistischere Erfahrungen zu schaffen.

VASA-1 geht über die bloße Abstimmung von Lippenbewegungen mit Audio hinaus. Es kann ein breites Spektrum an Emotionen, subtilen Gesichtsnuancen und natürlichen Kopfbewegungen erfassen, wodurch die generierten Gesichter glaubwürdiger erscheinen. Es hat auch die Kontrolle über das generierte Video. Benutzer können die Blickrichtung der Figur, die wahrgenommene Entfernung und sogar ihren emotionalen Zustand angeben.

Das Beste daran ist, dass das System auch auf unerwartete Eingaben vorbereitet ist. Auch wenn VASA-1 nicht auf künstlerische Fotografien, Singstimmen oder nicht-englische Sprache trainiert wurde, kann es dennoch Videos mit diesen Eingaben erstellen.

VASA-1 erreicht diesen Realismus, indem es Gesichtszüge, 3D-Kopfposition und Gesichtsausdrücke in verschiedene Teile aufteilt. Diese „Entflechtung“ ermöglicht eine unabhängige Kontrolle und Bearbeitung dieser Aspekte innerhalb des generierten Videos.

Die Forscher hinter VASA-1 heben seine Echtzeiteffizienz hervor. Das System kann hochauflösende Videos (512×512 Pixel) mit hohen Bildraten produzieren. Im Offline-Modus werden Bilder mit 45 Bildern pro Sekunde generiert, während die Online-Generierung 40 Bilder pro Sekunde liefert.

Die Forscher erkennen zwar das Potenzial für Missbrauch an, betonen jedoch die positiven Anwendungen von VASA-1. Dazu gehören die Verbesserung von Bildungserfahrungen, die Unterstützung von Menschen mit Kommunikationsproblemen sowie die Bereitstellung von Begleitung oder therapeutischer Unterstützung.

Wie dem auch sei, ich bezweifle immer noch den Zeitpunkt dieser Forschungsarbeit. Ich glaube, es hätte sich verzögern können, wenn man bedenkt, dass die Leute alles glauben, was sie in den sozialen Medien sehen; Diese Technologie kann schwerwiegend missbraucht werden, insbesondere wenn Wahlen stattfinden. Auch ich finde diese Technologie sehr ähnlich zu Googles VLOGGER.

Ich weiß, dass es noch neu ist, aber die Augenbewegung kommt mir seltsam vor hier.

Hinterlassen Sie uns einen Kommentar

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *