Microsoft'un yeni VASA-1'i görüntülerden ve konuşmalardan gerçekçi konuşan yüzler yaratıyor

Seçimlerden hemen önce kötü zamanlamadan bahsedin.

Ana Sayfa » Haberler

2 dk. okuman

Yayınlandı 18 Nisan 2024

by Deveş Beri

yayınlandı 18 Nisan 2024

Okuyucular MSpoweruser'ı desteklemeye yardımcı olur. Bağlantılarımız aracılığıyla satın alırsanız komisyon alabiliriz.

Önemli notlar

Yeni bir yapay zeka sistemi olan VASA, tek bir görüntü ve ses klibinden gerçekçi konuşan yüzler yaratıyor.
VASA, gerçekçi sonuçlar için dudak senkronizasyonunun, duyguları ve doğal kafa hareketlerini yakalamanın ötesine geçer.
Sistem, oluşturulan videoda bakış, mesafe ve duygular üzerinde kontrol sağlıyor.

Microsoft araştırmacıları, tek bir görüntü ve ses klibinden gerçeğe yakın konuşan yüzler oluşturabilen yeni bir VASA sistemi geliştirdi. Bu çerçeveyle oluşturulan ilk model olan VASA-1, yüz ifadeleri, hassas şekilde senkronize dudak hareketleri ve doğal baş hareketleri üretebiliyor. Bu, çeşitli uygulamalarda daha ilgi çekici ve gerçekçi deneyimler yaratma potansiyeline sahiptir.

VASA-1 dudak hareketlerini sesle eşleştirmenin ötesine geçiyor. Çok çeşitli duyguları, ince yüz nüanslarını ve doğal kafa hareketlerini yakalayarak oluşturulan yüzlerin daha inandırıcı görünmesini sağlayabilir. Ayrıca oluşturulan video üzerinde de kontrole sahiptir. Kullanıcılar karakterin bakış yönünü, algılanan mesafeyi ve hatta duygusal durumunu belirleyebilir.

En iyi şey, sistemin aynı zamanda beklenmedik girdileri de karşılayacak şekilde tasarlanmış olmasıdır. VASA-1, sanatsal fotoğraflar, şarkı söyleyen sesler veya İngilizce olmayan konuşmalar konusunda eğitilmemiş olsa da, bu girdileri kullanarak videolar oluşturabiliyor.

VASA-1 bu gerçekçiliği yüz özelliklerini, 3 boyutlu baş pozisyonunu ve yüz ifadelerini farklı parçalara ayırarak elde eder. Bu "çözme", oluşturulan videodaki bu yönlerin bağımsız olarak kontrol edilmesini ve düzenlenmesini sağlar.

VASA-1'in arkasındaki araştırmacılar, onun gerçek zamanlı verimliliğini vurguluyor. Sistem, yüksek kare hızlarında yüksek çözünürlüklü (512×512 piksel) videolar üretebilmektedir. Çevrimdışı modda saniyede 45 kare kare üretirken çevrimiçi nesil saniyede 40 kare sunar.

Araştırmacılar, kötüye kullanım potansiyelini kabul ederken, VASA-1'in olumlu uygulamalarına da vurgu yapıyor. Bunlar arasında eğitim deneyimlerinin geliştirilmesi, iletişim zorlukları yaşayan insanlara yardım edilmesi ve arkadaşlık veya terapötik destek sağlanması yer alır.

Her iki durumda da, hâlâ bu araştırma makalesinin zamanlamasını sorguluyorum. İnsanların Sosyal medyada gördükleri her şeye inanacakları göz önüne alındığında, bunun gecikmiş olabileceğine inanıyorum; bu teknoloji, özellikle seçimler yaklaşırken, ciddi şekilde kötüye kullanılabilir. Ayrıca bu teknolojiyi buluyorum Google'ın VLOGGER'ına çok benzer.

Hala yeni olduğunu biliyorum ama göz hareketleri bana tuhaf geliyor, anlıyor musun? okuyun.

Deveş Beri

Teknoloji Gazetecisi

Bunlar beni motive eden şeyler: bilgilendirici ve faydalı içerikler oluşturmak, motor sporları ve müzik tutkumun peşinden gitmek, keşif gezilerine katılmak, sağlıklı bir yaşam tarzı sürdürmek ve sevimli kedim Taco ile vakit geçirmek.