Google'ın metinden görüntü oluşturucusu Imagen, 'benzeri görülmemiş derecede fotogerçekçilik' ile resimler üretiyor

Okuma zamanı simgesi 3 dk. okuman


Okuyucular MSpoweruser'ı desteklemeye yardımcı olur. Bağlantılarımız aracılığıyla satın alırsanız komisyon alabiliriz. Araç İpucu Simgesi

MSPoweruser'ın editör ekibini ayakta tutmasına nasıl yardımcı olabileceğinizi öğrenmek için açıklama sayfamızı okuyun. Daha fazla

Google "adlı yeni bir yaratımı tanıttıGörüntü”, bir kişinin sağlayacağı açıklamalar aracılığıyla bir metinden görüntüye üreteci. Şirket, başka bir AI görüntü üreticisi olan DALL-E 2'nin performansını aştığını iddia ediyor. İnkar edilemez şekilde zarif detaylar gösteren bazı örnekler sundu, ancak Imagen şu anda halka açık değil.

Yeni metinden görüntüye difüzyon modelinin “benzeri görülmemiş derecede fotogerçekçiliğe ve derin bir dil anlayışına” sahip olduğu açıklanıyor. Metni büyük dönüştürücü dil modelleri aracılığıyla anlar ve yüksek kaliteli görüntü üretimi gerçekleştirmek için difüzyon modellerine güvendiği söylenir.

Aşağıdaki açıklamalarla birlikte, görüntüyle oluşturulan görüntüler

Google, Imagen'in çizimlerinden yağlı boya tablolara ve CGI'lara kadar değişen stillerdeki çalışmalarının resimlerini ve örneklerini sağladı. Bunları oluşturmak için kullanılan kelimeler ve deyimler eşlik eder. Örneğin, bir örnekte "karda karate kemeri takan bir ejderha meyvesi" yazarken, diğerinde "Sahra Çölü'nde hasır şapka ve neon güneş gözlüğü takan küçük bir kaktüs" ifadesi yer alıyor.

Oluşturulan görüntüler, sanki gerçek bir kişi tarafından yaratılmış gibi inanılmaz derecede gerçek görünüyor. Ancak Google, saf bir gürültü görüntüsü kullanarak ve onu mümkün olan en iyi şekilde rafine ederek difüzyon teknolojileri aracılığıyla yapıldığını söylüyor. Imagen, sağlanan metin açıklamasını anlayarak 64 x 64 piksellik bir görüntü oluşturacak, iki geliştirme yapacak ve görüntüyü daha büyük 1024 x 1024 piksellik bir parçaya dönüştürecektir.

Google Araştırması, Beyin Takımı, Imagen'in mükemmel olduğunu söylüyor COCO (büyük ölçekli bir nesne algılama, bölümleme ve resim yazısı veri kümesi) üzerinde eğitim almamış olmasına rağmen. Ekip, 7.27'lik yeni bir son teknoloji FID puanı aldığını bildirdi.

Google ayrıca, "DrawBench" kullanarak onları değerlendirerek Imagen'in performansını diğer metinden resme modelleriyle karşılaştırdı. Google'ın Imagen'i VQ-GAN+CLIP, Latent Difüzyon Models ve DALL-E 2 gibi diğer yöntemlerle test ettiği metinden görüntüye modeller için bir kıyaslama işlevi görür. metin, nadir kelimeler ve zorlu komutlar için ekip, "insan değerlendiricilerin hem görüntü-metin hizalaması hem de görüntü doğruluğu açısından diğer yöntemlere göre Imagen'i şiddetle tercih ettiğini" söyledi.

Araştırma ekibinin bu etkileyici raporlarına rağmen, halka açık olmadığı için Imagen'i kendiniz test etmek mümkün olmayacaktır. Google'ın bunun için etik zorluklar, olası yanlış kullanım riskleri, sosyal önyargılar, büyük dil modellerinin sınırlamaları ve kodlanmış zararlı klişeler ve temsiller riski gibi nedenleri vardır. Ekip, tüm bu zorluklarla birlikte, insanlarla ilgili görüntüler üretmeye gelince Imagen'in hala mükemmel olmadığını özetliyor. 

Ekip, bir blog gönderisinde "Imagen, insanları tasvir eden görüntüler oluştururken ciddi sınırlamalar sergiliyor" diye açıklıyor. "İnsan değerlendirmelerimiz, Imagen'in insanları tasvir etmeyen görüntüler üzerinde değerlendirildiğinde önemli ölçüde daha yüksek tercih oranları elde ettiğini ve bu da görüntü kalitesinde bir bozulma olduğunu gösterdi. Ön değerlendirme ayrıca Imagen'in, daha açık ten rengine sahip insanların görüntülerini oluşturmaya yönelik genel bir önyargı ve farklı meslekleri tasvir eden görüntülerin Batılı cinsiyet klişelerine uyma eğilimi de dahil olmak üzere çeşitli sosyal önyargıları ve klişeleri kodladığını öne sürüyor. Son olarak, nesilleri insanlardan uzağa odakladığımızda bile, ön analizimiz Imagen'in etkinlikler, olaylar ve nesnelerin görüntülerini oluştururken bir dizi sosyal ve kültürel önyargıyı kodladığını gösteriyor. Gelecekteki çalışmalarda bu açık zorlukların ve sınırlamaların birçoğunda ilerleme kaydetmeyi amaçlıyoruz.”