Googlen tekstistä kuvaksi -generaattori Imagen tuottaa kuvia, joissa on "ennennäkemätön fotorealismi"

Lukuajan kuvake 3 min. lukea


Lukijat tukevat MSPoweruseria. Kun teet ostoksen käyttämällä sivustollamme olevia linkkejä, voimme ansaita kumppanipalkkion. Työkaluvihje-kuvake

Lue affiliate-ilmoitussivulta, kuinka voit auttaa MSPoweruseria vaivattomasti ja ilman rahaa. Lue lisää

Google paljasti uuden luomuksen nimeltä "Kuva”, tekstistä kuvaksi generaattori, jonka kuvaukset henkilö antaa. Yhtiö väittää, että se ylittää DALL-E 2:n, toisen tekoälykuvageneraattorin, suorituskyvyn. Se esitteli joitakin näytteitä, joissa on kiistatta hienoja yksityiskohtia, mutta Imagen ei ole tällä hetkellä yleisön saatavilla.

Uudella tekstistä kuvaksi diffuusiomallilla on kuvattu "ennennäkemättömän paljon fotorealismia ja syvällistä kielen ymmärtämistä". Se ymmärtää tekstiä suurten muuntajakielimallien avulla, ja sen sanotaan luottavan diffuusiomalleihin korkealaatuisen kuvan luomisessa.

Kuvien luomat kuvat ja kuvaukset alla

Google tarjosi kuvia ja näytteitä Imagenin töistä, joiden tyylit vaihtelivat piirustuksista öljymaalauksiin ja CGI-kuviin. Niiden mukana on niiden luomiseen käytetyt sanat ja ilmaukset. Esimerkiksi yhdessä näytteessä lukee "lohikäärmehedelmä karatevyöllään lumessa", kun taas toisessa on kuvaus "pieni kaktus, jolla on olkihattu ja neon-aurinkolasit yllään Saharan autiomaassa".

Luodut kuvat näyttävät uskomattoman todellisilta, ikään kuin ne olisivat todellisen henkilön luomia. Google kuitenkin sanoo, että se tehdään diffuusiotekniikoiden avulla käyttämällä puhdasta kohinakuvaa ja jalostamalla sitä parhaalla mahdollisella tavalla. Ymmärtämällä annetun tekstikuvauksen Imagen luo 64 x 64 pikselin kuvan, suorittaa kaksi parannusta ja muuntaa kuvan suuremmaksi 1024 x 1024 pikselin osaksi.

Google Research, Brain Team sanoo, että Imagen menestyi erinomaisesti KOKO (suuren mittakaavan kohteen tunnistus-, segmentointi- ja tekstitystietojoukko), vaikka sitä ei ole koulutettu. Tiimi ilmoitti saaneensa uuden huippuluokan FID-pisteen 7.27.

Google myös vertasi Imagenin suorituskykyä muihin tekstistä kuvaksi -malleihin arvioimalla niitä "DrawBenchin" avulla. Se toimii vertailukohtana tekstistä kuvaksi -malleille, joissa Google testasi Imagenia muilla menetelmillä, kuten VQ-GAN+CLIP, Latent Diffusion Models ja DALL-E 2. Testattuaan niiden koostumusta, kardinaalisuutta, tilasuhteita, pitkää muotoa tekstiä, harvinaisia ​​sanoja ja haastavia kehotteita, tiimi sanoi, että "ihmisarvioijat suosivat suuresti Imagenia muihin menetelmiin verrattuna sekä kuvan ja tekstin kohdistamisessa että kuvan tarkkuudessa."

Näistä tutkimusryhmän vaikuttavista raporteista huolimatta Imagenin itse testaaminen ei ole mahdollista, koska se ei ole yleisön saatavilla. Googlella on tähän syitä, kuten eettiset haasteet, mahdolliset väärinkäytön riskit, sosiaaliset ennakkoluulot, suurten kielimallien rajoitukset ja riski koodattujen haitallisten stereotypioiden ja esitysten muodostamisesta. Tiimi tiivistää, että kaikissa näissä haasteissa Imagen ei vieläkään ole täydellinen ihmisiin liittyvien kuvien luomisessa. 

"Imagenillä on vakavia rajoituksia luotaessa kuvia, jotka kuvaavat ihmisiä", tiimi selittää blogikirjoituksessaan. "Ihmisarviointimme havaitsi, että Imagen saa huomattavasti korkeammat suositukset, kun sitä arvioidaan kuvilla, jotka eivät kuvaa ihmisiä, mikä viittaa kuvan tarkkuuden heikkenemiseen. Alustava arvio viittaa myös siihen, että Imagen koodaa useita sosiaalisia ennakkoluuloja ja stereotypioita, mukaan lukien yleinen ennakkoluulo luoda kuvia ihmisistä, joilla on vaaleampi iho, ja taipumus, että eri ammatteja kuvaavat kuvat ovat yhdenmukaisia ​​länsimaisten sukupuolistereotypioiden kanssa. Lopuksi, vaikka keskitämme sukupolvia kauemmas ihmisistä, alustava analyysimme osoittaa, että Imagen koodaa erilaisia ​​sosiaalisia ja kulttuurisia ennakkoluuloja luodessaan kuvia toiminnoista, tapahtumista ja esineistä. Pyrimme edistymään useissa näistä avoimista haasteista ja rajoituksista tulevassa työssä."