Microsoftovo novo orodje AI uresniči vašo domišljijo

Ikona časa branja 3 min. prebrati


Bralci pomagajo pri podpori MSpoweruser. Če kupujete prek naših povezav, lahko prejmemo provizijo. Ikona opisa orodja

Preberite našo stran za razkritje, če želite izvedeti, kako lahko pomagate MSPoweruser vzdrževati uredniško skupino Preberi več

Predstavljajte si, da lahko ustvarite visokokakovostne fotografije samo tako, da jih opišete v računalnik. Ta znanstvenofantastični scenarij je zdaj realnost, zahvaljujoč novemu Microsoftovemu orodju AI.

Drawing Bot je zgornjo sliko ustvaril preprosto iz opisa »ptica z rumenim telesom, črnimi krili in kratkim kljunom,” z uporabo nove tehnike, pri kateri AI posveča veliko pozornost posameznim besedam pri ustvarjanju slik iz besedilnih opisov, podobnih napisom, kar ima za posledico 3-kratno povečanje kakovosti slike v primerjavi z drugimi tehnikami ustvarjanja besedila v sliko.

Bot lahko naredi več kot le ptice, saj lahko nariše vse od običajnih pastoralnih prizorov, kot je paša živine, do absurdnih, kot je plavajoči dvonadstropni avtobus.

»Če greš na Bing in iščeš ptico, dobiš sliko ptice. Toda tukaj slike ustvari računalnik, slikovno piko za piko, iz nič,« je povedal Xiaodong He, glavni raziskovalec in vodja raziskav v Tehnološkem centru za globoko učenje v Microsoftovem raziskovalnem laboratoriju v Redmondu v Washingtonu. "Te ptice morda ne obstajajo v resničnem svetu - so le vidik domišljije ptic našega računalnika."

Ekipa je začela s CaptionBot, ki je samodejno pisal napise za slike (uporablja se na primer na Facebooku za označevanje slik za namene dostopnosti), nato SeeingAI, ki je slabovidnim uporabnikom omogočil uporabo fotoaparata telefona, da jim opiše prizore, in zdaj končno Bot za risanje.

"Zdaj želimo uporabiti besedilo za ustvarjanje slike," je dejal Qiuyuan Huang, podoktorski raziskovalec v skupini He's in soavtor prispevka. "Torej je cikel."

Podvig je primer generativnega nasprotovalnega omrežja ali GAN, kjer eno omrežje AI, generator, poskuša spraviti ponarejene slike mimo drugega omrežja AI, diskriminatorja. S skupnim delom diskriminator potiska generator k popolnosti.

Nova tehnika izboljšuje stanje tehnike tako, da se po vrsti osredotoča na različne dele stavka, npr. najprej narišemo rumeno ptico, nato črna krila in nato kratek kljun.

»Pozornost je človeški koncept; uporabljamo matematiko, da naredimo pozornost računsko,« je pojasnil He.

"Lahko nadzorujemo, kaj opisujemo, in vidimo, kako se odzove stroj," je pojasnil He. »Lahko pokukamo in preizkusimo, kaj se je stroj naučil. Naprava ima nekaj naučenega zdravega razuma, vendar lahko še vedno sledi, kar vprašate, in morda se včasih zdi nekoliko smešno."

Tehnologija ustvarjanja besedila v sliko bi lahko našla praktične aplikacije, ki bi delovala kot nekakšen pomočnik pri skiciranju slikarjem in notranjim oblikovalcem ali kot orodje za izpopolnjevanje fotografij, ki jih aktivira glas. Z večjo računalniško močjo si predstavlja, da bi tehnologija lahko ustvarila animirane filme na podlagi scenarijev, kar bi povečalo delo, ki ga opravljajo ustvarjalci animiranih filmov, tako da bi odstranili del ročnega dela.

"Da lahko AI in ljudje živita v istem svetu, morata imeti način medsebojne interakcije," je pojasnil He. "In jezik in vizija sta dva najpomembnejša načina interakcije med ljudmi in stroji."

Celoten dokument, ki opisuje raziskavo, je na voljo na arXiv.org.

preko Microsoft.com

Več o temah: ai, risalni bot, microsoft, raziskave

Pustite Odgovori

Vaš e-naslov ne bo objavljen. Obvezna polja so označena *