Microsofts nye AI-verktøy gjør fantasien din til virkelighet

Ikon for lesetid 3 min. lese


Lesere hjelper til med å støtte MSpoweruser. Vi kan få provisjon hvis du kjøper gjennom lenkene våre. Verktøytipsikon

Les vår avsløringsside for å finne ut hvordan du kan hjelpe MSPoweruser opprettholde redaksjonen Les mer

Tenk deg at du kan generere bilder av høy kvalitet, bare ved å beskrive dem til en datamaskin. Dette sci-fi-scenariet er nå en realitet, takket være Microsofts nye AI-verktøy.

Drawing Bot opprettet bildet ovenfor ganske enkelt fra beskrivelsen av "en fugl med en gul kropp, svarte vinger og et kort nebb,” ved å bruke en ny teknikk der AI følger nøye med på individuelle ord når de genererer bilder fra bildetekstlignende tekstbeskrivelser, noe som resulterer i en 3-dobling av bildekvaliteten sammenlignet med andre tekst-til-bilde genereringsteknikker.

Boten kan gjøre mer enn bare fugler, den kan tegne alt fra vanlige pastorale scener, som beitende husdyr, til det absurde, for eksempel en flytende toetasjes buss.

«Hvis du går til Bing og søker etter en fugl, får du et fuglebilde. Men her er bildene laget av datamaskinen, piksel for piksel, fra bunnen av, sier Xiaodong He, hovedforsker og forskningsleder ved Deep Learning Technology Center ved Microsofts forskningslaboratorium i Redmond, Washington. "Disse fuglene eksisterer kanskje ikke i den virkelige verden - de er bare et aspekt av datamaskinens fantasi om fugler."

Teamet startet med CaptionBot, som automatisk skrev bildetekster for bilder (brukt på Facebook, for eksempel for å merke bilder for tilgjengelighetsformål), deretter SeeingAI, som lot synshemmede brukere bruke telefonkameraet sitt for å få scener beskrevet for dem, og nå endelig Tegning Bot.

"Nå ønsker vi å bruke teksten til å generere bildet," sa Qiuyuan Huang, en postdoktor i He's-gruppen og en medforfatter av papiret. "Så det er en syklus."

Bragden er et eksempel på et Generative Adversarial Network, eller GAN, der ett AI-nettverk, generatoren prøver å få falske bilder forbi et annet AI-nettverk, diskriminatoren. Ved å jobbe sammen presser diskriminatoren generatoren mot perfeksjon.

Den nye teknikken forbedrer teknikkens stand ved å konsentrere seg om de forskjellige delene av setningen etter tur, f.eks. først tegne en gul fugl, deretter de svarte vingene og deretter det korte nebbet.

«Oppmerksomhet er et menneskelig konsept; vi bruker matematikk for å gjøre oppmerksomheten beregnende," forklarte He.

"Vi kan kontrollere hva vi beskriver og se hvordan maskinen reagerer," forklarte He. «Vi kan stikke og teste det maskinen lærte. Maskinen har en viss bakgrunnslært sunn fornuft, men den kan fortsatt følge det du spør og kanskje, noen ganger, virker det litt latterlig.»

Tekst-til-bilde-genereringsteknologi kan finne praktiske anvendelser som fungerer som en slags skisseassistent for malere og interiørdesignere, eller som et verktøy for stemmeaktivert bildeforfining. Med mer datakraft ser han for seg at teknologien kan generere animasjonsfilmer basert på manus, og forsterke arbeidet som animasjonsfilmskapere gjør ved å fjerne noe av det manuelle arbeidet som er involvert.

"For at AI og mennesker skal leve i samme verden, må de ha en måte å samhandle med hverandre på," forklarte He. "Og språk og syn er de to viktigste modalitetene for mennesker og maskiner til å samhandle med hverandre."

Hele papiret som beskriver forskningen finner du på arXiv.org.

av Microsoft.com

Mer om temaene: ai, tegnebot, microsoft, Forskning

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket *