Microsofts nye AI-værktøj gør din fantasi til virkelighed

Ikon for læsetid 3 min. Læs

Kalenderikon Udgivet den Januar 18, 2018

offentliggjort den Januar 18, 2018

Læsere hjælper med at understøtte MSpoweruser. Vi får muligvis en kommission, hvis du køber via vores links.

Forestil dig, at du er i stand til at generere billeder i høj kvalitet, bare ved at beskrive dem til en computer. Dette sci-fi-scenarie er nu en realitet takket være Microsofts nye AI-værktøj.

Drawing Bot skabte ovenstående billede simpelthen ud fra beskrivelsen af "en fugl med en gul krop, sorte vinger og et kort næb,” ved at bruge en ny teknik, hvor AI er meget opmærksom på de enkelte ord, når de genererer billeder fra billedtekstlignende tekstbeskrivelser, hvilket resulterer i et 3-dobbelt løft i billedkvalitet sammenlignet med andre tekst-til-billede genereringsteknikker.

Botten kan mere end bare fugle, idet den kan tegne alt fra almindelige pastorale scener, såsom græssende husdyr, til det absurde, såsom en flydende dobbeltdækkerbus.

“Hvis du går til Bing og søger efter en fugl, får du et fuglebillede. Men her er billederne skabt af computeren, pixel for pixel, fra bunden,” sagde Xiaodong He, en hovedforsker og forskningsleder i Deep Learning Technology Center ved Microsofts forskningslaboratorium i Redmond, Washington. "Disse fugle eksisterer muligvis ikke i den virkelige verden - de er bare et aspekt af vores computers fantasi om fugle."

Holdet startede med CaptionBot, som automatisk skrev billedtekster til billeder (bruges f.eks. på Facebook til at tagge billeder med henblik på tilgængelighed), derefter SeeingAI, som lod synshandicappede brugere bruge deres telefonkamera til at få beskrevet scener for dem, og nu endelig Tegning Bot.

"Nu vil vi bruge teksten til at generere billedet," sagde Qiuyuan Huang, en postdoc-forsker i He's group og en medforfatter af papiret. "Så det er en cyklus."

Bedriften er et eksempel på et Generative Adversarial Network, eller GAN, hvor et AI-netværk, generatoren forsøger at få falske billeder forbi et andet AI-netværk, diskriminatoren. Ved at arbejde sammen skubber diskriminatoren generatoren mod perfektion.

Den nye teknik forbedrer det nyeste ved at koncentrere sig om de forskellige dele af sætningen på skift, fx først at tegne en gul fugl, så de sorte vinger og så det korte næb.

“Opmærksomhed er et menneskeligt begreb; vi bruger matematik til at gøre opmærksomheden beregnende,” forklarede He.

"Vi kan kontrollere, hvad vi beskriver, og se, hvordan maskinen reagerer," forklarede He. "Vi kan stikke og teste, hvad maskinen har lært. Maskinen har noget baggrundslært sund fornuft, men den kan stadig følge, hvad du spørger om, og måske, nogle gange, virker det lidt latterligt."

Tekst-til-billede-genereringsteknologi kan finde praktiske anvendelser, der fungerer som en slags skitseassistent for malere og indretningsarkitekter eller som et værktøj til stemmeaktiveret fotoforfining. Med mere computerkraft forestiller han sig, at teknologien kunne generere animationsfilm baseret på manuskripter, hvilket øger det arbejde, som animerede filmskabere udfører, ved at fjerne noget af det involverede manuelle arbejde.

"For at AI og mennesker kan leve i den samme verden, skal de have en måde at interagere med hinanden på," forklarede He. "Og sprog og vision er de to vigtigste modaliteter for mennesker og maskiner til at interagere med hinanden."

Hele papiret, der beskriver forskningen, kan findes på arXiv.org.

via Microsoft.com

Mere om emnerne: ai, tegning bot, microsoft, Forskning

Surur Davids

Smartphone ekspert

Surur Davids er grundlæggeren af WMPoweruser, som senere blev til MSPoweruser.com. Han er en smartphone-ekspert med mere end ti års erfaring.

Giv en kommentar