Microsofts nya AI-verktyg gör din fantasi verklighet

Lästid ikon 3 min. läsa


Läsare hjälper till att stödja MSpoweruser. Vi kan få en provision om du köper via våra länkar. Verktygstipsikon

Läs vår informationssida för att ta reda på hur du kan hjälpa MSPoweruser upprätthålla redaktionen Läs mer

Föreställ dig att kunna generera högkvalitativa foton bara genom att beskriva dem till en dator. Detta sci-fi-scenario är nu verklighet, tack vare Microsofts nya AI-verktyg.

Drawing Bot skapade bilden ovan helt enkelt utifrån beskrivningen av "en fågel med en gul kropp, svarta vingar och en kort näbb,” med en ny teknik där AI:n ägnar stor uppmärksamhet åt enskilda ord när de genererar bilder från bildtextliknande textbeskrivningar, vilket resulterar i en 3-faldig ökning av bildkvaliteten jämfört med andra tekniker för text-till-bild-generering.

Boten kan mer än bara fåglar, den kan rita allt från vanliga pastorala scener, som betande boskap, till det absurda, som en flytande dubbeldäckare.

”Om du går till Bing och söker efter en fågel får du en fågelbild. Men här skapas bilderna av datorn, pixel för pixel, från grunden, säger Xiaodong He, huvudforskare och forskningschef vid Deep Learning Technology Center vid Microsofts forskningslabb i Redmond, Washington. "Dessa fåglar kanske inte existerar i den verkliga världen - de är bara en aspekt av vår dators fantasi om fåglar."

Teamet började med CaptionBot, som automatiskt skrev bildtexter för bilder (används till exempel på Facebook för att tagga bilder i tillgänglighetssyfte), sedan SeeingAI, som låter synskadade användare använda sin telefonkamera för att få scener beskrivna för dem, och nu äntligen Ritning Bot.

"Nu vill vi använda texten för att skapa bilden", säger Qiuyuan Huang, postdoktor i He's group och medförfattare. "Så, det är en cykel."

Bragden är ett exempel på ett Generative Adversarial Network, eller GAN, där ett AI-nätverk, generatorn försöker få falska bilder förbi ett annat AI-nätverk, diskriminatorn. Genom att arbeta tillsammans driver diskriminatorn generatorn mot perfektion.

Den nya tekniken förbättrar den senaste tekniken genom att koncentrera sig på de olika delarna av meningen i tur och ordning, t.ex. att först rita en gul fågel, sedan de svarta vingarna och sedan den korta näbben.

”Uppmärksamhet är ett mänskligt begrepp; vi använder matematik för att göra uppmärksamhet beräkningsmässig”, förklarade He.

"Vi kan kontrollera vad vi beskriver och se hur maskinen reagerar", förklarade He. "Vi kan peta och testa vad maskinen lärt sig. Maskinen har en del inlärt sunt förnuft i bakgrunden, men den kan fortfarande följa vad du frågar och kanske, ibland, verkar det lite löjligt.”

Teknik för att generera text till bild kan hitta praktiska tillämpningar som fungerar som en sorts skissassistent för målare och inredningsarkitekter, eller som ett verktyg för röstaktiverad fotoförfining. Med mer datorkraft föreställer han sig att tekniken skulle kunna generera animerade filmer baserade på manus, vilket förstärker det arbete som animerade filmskapare gör genom att ta bort en del av det manuella arbetet.

"För att AI och människor ska leva i samma värld måste de ha ett sätt att interagera med varandra", förklarade He. "Och språk och syn är de två viktigaste sätten för människor och maskiner att interagera med varandra."

Hela artikeln som beskriver forskningen finns på arXiv.org.

via Microsoft.com

Mer om ämnena: ai, ritningsbot, microsoft, Forskning

Kommentera uppropet

E-postadressen publiceras inte. Obligatoriska fält är markerade *