De nieuwe AI-tool van Microsoft maakt uw fantasie werkelijkheid

Pictogram voor leestijd 3 minuut. lezen


Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt. Tooltip-pictogram

Lees onze openbaarmakingspagina om erachter te komen hoe u MSPoweruser kunt helpen het redactieteam te ondersteunen Lees meer

Stelt u zich eens voor dat u foto's van hoge kwaliteit kunt genereren door ze gewoon op een computer te beschrijven. Dit sci-fi-scenario is nu realiteit, dankzij de nieuwe AI-tool van Microsoft.

Drawing Bot heeft de bovenstaande afbeelding eenvoudig gemaakt op basis van de beschrijving van "een vogel met een geel lichaam, zwarte vleugels en een korte snavel,” met behulp van een nieuwe techniek waarbij de AI veel aandacht besteedt aan individuele woorden bij het genereren van afbeeldingen uit bijschriftachtige tekstbeschrijvingen, wat resulteert in een drievoudige verbetering van de beeldkwaliteit in vergelijking met andere technieken voor het genereren van tekst naar afbeelding.

De bot kan meer dan alleen vogels, hij kan alles tekenen, van gewone pastorale scènes, zoals grazend vee, tot het absurde, zoals een drijvende dubbeldekkerbus.

“Als je naar Bing gaat en je zoekt een vogel, dan krijg je een vogelfoto. Maar hier worden de foto's door de computer gemaakt, pixel voor pixel, helemaal opnieuw', zegt Xiaodong He, hoofdonderzoeker en onderzoeksmanager in het Deep Learning Technology Center in het onderzoekslaboratorium van Microsoft in Redmond, Washington. "Deze vogels bestaan ​​​​misschien niet in de echte wereld - ze zijn slechts een aspect van de verbeeldingskracht van onze computer over vogels."

Het team begon met CaptionBot, dat automatisch bijschriften schreef voor afbeeldingen (die bijvoorbeeld op Facebook worden gebruikt om afbeeldingen te taggen voor toegankelijkheidsdoeleinden), en vervolgens met SeeingAI, waarmee visueel gehandicapte gebruikers hun telefooncamera konden gebruiken om scènes voor hen te laten beschrijven, en nu eindelijk Tekenbot.

"Nu willen we de tekst gebruiken om de afbeelding te genereren", zegt Qiuyuan Huang, een postdoctoraal onderzoeker in de He's-groep en co-auteur van een paper. "Dus het is een cyclus."

De prestatie is een voorbeeld van een Generative Adversarial Network, of GAN, waarbij het ene AI-netwerk, de generator, nepfoto's probeert langs een ander AI-netwerk, de discriminator, te krijgen. Door samen te werken, duwt de discriminator de generator naar perfectie.

De nieuwe techniek verbetert de stand van de techniek door zich beurtelings op de verschillende delen van de zin te concentreren, bijvoorbeeld eerst een gele vogel tekenen, dan de zwarte vleugels en dan de korte snavel.

“Aandacht is een menselijk begrip; we gebruiken wiskunde om de aandacht rekenkundig te maken', legt He uit.

"We kunnen bepalen wat we beschrijven en zien hoe de machine reageert", legt He uit. “We kunnen porren en testen wat de machine heeft geleerd. De machine heeft wat gezond verstand, maar het kan nog steeds volgen wat je vraagt ​​en misschien lijkt het soms een beetje belachelijk.”

Technologie voor het genereren van tekst naar beeld zou praktische toepassingen kunnen vinden die fungeren als een soort schetsassistent voor schilders en interieurontwerpers, of als een hulpmiddel voor spraakgestuurde fotoverfijning. Met meer rekenkracht stelt hij zich voor dat de technologie animatiefilms kan genereren op basis van scenario's, waardoor het werk van animatiefilmmakers wordt vergroot door een deel van het handmatige werk weg te nemen.

"Als AI en mensen in dezelfde wereld willen leven, moeten ze een manier hebben om met elkaar om te gaan", legt He uit. "En taal en visie zijn de twee belangrijkste modaliteiten voor mens en machine om met elkaar om te gaan."

Het volledige artikel waarin het onderzoek wordt beschreven, is te vinden op: arXiv.org.

via Microsoft.com

Meer over de onderwerpen: ai, tekenbot, microsoft, Onderzoek

Laat een reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd *