Nový nástroj umělé inteligence společnosti Microsoft promění vaši představivost ve skutečnost

Ikona času čtení 3 min. číst


Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi. Ikona popisku

Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Dozvědět se více

Představte si, že byste mohli generovat vysoce kvalitní fotografie pouhým popisem do počítače. Tento sci-fi scénář je nyní realitou díky novému nástroji AI společnosti Microsoft.

Drawing Bot vytvořil výše uvedený obrázek jednoduše z popisu „pták se žlutým tělem, černými křídly a krátkým zobákem,” pomocí nové techniky, kdy AI věnuje velkou pozornost jednotlivým slovům při generování obrázků z textových popisů podobných titulkům, což má za následek trojnásobné zvýšení kvality obrazu ve srovnání s jinými technikami generování textu na obrázek.

Robot umí víc než jen ptáky, dokáže nakreslit vše od běžných pasteveckých scén, jako je pasoucí se dobytek, až po absurditu, jako je plovoucí dvoupatrový autobus.

„Pokud půjdete do Bingu a budete hledat ptáka, dostanete jeho obrázek. Ale tady jsou obrázky vytvářeny počítačem, pixel po pixelu, od nuly,“ řekl Xiaodong He, hlavní výzkumník a manažer výzkumu v Technologickém centru hlubokého učení ve výzkumné laboratoři Microsoftu v Redmondu, Washington. "Tito ptáci nemusí existovat v reálném světě - jsou pouze aspektem představivosti ptáků v našem počítači."

Tým začal s CaptionBotem, který automaticky psal popisky k obrázkům (používá se například na Facebooku k označování obrázků pro účely usnadnění), poté SeeingAI, který umožňoval zrakově postiženým uživatelům používat fotoaparát telefonu k popisu scén, a nyní konečně Kreslící bot.

"Nyní chceme použít text k vytvoření obrázku," řekl Qiuyuan Huang, postdoktorandský výzkumník v He's group a spoluautor článku. "Takže je to cyklus."

Tento výkon je příkladem generativní adversariální sítě neboli GAN, kde se jedna síť AI, generátor, pokouší dostat falešné obrázky přes jinou síť AI, diskriminátor. Spolupráce diskriminátoru posouvá generátor k dokonalosti.

Nová technika vylepšuje stav techniky tím, že se postupně soustředí na různé části věty, např. nejprve nakreslí žlutého ptáka, pak černá křídla a poté krátký zobák.

„Pozornost je lidský pojem; používáme matematiku k tomu, aby byla pozornost výpočetní,“ vysvětlil He.

„Můžeme ovládat to, co popisujeme, a sledovat, jak stroj reaguje,“ vysvětlil He. „Můžeme šťourat a otestovat, co se stroj naučil. Stroj má trochu naučený zdravý rozum, ale stále dokáže sledovat to, na co se ptáte, a možná to někdy vypadá trochu směšně.“

Technologie generování textu na obrázek by mohla najít praktické aplikace, které by fungovaly jako jakýsi asistent náčrtu pro malíře a interiérové ​​designéry nebo jako nástroj pro zdokonalování fotografií aktivovaných hlasem. S větším výpočetním výkonem si myslí, že by tato technologie mohla generovat animované filmy založené na scénářích, čímž by se rozšířila práce, kterou dělají tvůrci animovaných filmů, tím, že odstraní část ruční práce.

„Aby umělá inteligence a lidé mohli žít ve stejném světě, musí mít způsob, jak spolu interagovat,“ vysvětlil He. "A jazyk a vize jsou dva nejdůležitější způsoby vzájemné interakce lidí a strojů."

Celý dokument popisující výzkum lze nalézt na arXiv.org.

přes Microsoft.com

Více o tématech: ai, kreslení bot, microsoft, Články vyžadující průzkum

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *