Новий інструмент штучного інтелекту Microsoft перетворює вашу уяву в реальність

Значок часу читання 3 хв. читати

Піктограма календаря Опубліковано Січень 18, 2018

опубліковано на Січень 18, 2018

Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання.

Уявіть, що ви можете створювати високоякісні фотографії, просто описуючи їх на комп’ютері. Цей науково-фантастичний сценарій тепер реальність завдяки новому інструменту AI від Microsoft.

Drawing Bot створив наведене вище зображення просто з опису «птах з жовтим тілом, чорними крилами і коротким дзьобом,” з використанням нової техніки, коли ШІ приділяє пильну увагу окремим словам під час створення зображень із текстових описів, подібних до підписів, що призводить до 3-кратного підвищення якості зображення порівняно з іншими методами генерації тексту в зображення.

Бот може робити більше, ніж просто птахів, маючи все, від звичайних пасторальних сцен, таких як випас худоби, до абсурду, наприклад, плаваючий двоповерховий автобус.

«Якщо ви зайдете в Bing і шукаєте птаха, ви отримаєте зображення птаха. Але тут зображення створюється комп’ютером, піксель за пікселем, з нуля», – сказав Сяодун Хе, головний дослідник і менеджер з досліджень у Технологічному центрі глибокого навчання в дослідницькій лабораторії Microsoft у Редмонді, штат Вашингтон. «Ці птахи можуть не існувати в реальному світі — вони є лише аспектом уяви птахів нашого комп’ютера».

Команда почала з CaptionBot, який автоматично писав підписи до зображень (наприклад, у Facebook, щоб позначати зображення з метою забезпечення доступності), потім SeeingAI, який дозволяв користувачам із вадами зору використовувати камеру свого телефону, щоб описувати сцени, і тепер, нарешті, Бот для малювання.

«Тепер ми хочемо використати текст для створення зображення», — сказав Цююань Хуан, докторант групи He's та співавтор статті. «Отже, це цикл».

Цей подвиг є прикладом генеративної змагальної мережі, або GAN, де одна мережа AI, генератор намагається отримати підроблені зображення через іншу мережу AI, дискримінатор. Працюючи разом, дискримінатор штовхає генератор до досконалості.

Нова техніка покращує стан техніки, концентруючи увагу на різних частинах речення по черзі, наприклад, спочатку малюючи жовтого птаха, потім чорні крила, а потім короткий дзьоб.

«Увага — це людське поняття; ми використовуємо математику, щоб зробити увагу обчислювальною», — пояснив Хе.

«Ми можемо контролювати те, що описуємо, і бачити, як реагує машина», — пояснив Хе. «Ми можемо перевірити й перевірити, чого навчилася машина. Машина має певний досвід здорового глузду, але вона все ще може виконувати те, що ви запитуєте, і, можливо, іноді це здається трохи смішним».

Технологія генерації тексту в зображення могла б знайти практичне застосування, виступаючи свого роду помічником ескізів для художників і дизайнерів інтер’єрів, або як інструмент для уточнення фотографій, активованих голосом. Він уявляє, що завдяки більшій обчислювальної потужності ця технологія може створювати анімаційні фільми на основі сценаріїв, доповнюючи роботу, яку виконують режисери анімаційних фільмів, усуваючи частину ручної праці.

«Щоб AI та люди жили в одному світі, вони повинні мати спосіб взаємодіяти один з одним», — пояснив Хе. «А мова та зір — це два найважливіші способи взаємодії людей і машин».

Повний документ з описом дослідження можна знайти за посиланням arXiv.org.

через Microsoft.com

Детальніше про теми: ai, бот для малювання, Microsoft, Дослідження

Сурур Давідс

Експерт зі смартфонів

Сурур Девідс є засновником WMPoweruser, який пізніше став MSPoweruser.com. Він експерт зі смартфонів із понад десятирічним досвідом.

залишити коментар