Новий інструмент штучного інтелекту Microsoft перетворює вашу уяву в реальність

Значок часу читання 3 хв. читати


Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання. Значок підказки

Прочитайте нашу сторінку розкриття інформації, щоб дізнатися, як ви можете допомогти MSPoweruser підтримувати редакційну команду Читати далі

Уявіть, що ви можете створювати високоякісні фотографії, просто описуючи їх на комп’ютері. Цей науково-фантастичний сценарій тепер реальність завдяки новому інструменту AI від Microsoft.

Drawing Bot створив наведене вище зображення просто з опису «птах з жовтим тілом, чорними крилами і коротким дзьобом,” з використанням нової техніки, коли ШІ приділяє пильну увагу окремим словам під час створення зображень із текстових описів, подібних до підписів, що призводить до 3-кратного підвищення якості зображення порівняно з іншими методами генерації тексту в зображення.

Бот може робити більше, ніж просто птахів, маючи все, від звичайних пасторальних сцен, таких як випас худоби, до абсурду, наприклад, плаваючий двоповерховий автобус.

«Якщо ви зайдете в Bing і шукаєте птаха, ви отримаєте зображення птаха. Але тут зображення створюється комп’ютером, піксель за пікселем, з нуля», – сказав Сяодун Хе, головний дослідник і менеджер з досліджень у Технологічному центрі глибокого навчання в дослідницькій лабораторії Microsoft у Редмонді, штат Вашингтон. «Ці птахи можуть не існувати в реальному світі — вони є лише аспектом уяви птахів нашого комп’ютера».

Команда почала з CaptionBot, який автоматично писав підписи до зображень (наприклад, у Facebook, щоб позначати зображення з метою забезпечення доступності), потім SeeingAI, який дозволяв користувачам із вадами зору використовувати камеру свого телефону, щоб описувати сцени, і тепер, нарешті, Бот для малювання.

«Тепер ми хочемо використати текст для створення зображення», — сказав Цююань Хуан, докторант групи He's та співавтор статті. «Отже, це цикл».

Цей подвиг є прикладом генеративної змагальної мережі, або GAN, де одна мережа AI, генератор намагається отримати підроблені зображення через іншу мережу AI, дискримінатор. Працюючи разом, дискримінатор штовхає генератор до досконалості.

Нова техніка покращує стан техніки, концентруючи увагу на різних частинах речення по черзі, наприклад, спочатку малюючи жовтого птаха, потім чорні крила, а потім короткий дзьоб.

«Увага — це людське поняття; ми використовуємо математику, щоб зробити увагу обчислювальною», — пояснив Хе.

«Ми можемо контролювати те, що описуємо, і бачити, як реагує машина», — пояснив Хе. «Ми можемо перевірити й перевірити, чого навчилася машина. Машина має певний досвід здорового глузду, але вона все ще може виконувати те, що ви запитуєте, і, можливо, іноді це здається трохи смішним».

Технологія генерації тексту в зображення могла б знайти практичне застосування, виступаючи свого роду помічником ескізів для художників і дизайнерів інтер’єрів, або як інструмент для уточнення фотографій, активованих голосом. Він уявляє, що завдяки більшій обчислювальної потужності ця технологія може створювати анімаційні фільми на основі сценаріїв, доповнюючи роботу, яку виконують режисери анімаційних фільмів, усуваючи частину ручної праці.

«Щоб AI та люди жили в одному світі, вони повинні мати спосіб взаємодіяти один з одним», — пояснив Хе. «А мова та зір — це два найважливіші способи взаємодії людей і машин».

Повний документ з описом дослідження можна знайти за посиланням arXiv.org.

через Microsoft.com

Детальніше про теми: ai, бот для малювання, Microsoft, Дослідження

залишити коментар

Ваша електронна адреса не буде опублікований. Обов'язкові поля позначені * *