Новый инструмент искусственного интеллекта Microsoft превращает ваше воображение в реальность

Значок времени чтения 3 минута. читать

Значок календаря Опубликовано 18 января 2018

Опубликован в 18 января 2018

Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам.

Представьте, что вы можете создавать высококачественные фотографии, просто описывая их компьютеру. Этот научно-фантастический сценарий стал реальностью благодаря новому инструменту искусственного интеллекта от Microsoft.

Drawing Bot создал вышеуказанное изображение просто по описанию «птица с желтым телом, черными крыльями и коротким клювом,” с использованием нового метода, при котором ИИ уделяет пристальное внимание отдельным словам при создании изображений из текстовых описаний, похожих на заголовки, что приводит к 3-кратному повышению качества изображения по сравнению с другими методами преобразования текста в изображение.

Бот может делать больше, чем просто птиц, он может рисовать все, от обычных пасторальных сцен, таких как пасущийся скот, до абсурдных, таких как плывущий двухэтажный автобус.

«Если вы зайдете в Bing и будете искать птицу, вы получите изображение птицы. Но здесь изображения создаются компьютером, пиксель за пикселем, с нуля», — сказал Сяодун Хэ, главный исследователь и руководитель исследований в Центре технологий глубокого обучения исследовательской лаборатории Microsoft в Редмонде, штат Вашингтон. «Эти птицы могут не существовать в реальном мире — они всего лишь часть нашего компьютерного воображения о птицах».

Команда начала с CaptionBot, который автоматически писал подписи к изображениям (используется, например, в Facebook, чтобы пометить изображения в целях доступности), затем SeeingAI, который позволял слабовидящим пользователям использовать камеру своего телефона для описания сцен, и теперь, наконец, Бот для рисования.

«Теперь мы хотим использовать текст для создания изображения», — сказал Цююань Хуанг, научный сотрудник группы Хэ и соавтор статьи. — Значит, это цикл.

Это умение является примером генеративно-состязательной сети, или GAN, где одна сеть ИИ, генератор, пытается получить поддельные изображения через другую сеть ИИ, дискриминатор. Работая вместе, дискриминатор подталкивает генератор к совершенству.

Новая техника улучшает состояние искусства, концентрируясь на разных частях предложения по очереди, например, сначала рисуя желтую птицу, затем черные крылья, а затем короткий клюв.

«Внимание — это человеческое понятие; мы используем математику, чтобы сделать внимание вычислительным», — объяснил Хе.

«Мы можем контролировать то, что описываем, и видеть, как машина реагирует», — объяснил Хе. «Мы можем прощупать и проверить, чему научилась машина. У машины есть некоторые базовые знания здравого смысла, но она все еще может следовать тому, что вы просите, и, возможно, иногда это кажется немного нелепым».

Технология преобразования текста в изображение может найти практическое применение в качестве своего рода помощника для эскизов художников и дизайнеров интерьеров или в качестве инструмента для голосовой обработки фотографий. Он предполагает, что с большей вычислительной мощностью технология сможет создавать анимационные фильмы на основе сценариев, дополняя работу, которую выполняют создатели анимационных фильмов, убирая часть ручного труда.

«Чтобы ИИ и люди жили в одном мире, у них должен быть способ взаимодействовать друг с другом», — пояснил Хе. «А язык и зрение — два наиболее важных способа взаимодействия людей и машин друг с другом».

Полный документ с описанием исследования можно найти на arXiv.org.

с помощью Microsoft.com

Подробнее о темах: ai, бот для рисования, Microsoft, В исследовании

Сурур Давидс

Эксперт по смартфонам

Сурур Давидс — основатель WMPoweruser, который позже стал MSPoweruser.com. Он эксперт по смартфонам с более чем десятилетним опытом.

Оставьте комментарий