Новый инструмент искусственного интеллекта Microsoft превращает ваше воображение в реальность

Значок времени чтения 3 минута. читать


Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам. Значок подсказки

Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее

Представьте, что вы можете создавать высококачественные фотографии, просто описывая их компьютеру. Этот научно-фантастический сценарий стал реальностью благодаря новому инструменту искусственного интеллекта от Microsoft.

Drawing Bot создал вышеуказанное изображение просто по описанию «птица с желтым телом, черными крыльями и коротким клювом,” с использованием нового метода, при котором ИИ уделяет пристальное внимание отдельным словам при создании изображений из текстовых описаний, похожих на заголовки, что приводит к 3-кратному повышению качества изображения по сравнению с другими методами преобразования текста в изображение.

Бот может делать больше, чем просто птиц, он может рисовать все, от обычных пасторальных сцен, таких как пасущийся скот, до абсурдных, таких как плывущий двухэтажный автобус.

«Если вы зайдете в Bing и будете искать птицу, вы получите изображение птицы. Но здесь изображения создаются компьютером, пиксель за пикселем, с нуля», — сказал Сяодун Хэ, главный исследователь и руководитель исследований в Центре технологий глубокого обучения исследовательской лаборатории Microsoft в Редмонде, штат Вашингтон. «Эти птицы могут не существовать в реальном мире — они всего лишь часть нашего компьютерного воображения о птицах».

Команда начала с CaptionBot, который автоматически писал подписи к изображениям (используется, например, в Facebook, чтобы пометить изображения в целях доступности), затем SeeingAI, который позволял слабовидящим пользователям использовать камеру своего телефона для описания сцен, и теперь, наконец, Бот для рисования.

«Теперь мы хотим использовать текст для создания изображения», — сказал Цююань Хуанг, научный сотрудник группы Хэ и соавтор статьи. — Значит, это цикл.

Это умение является примером генеративно-состязательной сети, или GAN, где одна сеть ИИ, генератор, пытается получить поддельные изображения через другую сеть ИИ, дискриминатор. Работая вместе, дискриминатор подталкивает генератор к совершенству.

Новая техника улучшает состояние искусства, концентрируясь на разных частях предложения по очереди, например, сначала рисуя желтую птицу, затем черные крылья, а затем короткий клюв.

«Внимание — это человеческое понятие; мы используем математику, чтобы сделать внимание вычислительным», — объяснил Хе.

«Мы можем контролировать то, что описываем, и видеть, как машина реагирует», — объяснил Хе. «Мы можем прощупать и проверить, чему научилась машина. У машины есть некоторые базовые знания здравого смысла, но она все еще может следовать тому, что вы просите, и, возможно, иногда это кажется немного нелепым».

Технология преобразования текста в изображение может найти практическое применение в качестве своего рода помощника для эскизов художников и дизайнеров интерьеров или в качестве инструмента для голосовой обработки фотографий. Он предполагает, что с большей вычислительной мощностью технология сможет создавать анимационные фильмы на основе сценариев, дополняя работу, которую выполняют создатели анимационных фильмов, убирая часть ручного труда.

«Чтобы ИИ и люди жили в одном мире, у них должен быть способ взаимодействовать друг с другом», — пояснил Хе. «А язык и зрение — два наиболее важных способа взаимодействия людей и машин друг с другом».

Полный документ с описанием исследования можно найти на arXiv.org.

с помощью Microsoft.com

Подробнее о темах: ai, бот для рисования, Microsoft, В исследовании

Оставьте комментарий

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *