Microsoft Research работает над ИИ, который может рассказать историю ваших праздничных снимков
2 минута. читать
Опубликовано
Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее
ИИ, который может описывать изображения, уже работает в Интернете, например, добавляя подписи к изображениям на Facebook. Теперь Microsoft Research выводит технологию на новый уровень, попросив свой ИИ рассказать историю серии изображений.
Например, в то время как программа подписи к изображению может взять пять изображений и сказать: «Это фотография семьи; это изображение торта; это изображение собаки; это изображение пляжа», программа повествования может взять те же изображения и сказать: «Семья собралась на пикник; у них было много вкусной еды; собака была счастлива быть там; они прекрасно провели время на пляже; они даже искупались в воде».
По словам Митчелла, в будущем компьютеризированное повествование может помочь людям автоматически создавать истории для слайд-шоу из изображений, которые они загружают в социальные сети. «Вы поможете людям поделиться своим опытом, сократив при этом рутинную работу, которую некоторые люди находят довольно утомительной», — сказала она. Компьютеризированное повествование «также может помочь людям с нарушениями зрения открывать изображения для людей, которые их не видят».
«Цель состоит в том, чтобы дать ИИ более человеческий интеллект, чтобы помочь ему понимать вещи на более абстрактном уровне — что значит быть веселым или жутким, странным или интересным», — сказала старший автор исследования Маргарет Митчелл, компьютерный ученый в Исследования Майкрософт. «Люди веками передавали истории, используя их для передачи нашей морали, стратегии и мудрости. Сосредоточившись на рассказывании историй, мы надеемся помочь ИИ понять человеческие концепции таким образом, чтобы это было очень безопасно и полезно для человечества, а не учить его, как победить человечество».
Если ИИ когда-нибудь научится рассказывать истории на основе последовательностей изображений, «это станет ступенькой к тому, чтобы сделать то же самое для видео», — сказал Митчелл. «Это может помочь найти интересные приложения. Например, для камер видеонаблюдения вам может понадобиться краткое изложение всего, что заслуживает внимания, или вы можете автоматически транслировать события в твиттере», — сказала она.
Исследователи представят свои выводы в Сан-Диего на ежегодном собрании Североамериканского отделения Ассоциации компьютерной лингвистики в конце этого месяца.