微软研究院启发视频字幕机器人

阅读时间图标 2分钟读

日历图标发表于 2016 年 10 月 11 日

发表于 2016 年 10 月 11 日

读者帮助支持 MSpoweruser。如果您通过我们的链接购买，我们可能会获得佣金。

台湾国立清华大学电机工程系教授 Chia-Wen Lin 和 Min Sun 两位中国研究人员创建了一个机器人，它将为您观看您的视频，确定其亮点，创建相关标题以便于搜索，以及推荐谁可能想要被标记来观看它。

受微软研究院 COCO（Common Objects in Context）的启发，林教授和孙教授于 2015 年与微软亚洲研究院多媒体首席研究员陶梅博士合作，使用 COCO 字幕进行句子增强，并使用 MSCOCO 中的字幕训练他们系统。

他们自己的系统分析了 18,000 个视频的精彩片段，并生成了 44,000 个标题/描述。为了改进系统，孙教授和他的学生参加了微软研究院赞助的 VideoToText 挑战赛，利用挑战赛中发布的数据进行额外验证。

“我们的研究让我们更接近视觉智能的圣杯，即理解用户生成视频中的视觉内容，”孙教授说。

他们的研究最终将使您能够轻松地在社交媒体上查找和观看用户生成的内容，包括您的祖父在您堂兄的婚礼上跳舞时掉牙的精彩片段。

有关主题的更多信息：计算机视觉, 微软研究

苏鲁尔·戴维斯

智能手机专家

Surur Davids 是 WMPoweruser（后来成为 MSPoweruser.com）的创始人。他是一位拥有十多年经验的智能手机专家。