微软研究院启发视频字幕机器人

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

视频标题生成 1024x562

台湾国立清华大学电机工程系教授 Chia-Wen Lin 和 Min Sun 两位中国研究人员创建了一个机器人,它将为您观看您的视频,确定其亮点,创建相关标题以便于搜索,以及推荐谁可能想要被标记来观看它。

受微软研究院 COCO(Common Objects in Context)的启发,林教授和孙教授于 2015 年与微软亚洲研究院多媒体首席研究员陶梅博士合作,使用 COCO 字幕进行句子增强,并使用 MSCOCO 中的字幕训练他们系统。

他们自己的系统分析了 18,000 个视频的精彩片段,并生成了 44,000 个标题/描述。 为了改进系统,孙教授和他的学生参加了微软研究院赞助的 VideoToText 挑战赛,利用挑战赛中发布的数据进行额外验证。

“我们的研究让我们更接近视觉智能的圣杯,即理解用户生成视频中的视觉内容,”孙教授说。

他们的研究最终将使您能够轻松地在社交媒体上查找和观看用户生成的内容,包括您的祖父在您堂兄的婚礼上跳舞时掉牙的精彩片段。

孙教授和陶梅博士的研究 已在此处的 Arxiv.org 上发布.

有关主题的更多信息: 计算机视觉, 微软研究

发表评论

您的电邮地址不会被公开。 必填带 *