微軟研究院啟發視頻字幕機器人

閱讀時間圖標 2分鐘讀

日曆圖標發表於 2016 年 10 月 11 日

發表於 2016 年 10 月 11 日

讀者幫助支持 MSpoweruser。如果您透過我們的連結購買，我們可能會獲得佣金。

台灣國立清華大學電機工程系教授 Chia-Wen Lin 和 Min Sun 兩位中國研究人員創建了一個機器人，它將為您觀看您的視頻，確定其亮點，創建相關標題以便於搜索，以及推薦誰可能想要被標記來觀看它。

受微軟研究院 COCO（Common Objects in Context）的啟發，林教授和孫教授於 2015 年與微軟亞洲研究院多媒體首席研究員陶梅博士合作，使用 COCO 字幕進行句子增強，並使用 MSCOCO 中的字幕訓練他們系統。

他們自己的系統分析了 18,000 個視頻的精彩片段，並生成了 44,000 個標題/描述。為了改進系統，孫教授和他的學生參加了微軟研究院贊助的 VideoToText 挑戰賽，利用挑戰賽中發布的數據進行額外驗證。

“我們的研究讓我們更接近視覺智能的聖杯，即理解用戶生成視頻中的視覺內容，”孫教授說。

他們的研究最終將使您能夠輕鬆地在社交媒體上查找和觀看用戶生成的內容，包括您的祖父在您堂兄的婚禮上跳舞時掉牙的精彩片段。

有關主題的更多資訊：計算機視覺, 微軟研究

蘇魯爾·戴維斯

智慧型手機專家

Surur Davids 是 WMPoweruser（後來成為 MSPoweruser.com）的創始人。他是一位擁有十多年經驗的智慧型手機專家。