微軟研究院啟發視頻字幕機器人

閱讀時間圖標 2分鐘讀


讀者幫助支持 MSpoweruser。如果您透過我們的連結購買,我們可能會獲得佣金。 工具提示圖標

請閱讀我們的揭露頁面,了解如何幫助 MSPoweruser 維持編輯團隊的發展 阅读更多

視頻標題生成 1024x562

台灣國立清華大學電機工程系教授 Chia-Wen Lin 和 Min Sun 兩位中國研究人員創建了一個機器人,它將為您觀看您的視頻,確定其亮點,創建相關標題以便於搜索,以及推薦誰可能想要被標記來觀看它。

受微軟研究院 COCO(Common Objects in Context)的啟發,林教授和孫教授於 2015 年與微軟亞洲研究院多媒體首席研究員陶梅博士合作,使用 COCO 字幕進行句子增強,並使用 MSCOCO 中的字幕訓練他們系統。

他們自己的系統分析了 18,000 個視頻的精彩片段,並生成了 44,000 個標題/描述。 為了改進系統,孫教授和他的學生參加了微軟研究院贊助的 VideoToText 挑戰賽,利用挑戰賽中發布的數據進行額外驗證。

“我們的研究讓我們更接近視覺智能的聖杯,即理解用戶生成視頻中的視覺內容,”孫教授說。

他們的研究最終將使您能夠輕鬆地在社交媒體上查找和觀看用戶生成的內容,包括您的祖父在您堂兄的婚禮上跳舞時掉牙的精彩片段。

孫教授和陶梅博士的研究 已在此處的 Arxiv.org 上發布.

有關主題的更多資訊: 計算機視覺, 微軟研究