MicrosoftResearchはビデオキャプションボットを刺激します

読書時間アイコン 2分。読んだ

カレンダーアイコン上で公開 2016 年 10 月 11 日

上の公表 2016 年 10 月 11 日

読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。

台湾の国立清華大学の電気工学部の教授であるXNUMX人の中国人研究者、チアウェンリンとミンサンは、あなたのビデオを見て、そのハイライトを決定し、簡単に検索できる関連タイトルを作成するボットを作成しました。誰がそれを見るためにタグ付けされたいかもしれないかをお勧めします。

Microsoft ResearchのCOCO（Common Objects in Context）に触発され、Lin教授とSun教授は、2015年にMicrosoftResearchAsiaのマルチメディアの主任研究員であるDr.TaoMeiと協力し、文の拡張にCOCOキャプションを使用し、MSCOCOのキャプションを使用してトレーニングを行いました。システム。

彼ら自身のシステムは、ハイライトについて18,000本のビデオを分析し、44,000本のタイトル/説明を生成しました。システムを改善するために、Sun教授とその学生は、Microsoft Researchが主催するVideoToTextチャレンジに参加し、チャレンジでリリースされたデータを追加の検証に使用しました。

「私たちの研究は、視覚的知性の聖杯に一歩近づき、ユーザー生成ビデオの視覚的コンテンツを理解しました」とSun教授は述べています。

彼らの調査により、いとこの結婚式で踊っているときにおじいちゃんが歯を失ったという驚くべきクリップなど、ソーシャルメディアでユーザーが作成したコンテンツを簡単に見つけて視聴できるようになります。

サン教授とタオメイ博士の研究こちらのArxiv.orgで公開されています.

トピックの詳細: コンピュータビジョン, マイクロソフトリサーチ