MicrosoftResearchはビデオキャプションボットを刺激します
2分。 読んだ
上で公開
MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む
台湾の国立清華大学の電気工学部の教授であるXNUMX人の中国人研究者、チアウェンリンとミンサンは、あなたのビデオを見て、そのハイライトを決定し、簡単に検索できる関連タイトルを作成するボットを作成しました。誰がそれを見るためにタグ付けされたいかもしれないかをお勧めします。
Microsoft ResearchのCOCO(Common Objects in Context)に触発され、Lin教授とSun教授は、2015年にMicrosoftResearchAsiaのマルチメディアの主任研究員であるDr.TaoMeiと協力し、文の拡張にCOCOキャプションを使用し、MSCOCOのキャプションを使用してトレーニングを行いました。システム。
彼ら自身のシステムは、ハイライトについて18,000本のビデオを分析し、44,000本のタイトル/説明を生成しました。 システムを改善するために、Sun教授とその学生は、Microsoft Researchが主催するVideoToTextチャレンジに参加し、チャレンジでリリースされたデータを追加の検証に使用しました。
「私たちの研究は、視覚的知性の聖杯に一歩近づき、ユーザー生成ビデオの視覚的コンテンツを理解しました」とSun教授は述べています。
彼らの調査により、いとこの結婚式で踊っているときにおじいちゃんが歯を失ったという驚くべきクリップなど、ソーシャルメディアでユーザーが作成したコンテンツを簡単に見つけて視聴できるようになります。
サン教授とタオメイ博士の研究 こちらのArxiv.orgで公開されています.