Microsoft Research는 비디오 캡션 봇에 영감을 줍니다.

독서 시간 아이콘 2 분. 읽다

달력 아이콘 에 게시됨 2016 년 10 월 11 일

에 게시 2016 년 10 월 11 일

독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다.

대만 국립 칭화대 전기공학부 교수인 Chia-Wen Lin과 Min Sun이라는 두 명의 중국 연구원이 사용자를 위해 비디오를 시청하고 하이라이트를 결정하고 쉽게 검색할 수 있도록 관련 제목을 만드는 봇을 만들었습니다. 시청하기 위해 태그를 지정할 수 있는 사람을 추천합니다.

Microsoft Research의 COCO(Common Objects in Context)에서 영감을 받은 Lin 교수와 Sun 교수는 2015년 Microsoft Research Asia의 멀티미디어 수석 연구원인 Dr. Tao Mei와 협력하여 COCO 캡션을 문장 확장에 사용하고 MSCOCO의 캡션을 사용하여 학습했습니다. 체계.

자체 시스템은 하이라이트를 위해 18,000개의 비디오를 분석하고 44,000개의 제목/설명을 생성했습니다. 시스템을 개선하기 위해 Sun 교수와 그의 학생들은 추가 검증을 위해 챌린지에서 공개된 데이터를 사용하여 Microsoft Research에서 후원하는 VideoToText 챌린지에 참가했습니다.

Sun 교수는 "우리의 연구는 사용자 제작 비디오의 시각적 콘텐츠를 이해하는 시각적 지능의 성배에 한 걸음 더 다가가도록 했습니다."라고 말했습니다.

그들의 연구는 결국 당신이 사촌의 결혼식에서 춤을 추다가 이빨을 잃는 할아버지의 놀라운 클립을 포함하여 소셜 미디어에서 사용자 생성 콘텐츠를 쉽게 찾고 볼 수 있게 해 줄 것입니다.

Sun 교수와 Tao Mei 박사의 연구 여기 Arxiv.org에 게시되었습니다..

주제에 대한 추가 정보: 컴퓨터 비전, 마이크로 소프트 연구