Microsoft Research inspirerer videotekstningsbot

Ikon for læsetid 2 min. Læs

Kalenderikon Udgivet den Oktober 11, 2016

offentliggjort den Oktober 11, 2016

Læsere hjælper med at understøtte MSpoweruser. Vi får muligvis en kommission, hvis du køber via vores links.

To kinesiske forskere, Chia-Wen Lin og Min Sun, professorer i Electrical Engineering-afdelingen ved National Tsinghua University i Taiwan, har skabt en bot, som vil se din video for dig, bestemme dens højdepunkter, skabe en relevant titel til nem søgning og anbefale, hvem der kunne have lyst til at blive tagget for at se den.

Inspireret af Microsoft Researchs COCO (Common Objects in Context) samarbejdede professor Lin og professor Sun med Dr. Tao Mei, en førende forsker i multimedier hos Microsoft Research Asia i 2015, ved at bruge COCO-tekster til sætningsforstørrelse og bruge billedtekster i MSCOCO til at træne deres system.

Deres eget system analyserede 18,000 videoer for højdepunkter og genererede 44,000 titler/beskrivelser. For at forbedre systemet deltog professor Sun og hans elever i VideoToText-udfordringen sponsoreret af Microsoft Research, ved at bruge dataene frigivet i udfordringen til yderligere validering.

"Vores forskning har bragt os et skridt tættere på den hellige gral af visuel intelligens, at forstå visuelt indhold i brugergenererede videoer," sagde professor Sun.

Deres forskning vil i sidste ende gøre dig i stand til nemt at finde og se brugergenereret indhold på sociale medier, inklusive det fantastiske klip af din bedstefar, der taber tænderne, mens han danser til din fætters bryllup.

Professor Sun og Dr. Tao Meis forskning er blevet offentliggjort på Arxiv.org her.

Mere om emnerne: computersyn, Microsoft-forskning