Microsofts nya vision-language (VL) system överträffar avsevärt mänsklig prestanda

Lästid ikon 2 min. läsa

Kalenderikonen Publicerad den Januari 18, 2021

publicerad den Januari 18, 2021

Läsare hjälper till att stödja MSpoweruser. Vi kan få en provision om du köper via våra länkar.

Vision-language (VL)-system gör det möjligt att söka i relevanta bilder efter en textfråga (eller vice versa) och beskriva innehållet i en bild med naturligt språk. I allmänhet använder ett VL-system en bildkodningsmodul och en vision-språkfusionsmodul. Microsoft Research utvecklade nyligen en ny modell för detektering av objektattribut för bildkodning som kallas VinVL (Vvanliga funktioner in Vision-Långest).

När VinVL kombineras med VL fusionsmoduler som t.ex OSCAR och VIVO, kunde det nya Microsoft VL-systemet uppnå topposition i de mest konkurrenskraftiga VL-topplistorna, inklusive Visual Question Answering (VQA), Microsoft COCO Image Captioning och Novel Object Captioning (nocaps). Microsoft Research-teamet betonade också att detta nya VL-system avsevärt överträffar mänskliga prestationer på nocaps leaderboard när det gäller CIDEr (92.5 vs. 85.3).

VinVL har visat stor potential för att förbättra bildkodning för VL-förståelse. Vår nyutvecklade bildkodningsmodell kan gynna ett brett utbud av VL-uppgifter, vilket illustreras av exempel i detta papper. Trots de lovande resultaten vi fick, som att överträffa mänskliga prestationer på riktmärken för bildtextning, når vår modell inte på något sätt intelligensen på mänsklig nivå av VL-förståelse. Intressanta riktningar för framtida arbeten inkluderar: (1) ytterligare skala upp förträningen för detektering av objektattribut genom att utnyttja massiv bildklassificering/taggningsdata, och (2) utvidga metoderna för inlärning av tvärmodal VL-representation till att bygga perceptionsbaserade språkmodeller som kan grunda visuella koncept i naturligt språk och vice versa som människor gör.

Microsoft VinVL integreras i Azure Cognitive Services, som driver olika Microsoft-tjänster som Seeing AI, Image Captioning in Office och LinkedIn, och andra. Microsofts forskningsteam kommer också att släppa VinVL-modellen och källkoden till allmänheten.

Källa: Microsoft

Mer om ämnena: microsoft, microsoft research, VinVL