Microsofts nya vision-language (VL) system överträffar avsevärt mänsklig prestanda

Lästid ikon 2 min. läsa


Läsare hjälper till att stödja MSpoweruser. Vi kan få en provision om du köper via våra länkar. Verktygstipsikon

Läs vår informationssida för att ta reda på hur du kan hjälpa MSPoweruser upprätthålla redaktionen Läs mer

Microsoft Vision språksystem

Microsoft Vision språksystem

Vision-language (VL)-system gör det möjligt att söka i relevanta bilder efter en textfråga (eller vice versa) och beskriva innehållet i en bild med naturligt språk. I allmänhet använder ett VL-system en bildkodningsmodul och en vision-språkfusionsmodul. Microsoft Research utvecklade nyligen en ny modell för detektering av objektattribut för bildkodning som kallas VinVL (Vvanliga funktioner in Vision-Långest).

När VinVL kombineras med VL fusionsmoduler som t.ex OSCAR och VIVO, kunde det nya Microsoft VL-systemet uppnå topposition i de mest konkurrenskraftiga VL-topplistorna, inklusive Visual Question Answering (VQA), Microsoft COCO Image Captioning och Novel Object Captioning (nocaps). Microsoft Research-teamet betonade också att detta nya VL-system avsevärt överträffar mänskliga prestationer på nocaps leaderboard när det gäller CIDEr (92.5 vs. 85.3).

VinVL har visat stor potential för att förbättra bildkodning för VL-förståelse. Vår nyutvecklade bildkodningsmodell kan gynna ett brett utbud av VL-uppgifter, vilket illustreras av exempel i detta papper. Trots de lovande resultaten vi fick, som att överträffa mänskliga prestationer på riktmärken för bildtextning, når vår modell inte på något sätt intelligensen på mänsklig nivå av VL-förståelse. Intressanta riktningar för framtida arbeten inkluderar: (1) ytterligare skala upp förträningen för detektering av objektattribut genom att utnyttja massiv bildklassificering/taggningsdata, och (2) utvidga metoderna för inlärning av tvärmodal VL-representation till att bygga perceptionsbaserade språkmodeller som kan grunda visuella koncept i naturligt språk och vice versa som människor gör.

Microsoft VinVL integreras i Azure Cognitive Services, som driver olika Microsoft-tjänster som Seeing AI, Image Captioning in Office och LinkedIn, och andra. Microsofts forskningsteam kommer också att släppa VinVL-modellen och källkoden till allmänheten.

Källa: Microsoft

Mer om ämnena: microsoft, microsoft research, VinVL

Kommentera uppropet

E-postadressen publiceras inte. Obligatoriska fält är markerade *