Microsoftov novi sistem vizualnega jezika (VL) znatno presega človeško zmogljivost

Ikona časa branja 2 min. prebrati

Ikona koledarja Objavljeno dne Januar 18, 2021

Objavljeno dne Januar 18, 2021

Bralci pomagajo pri podpori MSpoweruser. Če kupujete prek naših povezav, lahko prejmemo provizijo.

Sistemi Vision-language (VL) omogočajo iskanje ustreznih slik za besedilno poizvedbo (ali obratno) in opisovanje vsebine slike z naravnim jezikom. Na splošno sistem VL uporablja modul za kodiranje slik in modul za fuzijo vidnega jezika. Microsoft Research je pred kratkim razvil nov model zaznavanja atributov objekta za kodiranje slik, ki se imenuje VinVL (Vobičajne lastnosti in Vision-Ljezik).

Ko se VinVL kombinira s fuzijskimi moduli VL, kot npr OSCAR in VIVO, je novi sistem Microsoft VL uspel doseči najvišji položaj na najbolj konkurenčnih lestvicah najboljših VL, vključno z vizualnimi odgovori na vprašanja (VQA), Microsoft COCO Image Captioning in Novel Object Captioning (nocaps). Microsoftova raziskovalna skupina je tudi poudarila, da ta novi sistem VL bistveno presega človeško zmogljivost na lestvici najboljših nocaps v smislu CIDEr (92.5 proti 85.3).

VinVL je pokazal velik potencial pri izboljšanju kodiranja slik za razumevanje VL. Naš novo razvit model kodiranja slik lahko koristi širokemu naboru nalog VL, kot ponazarjajo primeri v ta papir. Kljub obetavnim rezultatom, ki smo jih dosegli, kot je preseganje človeške zmogljivosti pri merilih uspešnosti za napise slik, naš model nikakor ne dosega inteligence na človeški ravni razumevanja VL. Zanimive usmeritve prihodnjih del vključujejo: (1) nadaljnje povečanje predhodnega usposabljanja za odkrivanje atributov objektov z izkoriščanjem obsežnih podatkov o klasifikaciji/označevanju slik in (2) razširitev metod medmodalnega učenja reprezentacije VL na gradnjo jezikovnih modelov, ki temeljijo na zaznavanju. lahko utemelji vizualne koncepte v naravnem jeziku in obratno, kot to počnejo ljudje.

Microsoft VinVL se integrira v Azure Cognitive Services, ki poganja različne Microsoftove storitve, kot so Seeing AI, Image Captioning v Officeu in LinkedIn in druge. Microsoftova raziskovalna skupina bo javnosti predstavila tudi model VinVL in izvorno kodo.

vir: Microsoft

Več o temah: microsoft, Microsoftove raziskave, VinVL