Microsoft Research rakentaa uuden järjestelmän kuvien automaattiseen tekstitykseen

Lukuajan kuvake 2 min. lukea


Lukijat auttavat tukemaan MSpoweruseria. Saatamme saada palkkion, jos ostat linkkien kautta. Työkaluvihje-kuvake

Lue ilmoitussivumme saadaksesi selville, kuinka voit auttaa MSPoweruseria ylläpitämään toimitustiimiä Lue lisää

Microsoft Research Image

Noin 12 Microsoft Researchin harjoittelijaa ja tutkijaa ovat luoneet automaattisen kuvien tekstitysohjelmistojärjestelmän. Otetaan esimerkkinä yllä oleva kuva. Heidän uusi järjestelmänsä voi automaattisesti kuvata kuvan "nainen pitelee kameraa väkijoukossa"

Sen lisäksi, että projekti oli hieno työskennellä: olen myös ylpeä tuloksista, jotka ovat a preprint. Voit ajatella tekstitysjärjestelmää konekäännösjärjestelmänä, pikseleistä (esim.) englanniksi. Konekäännösasiantuntijat käyttävät BLEU-mittari vertailla järjestelmän tulosta ihmisen käännökseen. BLEU jakaa kuvatekstit pituisiksi paloiksi (1–4 sanaa) ja mittaa sitten päällekkäisyyden määrän järjestelmän ja ihmisen käännösten välillä. Se myös rankaisee lyhyitä järjestelmätekstejä.

Ymmärtääksemme korkeimman mahdollisen BLEU-pisteen, jonka voimme saavuttaa, testasimme yhtä ihmisen kirjoittamaa kuvatekstiä (hypoteettisena "järjestelmänä") verrattuna neljään muuhun. Olen iloinen voidessani ilmoittaa, että BLEU-pisteissä voitimme todella ihmiset! Järjestelmämme saavutti 21.05 % BLEU-pisteet, kun taas ihmisen “järjestelmä” sai 19.32 %.

Nyt sinun pitäisi ottaa tämä yli-inhimillinen BLEU-pistemäärä jättimäisesti suolakivi. BLEU:lla on monia rajoituksia, jotka tunnetaan hyvin konekäännösyhteisössä. Kokeilimme myös testausta METEOR-mittari, ja se jäi jonkin verran ihmisen suorituskyvyn alapuolelle (20.71 % vs 24.07 %).

Todellinen kultastandardi on tehdä sokkotesti ja kysyä ihmisiltä, ​​kumpi kuvateksti on parempi (ikään kuin mitä kysyin yllä). Pyysimme Amazonin Mechanical Turkia vertailemaan tekstityspareja: onko toinen parempi, toinen vai ovatko ne suunnilleen samat? 23.3 %:ssa testikuvista ihmiset ajattelivat, että järjestelmäteksti oli sama tai parempi kuin ihmisen kuvateksti.

Lue lisää tätä.

Lisää aiheista: Kuvateksti, kuvien, koneoppiminen, microsoft, tutkimus