Microsoft premaga gospo Pac-Man z edinstvenim sistemom umetne inteligence z več agenti

Ikona časa branja 2 min. prebrati

Ikona koledarja Objavljeno dne Junij 14, 2017

Objavljeno dne Junij 14, 2017

Bralci pomagajo pri podpori MSpoweruser. Če kupujete prek naših povezav, lahko prejmemo provizijo.

Sistem, ki temelji na umetni inteligenci, ki ga je razvil Microsoft, je dosegel največji možni rezultat za igro Ms. Pac-Man, 999,990. Ta sistem je razvila ekipa pri Maluubi, kanadskem zagonskem podjetju za globoko učenje, ki ga je Microsoft pridobil v začetku tega leta. Uporabili so metodo deli in obvladuj, ki bi lahko imela široke posledice za poučevanje agentov AI, da opravljajo zapletene naloge. To je pomemben dosežek, saj so raziskovalci AI vedno ugotovili, da je gospa Pac-Man med najtežje razbitimi. Ekipa Maluuba imenuje tehniko, ki se uporablja v tem sistemu, hibridna arhitektura nagrajevanja. O tem si podrobneje preberite spodaj,

Ta tehnika uporablja več kot 150 agentov, od katerih je vsak delal vzporedno z drugimi agenti, da bi obvladal gospo Pac-Man. Nekateri agenti so bili na primer nagrajeni, ker so uspešno našli določeno kroglico, drugi pa so bili zadolženi, da se izogibajo duhom. Nato so raziskovalci ustvarili vrhunskega agenta – nekako kot višjega menedžerja v podjetju –, ki je vzel predloge vseh agentov in jih uporabil za odločitev, kam naj premakne gospo Pac-Man.

Najvišji agent je upošteval, koliko agentov se je zavzemal za to, da gredo v določeno smer, vendar je upošteval tudi intenzivnost, s katero so želeli narediti to potezo. Na primer, če bi 100 agentov želelo iti desno, ker je bila to najboljša pot do njihovega peleta, trije pa so hoteli iti levo, ker je na desni smrtonosni duh, bi to dalo večjo težo tistim, ki so duha opazili in Pojdi levo.

Tehnika je še posebej zanimiva, ker je veliko zapletenih nalog, ki bi bile običajno pretežke za sisteme strojnega učenja, mogoče razdeliti na več posameznih enostavnejših nalog, kar ima pomembne posledice za količino in vrsto dela, ki ga bo AI kmalu lahko izpodrinila.

Preberite več o tej zgodbi tukaj.

Več o temah: ai, Maluuba's Hybrid Reward Architecture, microsoft, Gospa Pac-Man, okrepljeno učenje

Pradeep Viswav

Strokovnjak za programsko opremo in storitve

Pradeep je diplomant računalništva in inženirstva. Bil je tudi Microsoftov študentski partner. Trenutno dela v vodilnem IT podjetju.