Microsoft o învinge pe doamna Pac-Man folosind un sistem AI multi-agent unic

Pictograma timp de citire 2 min. citit


Cititorii ajută la sprijinirea MSpoweruser. Este posibil să primim un comision dacă cumpărați prin link-urile noastre. Pictograma Tooltip

Citiți pagina noastră de dezvăluire pentru a afla cum puteți ajuta MSPoweruser să susțină echipa editorială Află mai multe

Un sistem bazat pe inteligență artificială dezvoltat de Microsoft a obținut scorul maxim posibil pentru jocul Ms. Pac-Man, 999,990. Acest sistem a fost dezvoltat de o echipă de la Maluuba, un startup canadian de deep learning achiziționat de Microsoft la începutul acestui an. Ei au folosit o metodă de împărțire și cucerire care ar putea avea implicații largi pentru a-i învăța pe agenții AI să facă sarcini complexe. Aceasta este o realizare semnificativă, deoarece cercetătorii AI au găsit-o întotdeauna pe doamna Pac-Man printre cele mai greu de spart. Echipa Maluuba numește tehnica folosită în acest sistem Arhitectură de recompensă hibridă. Citiți despre asta în detaliu mai jos,

Această tehnică folosește peste 150 de agenți, fiecare dintre aceștia a lucrat în paralel cu ceilalți agenți pentru a o stăpâni pe doamna Pac-Man. De exemplu, unii agenți au fost răsplătiți pentru că au găsit cu succes un anumit pelete, în timp ce alții au fost însărcinați să stea departe de fantome. Apoi, cercetătorii au creat un agent de top – un fel de manager senior la o companie – care a primit sugestii de la toți agenții și le-a folosit pentru a decide unde să o mute pe doamna Pac-Man.

Agentul de top a ținut cont de câți agenți au pledat pentru a merge într-o anumită direcție, dar s-a uitat și la intensitatea cu care au vrut să facă acea mișcare. De exemplu, dacă 100 de agenți ar fi vrut să meargă la dreapta pentru că aceasta era cea mai bună cale către peleta lor, dar trei ar fi vrut să meargă la stânga pentru că în dreapta era o fantomă mortală, ar da mai multă greutate celor care au observat fantoma și ia-o la stanga.

Tehnica este deosebit de interesantă, deoarece multe sarcini complexe, care ar fi în mod normal prea dificil de preluat pentru sistemele de învățare automată, pot fi împărțite în mai multe sarcini individuale mai simple, cu implicații semnificative pentru cantitatea și tipul de muncă pe care IA le va putea înlocui în curând.

Citiți mai multe despre această poveste aici.

Mai multe despre subiecte: ai, Arhitectura de recompensă hibridă a lui Maluuba, microsoft, Dna Pac-Man, Consolidarea învățării