Microsoft slår Ms. Pac-Man ved å bruke et unikt multiagent AI-system

Ikon for lesetid 2 min. lese

Kalenderikon Publisert på Juni 14, 2017

publisert på Juni 14, 2017

Lesere hjelper til med å støtte MSpoweruser. Vi kan få provisjon hvis du kjøper gjennom lenkene våre.

Et kunstig intelligensbasert system utviklet av Microsoft har oppnådd maksimalt mulig poengsum for Ms. Pac-Man-spillet, 999,990 XNUMX. Dette systemet ble utviklet av et team ved Maluuba, en kanadisk oppstart av dyp læring kjøpt opp av Microsoft tidligere i år. De brukte en del-og-hersk-metode som kunne ha brede implikasjoner for å lære AI-agenter å utføre komplekse oppgaver. Dette er en betydelig prestasjon siden AI-forskere alltid har funnet Pac-Man blant de vanskeligste å knekke. Maluuba-teamet kaller teknikken som brukes i dette systemet som Hybrid Reward Architecture. Les om det i detalj nedenfor,

Denne teknikken bruker mer enn 150 agenter, som hver jobbet parallelt med de andre agentene for å mestre Ms. Pac-Man. For eksempel ble noen agenter belønnet for å finne en bestemt pellet, mens andre fikk i oppgave å holde seg unna spøkelser. Deretter opprettet forskerne en toppagent – omtrent som en seniorleder i et selskap – som tok imot forslag fra alle agentene og brukte dem til å bestemme hvor hun skulle flytte Pac-Man.

Toppagenten tok hensyn til hvor mange agenter som tok til orde for å gå i en bestemt retning, men den så også på intensiteten de ønsket å gjøre det trekket med. For eksempel, hvis 100 agenter ønsket å gå til høyre fordi det var den beste veien til deres pellet, men tre ønsket å gå til venstre fordi det var et dødelig spøkelse til høyre, ville det gi mer vekt til de som hadde lagt merke til spøkelsen og gå til venstre.

Teknikken er spesielt interessant fordi mange komplekse oppgaver som normalt vil være for vanskelige for maskinlæringssystemer å ta på seg, kan brytes ned i flere individuelle enklere oppgaver, med betydelige implikasjoner for mengden og typen arbeid AI snart vil kunne fortrenge.

Les mer om denne historien her..

Mer om temaene: ai, Maluubas Hybrid Reward Architecture, microsoft, Fru Pac-Man, forsterkning læring

Pradeep Viswav

Ekspert på programvare og tjenester

Pradeep er utdannet informatikk og ingeniør. Han var også en Microsoft Student Partner. Han jobber for tiden i et ledende IT-selskap.