Microsoft verslaat mevrouw Pac-Man met uniek multi-agent AI-systeem

Pictogram voor leestijd 2 minuut. lezen

Kalender pictogram Uitgegeven op 14 June 2017

gepubliceerd op 14 June 2017

Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt.

Een op kunstmatige intelligentie gebaseerd systeem, ontwikkeld door Microsoft, heeft de maximaal mogelijke score behaald voor de Ms. Pac-Man-game, 999,990. Dit systeem is ontwikkeld door een team van Maluuba, een Canadese deep learning-startup die eerder dit jaar door Microsoft werd overgenomen. Ze gebruikten een verdeel-en-heers-methode die brede implicaties zou kunnen hebben voor het leren van AI-agenten om complexe taken uit te voeren. Dit is een belangrijke prestatie, aangezien AI-onderzoekers mevrouw Pac-Man altijd een van de moeilijkst te kraken hebben gevonden. Het Maluuba-team noemt de techniek die in dit systeem wordt gebruikt Hybrid Reward Architecture. Lees er hieronder uitgebreid over,

Deze techniek maakt gebruik van meer dan 150 agenten, die elk parallel met de andere agenten werkten om mevrouw Pac-Man onder de knie te krijgen. Sommige agenten werden bijvoorbeeld beloond voor het succesvol vinden van een specifieke pellet, terwijl anderen de taak hadden om uit de buurt van spoken te blijven. Vervolgens creëerden de onderzoekers een topagent - een soort senior manager bij een bedrijf - die suggesties van alle agenten aannam en deze gebruikte om te beslissen waar mevrouw Pac-Man heen moest.

De topagent hield rekening met hoeveel agenten pleitten om een bepaalde richting op te gaan, maar hij keek ook naar de intensiteit waarmee ze die stap wilden zetten. Als 100 agenten bijvoorbeeld naar rechts wilden omdat dat de beste weg naar hun kogel was, maar drie naar links wilden omdat er een dodelijke geest aan de rechterkant was, zou dat meer gewicht geven aan degenen die de geest hadden opgemerkt en ga links.

De techniek is vooral interessant omdat veel complexe taken die normaal gesproken te moeilijk zouden zijn voor machine learning-systemen, kunnen worden opgesplitst in meerdere individuele, eenvoudigere taken, met aanzienlijke implicaties voor de hoeveelheid en het soort werk dat AI binnenkort zal kunnen verdringen.

Lees meer over dit verhaal hier.

Meer over de onderwerpen: ai, Maluuba's hybride beloningsarchitectuur, microsoft, Mevrouw Pac-Man, versterking van leren

Pradeep Viswav

Software- en service-expert

Pradeep is afgestudeerd in computerwetenschappen en techniek. Hij was ook een Microsoft Student Partner. Momenteel werkt hij bij een toonaangevend IT-bedrijf.