マイクロソフトは、独自のマルチエージェントAIシステムを使用してミズパックマンを打ち負かしました

読書時間アイコン 2分。 読んだ


読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。 ツールチップアイコン

MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む

マイクロソフトが開発した人工知能ベースのシステムは、ミズパックマンゲームの最高スコアである999,990を達成しました。 このシステムは、今年初めにマイクロソフトが買収したカナダのディープラーニングスタートアップであるマルバのチームによって開発されました。 彼らは分割統治法を使用しましたが、これはAIエージェントに複雑なタスクを実行するように教えるための幅広い意味を持つ可能性があります。 AIの研究者は、ミズ・パックマンを最もクラックしにくいもののXNUMXつとして常に見つけてきたため、これは重要な成果です。 Maluubaチームは、このシステムで使用されている手法をハイブリッド報酬アーキテクチャと呼んでいます。 以下で詳細をお読みください。

この手法では、150を超えるエージェントを使用します。各エージェントは、他のエージェントと並行して機能し、ミズパックマンをマスターします。 たとえば、特定のペレットをXNUMXつ見つけることに成功したことで報酬を得るエージェントもいれば、幽霊の邪魔にならないようにする任務を負ったエージェントもいます。 次に、研究者は、会社の上級管理職のようなトップエージェントを作成しました。トップエージェントは、すべてのエージェントから提案を受け取り、それらを使用してミズパックマンをどこに移動するかを決定しました。

トップエージェントは、特定の方向に進むことを提唱したエージェントの数を考慮に入れましたが、その動きをしたい強さも考慮しました。 たとえば、100人のエージェントがペレットへの最適なパスであるために右に行きたいが、XNUMX人は右側に致命的な幽霊がいたために左に行きたい場合、幽霊に気付いた人に重みを与え、左に行きます。

この手法は特に興味深いものです。通常、機械学習システムでは実行するのが難しすぎる多くの複雑なタスクを、複数の個別の単純なタスクに分割でき、AIがすぐに置き換えることができる作業の量と種類に大きな影響を与えるからです。

この物語についてもっと読む こちら.

トピックの詳細: ai, Maluubaのハイブリッド報酬アーキテクチャ, マイクロソフト, ミズ・パックマン, 強化学習