Microsoft는 고유한 다중 에이전트 AI 시스템을 사용하여 Ms. Pac-Man을 이깁니다.

독서 시간 아이콘 2 분. 읽다


독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다. 툴팁 아이콘

공개 페이지를 읽고 MSPoweruser가 편집팀을 유지하는 데 어떻게 도움을 줄 수 있는지 알아보세요. 자세히 보기

마이크로소프트가 개발한 인공지능 기반 시스템이 미즈 팩맨 게임의 최고 점수인 999,990점을 달성했습니다. 이 시스템은 올해 초 마이크로소프트가 인수한 캐나다 딥러닝 스타트업 Maluuba 팀에서 개발했습니다. 그들은 AI 에이전트가 복잡한 작업을 수행하도록 가르치는 데 광범위한 의미를 가질 수 있는 분할 정복 방법을 사용했습니다. AI 연구원이 항상 Pac-Man을 가장 해독하기 어려운 것으로 밝혀왔기 때문에 이는 중요한 성과입니다. Maluuba 팀은 이 시스템에서 사용되는 기술을 하이브리드 보상 아키텍처라고 부릅니다. 아래에서 자세히 읽어보시고,

이 기술은 150명 이상의 에이전트를 사용하며, 각 에이전트는 다른 에이전트와 병행하여 Ms. Pac-Man을 마스터합니다. 예를 들어, 일부 요원은 하나의 특정 펠릿을 성공적으로 찾은 것에 대해 보상을 받았고, 다른 요원은 유령을 피하는 임무를 받았습니다. 그런 다음 연구원들은 회사의 고위 관리자와 같은 최고 요원을 만들어 모든 요원의 제안을 받아 팩맨 씨를 어디로 옮길지 결정하는 데 사용했습니다.

최고 에이전트는 몇 명의 에이전트가 특정 방향으로 나아가는 것을 지지하는지도 고려했지만, 그 방향으로 가고자 하는 강도도 고려했습니다. 예를 들어 100명의 요원이 자신의 펠릿으로 가는 가장 좋은 경로이기 때문에 오른쪽으로 가고 싶어하지만 오른쪽에 치명적인 유령이 있어서 XNUMX명이 왼쪽으로 가고 싶어한다면 유령을 눈치챈 사람들에게 더 많은 무게를 줄 것이고, 왼쪽으로 이동합니다.

이 기술은 특히 흥미롭습니다. 일반적으로 머신 러닝 시스템이 수행하기에는 너무 어려운 많은 복잡한 작업을 여러 개의 간단한 개별 작업으로 나눌 수 있고 AI가 곧 대체할 수 있는 작업의 양과 유형에 상당한 영향을 미칠 수 있기 때문입니다.

이 이야기에 대해 더 읽어보기 여기에서 지금 확인해 보세요..

주제에 대한 추가 정보: ai, Maluuba의 하이브리드 보상 아키텍처, 마이크로 소프트, 미스 팩맨, 강화 학습