微軟使用獨特的多智能體 AI 系統擊敗了吃豆人女士

閱讀時間圖標 2分鐘讀

日曆圖標發表於 2017 年 6 月 14 日

發表於 2017 年 6 月 14 日

讀者幫助支持 MSpoweruser。如果您透過我們的連結購買，我們可能會獲得佣金。

微軟開發的基於人工智能的系統在《吃豆人小姐》遊戲中獲得了最高分，999,990。該系統是由今年早些時候被微軟收購的加拿大深度學習初創公司 Maluuba 的一個團隊開發的。他們使用了一種分而治之的方法，這種方法可能對教授 AI 代理執行複雜的任務產生廣泛的影響。這是一項重大成就，因為人工智能研究人員一直發現吃豆人女士是最難破解的。 Maluuba 團隊將此系統中使用的技術稱為混合獎勵架構。在下面詳細閱讀它，

這種技術使用了 150 多個代理，每個代理都與其他代理並行工作以掌握吃豆人女士。例如，一些特工因成功找到一個特定的顆粒而獲得獎勵，而另一些特工的任務是遠離鬼魂。然後，研究人員創建了一個高級代理人——有點像公司的高級經理——聽取所有代理人的建議，並利用這些建議來決定把吃豆人女士搬到哪裡。

頂級特工考慮了有多少特工主張朝著某個方向前進，但它也考慮了他們想要採取這一行動的強度。例如，如果 100 名特工想向右走，因為那是通往他們顆粒的最佳路徑，但有 XNUMX 名特工想向左走，因為右邊有一個致命的鬼魂，這會給注意到鬼魂的人更多的權重，向左走。

該技術特別有趣，因為許多機器學習系統通常難以承擔的複雜任務可以分解為多個單獨的簡單任務，這對人工智能很快能夠取代的工作量和類型產生重大影響。

閱讀更多關於這個故事点击這裡.

有關主題的更多資訊： ai, Maluuba 的混合獎勵架構, 微軟, Pac-Man女士, 強化學習

普拉迪普·維斯瓦夫

軟體和服務專家

Pradeep 是電腦科學與工程專業的畢業生。他還是微軟的學生夥伴。他目前在一家領先的 IT 公司工作。