微软使用独特的多智能体人工智能系统击败了吃豆人女士

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

微软开发的基于人工智能的系统在《吃豆人小姐》游戏中获得了最高分,999,990。 该系统是由今年早些时候被微软收购的加拿大深度学习初创公司 Maluuba 的一个团队开发的。 他们使用了一种分而治之的方法,这种方法可能对教授 AI 代理执行复杂的任务产生广泛的影响。 这是一项重大成就,因为人工智能研究人员一直发现吃豆人女士是最难破解的。 Maluuba 团队将此系统中使用的技术称为混合奖励架构。 在下面详细阅读它,

这种技术使用了 150 多个代理,每个代理都与其他代理并行工作以掌握吃豆人女士。 例如,一些特工因成功找到一个特定的颗粒而获得奖励,而另一些特工的任务是远离鬼魂。 然后,研究人员创建了一个高级代理人——有点像公司的高级经理——听取所有代理人的建议,并利用这些建议来决定把吃豆人女士搬到哪里。

顶级特工考虑了有多少特工主张朝着某个方向前进,但它也考虑了他们想要采取这一行动的强度。 例如,如果 100 名特工想向右走,因为那是通往他们颗粒的最佳路径,但有 XNUMX 名特工想向左走,因为右边有一个致命的鬼魂,这会给注意到鬼魂的人更多的权重,向左走。

该技术特别有趣,因为许多机器学习系统通常难以承担的复杂任务可以分解为多个单独的简单任务,这对人工智能很快能够取代的工作量和类型产生重大影响。

阅读更多关于这个故事 此处.

有关主题的更多信息: ai, Maluuba 的混合奖励架构, 微软, Pac-Man的女士, 强化学习