当前位置：首页 > IT资讯 > IT业界新闻

围棋算啥？吃豆游戏上微软AI也完爆人类

人气指数： 2017-06-16 10:48:00

微软研究人员创建了一个人工智能的系统，这个系统能够在20世纪80年代风靡全球的电子游戏吃豆人小姐(Ms. Pac-Man)中获得最高分，系统使用了分治策略来更大程度地影响AI代理，从而完美地通关游戏。

围棋算啥？吃豆游戏上微软AI也完爆人类

今年年初，微软收购了一家人工智能初创公司Maluuba。Maluuba公司团队运用强化学习技术(机器学习的分支)，在吃豆人小姐游戏Atari 2600版本中表现完美。使用这种方法，该团队在这个游戏中得到的分数高达999,990。

位于加拿大蒙特利尔的麦吉尔大学(McGill University)、从事计算机科学研究的Doina Precup副教授表示，AI研究人员的常常使用各种电子游戏来测试他们研发的系统，但研究人员发现吃豆人小姐游戏是最难攻克的。

但是，Precup表示，相比于研究人员所取得的成就而言，她对于研究人员获得成果的过程更加感兴趣。为了在吃豆人小姐游戏中获得更高的分数，Maluuba公司团队将操控吃豆人小姐游戏的大问题分解成若干个小问题，然后将小问题分发给AI代理解决。

Precup说：“这个分治策略的想法让Maluuba公司的研究人员使用不同的系统来实现同一个目标，这是一件非常有趣的事情”。

她还说到：“这个想法类似于一些大脑如何工作的理论，它可以更大程度地影响AI代理教学，从而利用有限的信息来完成更为复杂的任务。倘若能够完美利用分治策略，那人工智能将向前跨越一大步，这真的令人感到尤为兴奋。”

Maluuba团队将这种分治策略称之为混合式奖赏架构(Hybrid Reward Architecture)，这个方法使用了150多名人工智能代理，每个代理与其他代理相互独立地精通吃豆人小姐游戏。比如，一些代理成功找到一个豆子将获得的奖励，而另外一些代理由于幽灵的存在必须呆在原处。

然后，研究人员在吃豆人小姐游戏中创建了一个顶级代理，就像一家公司的高级经理一样，顶级代理能够获得所有代理的建议，综合分析后由顶级代理来决定吃豆人小姐该如何移动。

顶级代理会根据选择各个方向前进的代理数量的大小来决定移动方向，但同时也需要考虑到代理想要往某个方向移动的反应强度。

例如，如果100个代理想向右边移动，因为向右边走是他们的最佳路径，但有3个人想要向左边移动，因为右边有一个致命的幽灵，那这3个代理向左边移动的反应强度明显强于其他代理，考虑到幽灵的存在，顶级代理应该决定向左移动。

Maluuba公司的研究室经理Harman Van Seijen，对于他们的最新研究成果发表了一篇文章，文章中写到，当每位代理都果断地做出选择，顶级代理综合利用每个代理的信息后做出最佳选择，那么在吃豆人小姐游戏中就可以获得最好的结果。Harman Van Seijen说：“虽然每个代理只关心一个特定的问题，但是他们之间有很好的相互作用”。

围棋算啥？吃豆游戏上微软AI也完爆人类