DeepMind登上Science:“和AI相比,人类都是猪队友”,团战称霸雷神之锤3

news/2024/11/8 16:57:36/
栗子 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

640?wx_fmt=jpeg

AI组队,比人类战队的成绩好。

AI与人类组队,还是远超人类。

DeepMind为了训练强化学习AI的团队协作能力,选择了雷神之锤3竞技场的夺旗游戏。

从去年到今年,AI不断进化:

如今,把反应速度降到和人类水平把标记准确率也降下来,胜率依然超过人类。

 640?wx_fmt=gif

而AI学习的资源,也只有第一视角看到的游戏场景,以及比分,没有比人类获得更多信息。

当AI赢了柯洁,我们说AI不会合作;当AI赢了刀塔2世界冠军,我们说是冠军太鱼反应速度不公平。

但现在,我们只能看着DeepMind登上最新一期的Science

然后,观察一下这些既懂得相互协作、又懂得和人类协作的AI,是怎样修炼出来的:

严酷的训练场

夺旗游戏 (Capture the Flag) 是这样的:

两队各有自己的大本营,目标是把己方的旗守在大本营,并拔掉对方的旗。

640?wx_fmt=gif

如果我是蓝方,看见敌人扛着蓝旗跑,就要用激光标记它

这样,蓝旗会失而复得,敌人也会被送回它的老家。

五分钟内,哪一队拔掉对方更多的旗,这一队就赢了。

原本,雷神之锤3竞技场里只有5张地图;团队竞技场,也只有几十张地图。

为了让AI受到更加严格的训练,DeepMind随机生成了许多游戏里原本没有的地图

640?wx_fmt=gif

就在这样的竞技场里,DeepMind同时训练了30只智能体,主要原理是LSTM。

这30只AI选手,一共打完了45万场游戏

在这个过程中,还要不时淘汰掉表现不佳的AI,用顶尖AI选手的变异版本 (Mutations) 代替。这是进化算法的思路。

最终,选出最优秀的一只AI,取名For the Win (FTW) 。

除了碾压人类,还会利用游戏bug

然后,就该测试FTW的实力了。

首先,是人机混战:DeepMind找来40个人类,与AI随机组队。

结果,AI选手的个人胜率远超人类:

640?wx_fmt=png

研究人员发现,AI不但能同人类/AI协作,还形成了经典的团战策略

比如,跟在队友身后,这样一旦与敌人交火,便能在人数上超过对手。

还有,在敌人大本营附近游荡,当队友拿到旗子的时候可以迅速接手往回跑。

除了这些人类常用套路之外,AI还发明了全新策略:

利用游戏里的一个bug,从背后向队友射击,能加快队友的速度。

除了看到现象,团队还想知道,AI为什么会修炼出这许多技能。

于是,研究了AI的行为模式,观察它们是如何理解比赛:

640?wx_fmt=png

各种颜色的点点,分别代表:旗在阵地,队友扛走了敌方大旗,自己处在敌方阵地等等。

不同战况之下,AI的反应明显不同。安全和危险,分得清清楚楚。

调至同一起跑线

虽然,AI在初次混战中碾压人类,但DeepMind团队十分理智地以为

AI之所以超过人类,主要优势一是反应速度快,二是射得准 (感觉哪里不对) 。

640?wx_fmt=gif

所以,团队手动把反应速度调慢到人类水平267毫秒左右,把80%的射击准确度降低到和人类相当的48%左右

然后重启比赛,这次是真正的人机对战

人类战队分为普通人类 (Average Human) 和强大人类 (Strong Human) 。

640?wx_fmt=gif

结果,强大人类组成的战队,对战AI的胜率也仅有21%。

对人类来说,唯一值得庆幸的是:

当有AI加入人类战队,与纯AI战队互打的时候,人类战队的胜率终于超过了AI战队。

臆测一下,这个大概是说:人类是猪队友,吧?

Science论文传送门:
https://science.sciencemag.org/content/364/6443/859

Science报道传送门:
https://www.sciencemag.org/news/2019/05/artificial-intelligence-learns-teamwork-deadly-game-capture-flag

OpenAI博客传送门,内容刚刚更新:
https://deepmind.com/blog/capture-the-flag-science/


小程序|全类别AI学习教程

640?wx_fmt=jpeg

AI社群|与优秀的人交流

640?wx_fmt=jpeg

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !


http://www.ppmy.cn/news/141640.html

相关文章

计算机与数学 —— 雷神之锤3源码中的快速逆平方根算法

这篇博客介绍了在雷神之锤3源代码中快速求逆平方根的算法。 源码 雷神之锤3中的逆平方根算法如下: float Q_rsqrt( float number ) { long i; float x2, y; const float threehalfs 1.5F ;x2 number * 0.5F ; y number ; i * ( long * ) &y; // evil flo…

高端手机市场的诸神之战,vivo举起一把“雷神之锤”

《复仇者联盟》大家可能都看过,其中以北欧神话的雷神托尔为原型的超级英雄,挥舞着“雷神之锤”(Hammer Mjlnir),被世人推崇备至。能举起雷神之锤的人类英雄,也被认为是强大、正义、具有神性的象征。 想起这…

linux运行雷神之锤,Ubuntu18.04下可以完美运行Quake3..

其实很早就知道Linux下面可以跑Quake3, 但是一直没有付诸行动, 在硬盘上躺了很多年的Quake III Arena, 和Brood一起从来不舍得删, 昨天终于想起来试试. 安装很简单, 但是一开始把原游戏目录路径写错(中间有空格)导致安装费了点周折. 命令历史如下 apt-cache search quake3 sudo…

雷神之锤隐藏技能—穿云箭

今天为大家介绍奎特尔的神兵uikiller中的一个隐藏技能:穿云箭 在雷锤作用下的节点事件:_onNodeNameToucStart返回false后,可以将触摸事件向下层节点继续分发。同时再配合Mask的遮罩能力可用于实现应用的引导功能,请看下面演示。 如…

关于平方根倒数速算法(雷神之锤3,牛B)

Quake-III Arena (雷神之锤3)是90年代的经典游戏之一。该系列的游戏不但画面和内容不错,而且即使计算机配置低,也能极其流畅地运行。这要归功于它3D引擎的开发者约翰-卡马克(John Carmack)。事实上早在90年代初DOS时代&#xff0c…

雷神之锤 - 神一般存在的Sqrt函数

转载: http://www.cnblogs.com/pkuoliver/archive/2010/10/06/1844725.html 我们平时经常会有一些数据运算的操作,需要调用sqrt,exp,abs等函数,那么时候你有没有想过:这个些函数系统是如何实现的&#xf…

奎特尔星球|雷神之锤(上)

奎特尔星球上有一件绝世神兵,就像是一把雷神之锤,在它的号令之下指挥着节点、组件和触摸事件,从而大量减少冗余代码与编辑器上的设置,他就是uikiller。uikiller指挥着英雄与魔灵杀敌无数,他的前身曾经在cocos2d-js星球…

Science最新:DeepMind部署自学AI,攻陷FPS“雷神之锤”

大数据文摘编辑部出品 用AI攻占了国际象棋和围棋高地之后,DeepMind在第一人称射击游戏(FPS)上也有了新进展。 1997年5月“深蓝”击败国际象棋世界冠军卡斯巴罗夫,有玩家在庆幸,我不下象棋,只下围棋。 2017年…