AlphaStar
北京时间2019年01.24凌晨2:00,DeepMind的伦敦总部,《星际争霸2》游戏人工智能AlphaStar首秀。DeepMind是全球人工智能领军,AlphaGo和AlphaZero的创造者,这里就不多介绍了。星际2作为一款当今世界最复杂的即时战略游戏,含经济运营,兵伐诡道,战争迷雾以及瞬息万变的策略,自2016年起,就被DP当做一个攻克目标。相比之下,围棋棋盘是固定的,双方是摊开了局面战斗;而星际2类似于真实战争,作战双方不知道对方的经济详细情况和所有战略战术—-一句话,战场无法预测,没有套路!
星际2解说 Artosis 与 Rotterda全程解说。首先问了暴雪的游戏总监Tim Morten:“为什么那么热切和DeepMind合作?”
答:“星际2是当今水平最高竞技游戏,也是人工智能研究的里程碑。”
“暴雪作为合作伙伴意味着什么?”
答:“我们团队非常困难地开发了一款特殊版本的星际2,作为工具公开发布,同时也和SP紧密合作。这个特殊版本和普通版不同,但是规则相同,适合SP研究。最大的不同就是,我们在游戏研究中必须大量预先设置比如live surfing,所以我们今天将观看的都是比赛回放录播,你知道,实时比赛必须从选手视角直播。”
Artosis接着问了DP的研究合作领导Oriol Vinyals:“为什么选择星际作为AI研究目标?”
答:“DP的研究任务就是人工智能,所以找一个检验标准很重要,在开展任务之前,用来检验算法和Agent。这是我们研究的第一个电脑游戏,就像围棋那样 。但星际和其它游戏相比它最突出的挑战就是,很明显下一步对我们的AI Agent来说,挑战的等级很高,我在这个图里高光标注了。”
首先是“信息类型”不完美,意思是Agent不知道也无法预测人类选手现在在做什么。不像围棋,如果你不是大师,将容易输掉比赛。正如我展示的,这对我们是个很大的挑战。”
Oriol接着说了过去两年DP做了什么样的研究。他们并不是第一个意识到星际是AI中一个重要研究领域的团队,下面图中可以看到过去15年AI发展历程。2003年即时战略游戏RTS就被视作AI研究方向,2009年就有开源机构研究第一版星际Blood War。过去八年取得不少进展,许多团队开发了Bot和Agent玩游戏,并且玩得不错。他也亲自参与了早期的游戏竞赛AIIDE,甚至被要求作为职业玩家和其他Bot对抗,还因此发现了bug。
PS:2015年已有关于星际Bot的论文 StarCraft Bots and Competitions。
https://www.researchgate.net/publication/304919439_StarCraft_Bots_and_Competitions
AlphaStar早期就公开资源和工具,每个人都能参与。整个团队做了巨大的努力,才开发了能全程完整玩星际的第一个版本。
接下来Rotterda对Oriol的访问,就是今天比赛录像的相关科普了。
比赛都是2018年12月进行的,只有一张1v1地图上:Catalyst LE。神族VS神族。赛制五局三胜。
接着第一个人类玩家Dario Wünsch(TLO )出场,来自暴雪推荐给DP做合作的职业战队Liquid。他是个德国职业虫族玩家。
TLO说了下他和DP合作的起因,并和Oriol讨论过如何让比赛公平。Rotterda也问了我们观众要问的:“作为虫族玩家,比赛中用神族什么感觉?”
答:“我做了大量的赛前准备,玩了100多场神族,不算专业级别,但在星际天梯赛里也算Top 1%水平了。”
今天将播放TLO和AlphaStar之间五场比赛中的两场,人类捍卫尊严的比赛回放正式开始!
TLO vs AlphaStar
第一场
作为星际爱好者,我看不出AI开局和人类玩家有什么不同:造水晶,建筑,probe探路,侦查敌情,前期小骚扰。前五分钟,双方资源人口以及兵力相差不大,AI略为优势。
第五分钟开始,AI开始追猎正面压制TLO的第二基地,双方互秀了一波微操作。但AI的造兵能力这时开始显现,第六分钟兵力已是TLO近乎三倍(28:10)。AI持续优势兵力压制,TLO开始拉上probe抵抗,开局7:06时,TLO打出了gg。
解说员惊诧了,请出DP的研究合作领导David Silver,他说DP是经过几个月研究后才第一次打败人类职业选手。TLO吐槽自己都不知怎么回事,但作为神族的确犯了一些错误。但即使第一场失败,他当时还是非常自信能赢下一场。
APM
解说员 Artosis开始询问APM(Action Per Minute),玩家操作手速–这也是观众的的疑问,万一比赛规则不对等怎么办,毕竟电脑的APM可以每秒无上限啊。David 解释,他们做了公平性处理,让AI模拟人类玩家手速。从下图可以看出,AI的APM中数平均值是低于人类选手的。况且星际并不是靠手速获胜的,而是靠策略。
有的观众抓图说AI的APM有时远超人类,比如下图。
但我仔细看了回放,战斗时双方APM几乎是持平的,而且人类也会高于AI,这一块是相对公平的。
AI游戏视角(战争迷雾)
David 接着解释AI是以什么样的视角来玩游戏的,并不是我们想的地图全开的模式。类似于上帝视角模式,AI会鸟瞰整个地图,但它的所有视觉只限于它的移动单位所能看到的当前视野的合集,其它地区还是被战争迷雾所覆盖。
人类玩家在操作单位并展现其可视区域时,会做其它的区域点击操作,比如资源掌控,兵力生产时会移动玩家的可视区域。DP分析了这些,模拟了人类这些视觉切换操作,最终设置了AI现有的APM。
Oriol说AI不关心当下发生了什么,不像人类有输赢的概念以及心情变化,所以五场比赛对AI来说都是独立的。TLO接着说了他第二场比赛失利的过程,他采取的防御式打法未能奏效。
第三场
这局TLO坚持到了中前期间,比赛中AI用裂光球神乎其神,几乎弹无虚发,非常有效地大量杀伤了TLO的部队。双方在路口拉锯式作战,AI的操作非常强,稍有劣势就后撤,稍有优势就压制,经常有神操作出现。TLO也采取了空投骚扰,小股部队潜入等战术,对战局未产生影响。AI的总人口,资源,兵力,始终都是压制TLO的,14分钟是,AI的兵力几乎是TLO的两倍,胜利天平很明显倾向AI。两分钟后TLO打出gg。
AlphaStar League
DP是如何训练AI的,David 做了解释。DP称此训练过程为AlphaStar联赛,第一步,学习数据来自人类在星际联赛里的比赛数据。用神经网络学习这些数据,然后每一个子状况,新的Agent会fork它,包括之前的Agent,加入到AlphaStar联赛内。
联赛之间的Agent再互相PK,学习。
这样神经网络就会持续升级。
神经网络升级到最终选出某个阶段,某个策略可以打败其它所有策略。
神经网络 继续升级。
过程中加上额外配置Personal Learning Ojbect 个人学习模块,比如某些特殊的操作,生产某些特殊兵种,最终学习得出最优策略。
最后产生五个Agent用于比赛,TLO等于是在和五个不同的顶级选手在打比赛。
AlphaStar学习了大量人类选手各类奇特打法,比如农民快攻,炮台快攻。每场比赛的Agent都是预先设置好的,不会随着比赛动态适应并变化。相当于一个人在一场比赛中用固定战术在和TLO打。AlphaStar总共花了七天学习人类联赛,第一阶段学了三天,学习的是联赛白金选手的比赛。这七天的学习数据量,相当于人类学习200年!
MaNa vs AlphaStar
Oriol分享了DP开发团队的对此站胜利喜悦,他表示团队在短暂庆祝之后将再接再厉。接着顶级玩家MaNa上场,波兰人,真正的神族玩家。
但作为神族选手,他好像也没有占什么优势,先输了两局(没有播出)。DP团队做了个视觉流程图来解释神经网络激活原理,对原理感兴趣的最好去看这一段原视频解说或者DP科普文。
https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/
第三局
前期MaNa发展正常,但硬抗AI的兵力压制非常辛苦,双方实力差不多持平。但五分钟后AI的空军出现后,占局就逐渐向AI有利的方向发展了,人类几乎之后被按着在地上摩擦,8:02 MaNa打出gg。
第四局
MaNa这局表现得很强势,但是短兵相接时,AI对追猎的微操作太强了,红血的追猎被不停地瞬移到阵型后方,人类很难对AI的部队造成战斗减员。导致AI兵力越来越多,人类兵力越打越少,12:48,人类gg。
不出所料,MaNa也输了之后的最后一局。
至此人类10:0全军覆没。
看到这我有点纠结,从人类玩家角度,非常沮丧,我还不愿相信AI能在星际这种策略无穷的游戏中获胜;但做为程序员,我又很高兴看到AI技术发展的这一个巨大的里程碑。
这时直播中间插播了一段DP开发团队的采访记录,以及日常开发视频,很有热血感染力。
人类挽回一点颜面
直播最后,加赛一场,DP更改了AI的之前的上帝视角模式,改成游戏玩家视角模式。就是说AI模拟Agent“看到”的视觉范围和人类类似,只是面前这个屏幕大小而已。还特别强调了这个技术还未成熟,处于测试阶段(可能意思是就算输了,人类也别高兴)。
MaNa终于在这局为人类挽回了一点颜面,通过大量偷袭一步步占据优势,最终大获全胜。但比赛中明显看出AI在调兵遣将上出现了很大的失误,很可能因为这是测试版?
我和同是星际爱好者的码农朋友讨论了下。
AI的APM设置可以说公平。
AI上帝视角对于顶级玩家来说也不算太大优势,因为他们非常关注左下角鸟瞰地图[下图]和游戏中的声音预警。但也有朋友认为最后一场的AI游戏玩家视角,才算真正公平,因为来回切换视角很费时。
这十盘比赛前期ai都是靠微操作碾压人类,人类由于生理极限不能长期维持亢奋状态,无法撑到发挥人类战略大局观的优势的中后期。
比赛二位选手都是欧洲玩家,与亚洲玩家比,欧洲玩家大多胜在资源掌控和大局观,欧亚对抗赛中欧洲玩家经常后期翻盘。如果换成亚洲玩家,可能第3点上前期AI不占优势。
比赛五局中,人类每局都相当于在和不同的Agent打,这也算公平,毕竟职业玩家都有私藏多种杀手锏,相当于一个人用了五种打法。
赛后
DeepMind创始人,AlphaGo之父Demis Hassabis在推特上发文,满是掩饰不住的骄傲:这是游戏人工智能的一个里程碑,第一个干掉人类顶级选手的系统,这展示了我们的牛逼,我们也测试了新的产品原型:游戏玩家视角接口。谢谢选手MaNa,我们将继续努力。星际是个非常复杂的游戏,我很激动,因为AlphaStar背后的技术可以应用于很多场景,比如天气预报以及天气模型等…….相关论文将很快发布
期待
WCS星际争霸2全球总冠军芬兰选手Serral将于2月15日,为了人类尊严与AlphaStar决战。谁胜谁负,我们拭目以待。
所有比赛录像可以下载:https://deepmind.com/research/alphastar-resources/
关于AlphaStar的研究资料:https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/