年初,Google的阿尔法狗(AlphaGo)震惊了全世界,关于人工智能的讨论也来到了顶峰,“击败最优秀的人类棋手”,这个充满了传奇色彩的事件其实让很多人高估了人工智能的威力。在那之后,就有很多消息称,阿尔法狗接下来要挑战《星际争霸2》,人工智能战胜职业选手指日可待。
今年3月,很多中国媒体更是报道,在WCS中国站决赛上,暴雪娱乐制作总监Tim Morten亲自确认,AlphaGo确认将挑战《星际争霸2》。
这个新闻有两个疑点:第一,几乎没有国外媒体以“AlphaGo挑战《星际争霸2》”为标题进行报道;第二,AlphaGo的名字也显示了,这只是DeepMind为围棋项目(英文:Go)专门训练的人工智能项目,如果挑战星际,应该不会是这个名字。更准确的是当时《财富》的报道:DeepMind的CEO,Demis Hassabis表示,《星际争霸》是一个考虑中的有趣的挑战。
现在,DeepMind和星际的“绯闻”终于可以落实了。DeepMind的工程师Oriol Vinyals在公司博客宣布,暴雪将和DeepMind展开合作,让《星际争霸2》成为人工智能和机器学习的研究环境,并在明年第一季度将这个环境开放给所有的人工智能研究者。也就是说,即使是DeepMind的人工智能,也刚开始学习《星际争霸2》。
Oriol Vinyals少年时期曾是西班牙的顶级《星际争霸》玩家,他坦诚,“要打败人类职业选手,我们还有很长的路要走。”
和回合制的围棋不同,《星际争霸》是即时战略类游戏,游戏中,玩家需要从三个种族之中选择一个进行游戏,而每个种族都有不同的优缺点。针对不同的情况快速反应,同时有对战局的长期规划,这对人工智能程序来说是个非常艰巨的挑战。
在和李世石对弈时,AlphaGo借鉴了蒙特卡洛树搜索算法,评估下一步的可能最优解(可以排除一些对自己不那么有利的可能),以减少搜索深度。即便如此,拥有超强计算能力的AlphaGo落子前,还是需要很长的思考时间。
另外,和围棋不同,在《星际争霸》中,人工智能能获取的对手的信息是有限的(比如游戏中未探索地区的战争迷雾,其中的情况对手是看不到的)。
你可能想到了《星际争霸》中自带的AI,也就是电脑玩家。它的工作机制其实和现在的人工智能完全不同,因为游戏里的AI是直接从游戏代码中获取信息的,而且,它可以同时对所有单位下达指令,即使有些单位不在屏幕中。和人类玩家相比,它其实是在作弊。
DeepMind和暴雪的目标是训练出遵守规则,同时可以和人类玩家一较高下的AI系统。
所以,DeepMind将和暴雪合作改进游戏环境,新的游戏界面将《星际争霸2》的游戏画面简化成基本的视觉图形(如下图),以供机器学习系统更好地学习,当然,这也就意味着,人工智能系统是以视觉而不是直接读取游戏数据为基础进行决策的,这和人类玩家完全一样。
另外,暴雪还会提供游戏回放,以供人工智能系统学习。
暴雪和DeepMind都明白,让人工智能击败顶级的职业电竞玩家还非常遥远,不过就像AlphaGo在很多人都不看好的情况下完胜李世石,这一天很可能会比大家想象中的早来一些。当然,DeepMind的终极目标是解决现实生活中的问题,而相比围棋,《星际争霸2》是一个和现实世界更接近的环境。