AlphaStar横空出世 星际争霸2人类1:10输给AI
|
在 2018 年 1 月的 EmTech 大会上,谷歌 DeepMind 科学家 Oriol Vinyals 曾对 DT 君表示,第一版的 AlphaGo 击败了樊麾,后来下一个版本在韩国和李世石进行了对弈并取得了胜利。再后来进一步地训练网络,整个网络比之前强了三倍,赢了柯洁和其他专业棋手。团队是从零开始,一点点积累积数据训练,最后战胜了专业棋手。而除了棋类游戏以外,DeepMind 比较感兴趣的,就是游戏星际争霸 2。 继围棋之后,DeepMind 为什么要选择星际争霸 2 这款游戏为下一个目标呢? 星际争霸 2 是由美国著名游戏公司暴雪娱乐(Blizzard Entertainment)推出的一款以星际战争为题材的即时战略游戏。星际争霸 2 具备策略性、竞争性的特性,在全球都非常火爆,并且每年都会举办大量的比赛,因此也有着海量的玩家基础。
据 Oriol Vinyals 当时透露,星际争霸 2 是非常有趣和复杂的游戏,这个游戏基本上是建造一些建筑物以及单位,在同一个地图里不同的组织会相互竞争。在这个游戏中,哪怕只是建造建筑物,也需要做出许多决策。除此之外,还要不断收集和利用资源、建造不同的建筑物、不断扩张,因此整个游戏非常具有挑战性。 而且,和围棋任务最大的不同在于,围棋可以看到整个棋盘,但是在星际争霸 2 中我们通常无法看到整个地图,需要派小兵出去侦查。另外,游戏是不间断进行的。整个游戏甚至会有超过 5000 步的操作。对于增强学习这种方法来说,除了上下左右这些普通的移动,用鼠标点击界面控制不同物体的移动以及不同的行为也是非常难的。 星际争霸 2 的这些特质,恰恰是人工智能在创新之路上需要挑战的——面对许多难以预测的突发情况,人工智能必须要既作出正确的对策,还要根据实际情况细微的调整对策。
星际争霸 2 作为"即时战略"游戏,其"即时"和"战略"的特性无疑是锻炼 AI 的最佳途径之一。就拿"即时"来说,或许对于人类,星际 2 的那 300 多个基础操作的"操作空间"(Action Space)并不庞大。但是对于机器,星际 2 的分级操作,外加"升科技"所带来指令的变化,再加上地图的体积,其操作空间是无穷大的。比如"农民建房子"这个简单的行动就有 6 个不同的步骤:点击滑动鼠标选择单位,B 选择建造,S 选择供给站,滑动鼠标选择位置,点击建造。仅在一个 84x84 的屏幕上,机器的操作空间有大约 1 亿个可能的操作。 AlphaGo Zero 创造者:"这个比围棋难多了" 在 DeepMind 与暴雪长期以来的合作中,有几个重要节点: (编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

图丨谷歌 DeepMind 科学家 Oriol Vinyals(来源:DeepTech)
(来源:DeepMind)