AlphaGo Zero横空出世 完全自学21天虐Master

2017-10-19 15:30 前瞻网
  • T大

据Verge等外媒报道,专注于推进人工智能(AI)研究的谷歌子公司DeepMind今天发布了一款新版本的AlphaGo程序,它能通过自学玩转多种游戏。这套系统名为“AlphaGo Zero”,它通过一种名为“强化学习”的机器学习技术,可以在与自己的对决游戏中吸取教训。

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

在击败韩国棋神李世石,并且今年5月击败“世界围棋第一人”柯洁后,AlphaGo迎来了一次新生。昨天,DeepMind 在《自然》杂志上发表了一篇论文,正式介绍了这个人工智能围棋程序及其演化:

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

- AlphaGo Zero从零开始自我学习下围棋。

- 仅仅36小时后,AlphaGo Zero靠着自我学习,就摸索出所有基本且重要的围棋知识,达到了与李世石九段对战的AlphaGo v18的相同水平。

- 30天后,不断进步的AlphaGo Zero达到了Master的水平。Master即年初在网上达成60连胜的AlphaGo版本。

- 40天后,AlphaGo Zero对战Master达到近90%胜率,成为有史以来AlphaGo的最强版本。

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

之前的AlphaGo版本首先基于数千场人类围棋比赛来训练如何学习围棋。但AlphaGo Zero跳过了这一步,从自己完全随机的下围棋开始来学习围棋。通过这种“无师自通”的方式,它快速超越了人类棋手的水平,并且以100:0 的比分打败了之前战胜世界冠军的AlphaGo,堪称“最强棋手”。

硬件和算法上的变化才是系统更加强大和高效的重要原因。AlphaGo Zero的运作非常高效,它只需要一台机器和4个TPU。在训练过程中,AlphaGo Zero每下一步需要思考的时间是0.4秒。

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

由于是自我对弈学习下棋,并且是在世界上最强大的棋手——AlphaGo本身学起,AlphaGo Zero很快超过了人类水平,并且走出了很多新的步法。利用“强化学习”的新模式,从一个对围棋一无所知的神经网络开始,将该神经网络和一个强力搜索算法结合,自我对弈。在对弈过程中,神经网络不断调整、升级,预测每一步落子和最终的胜利者。

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

等级分排名(在围棋等竞争性比赛中对选手的相关技巧的水平的度量):显示AlphaGo 如何在发展过程中逐渐变得强大。

AlphaGo的首席研究员大卫·席尔瓦(David Silver)表示,“由于未引入人类棋手的数据,AlphaGo Zero远比过去的版本强大,我们去除了人类知识的限制,它能够自己创造知识。

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

DeepMind联合创始人宣布了AlphaGo Zero面世的消息,并称公司“要解决的是智能上的问题”

与此前的AlphaGo一大不同之处在于,AlphaGo Zero仅用了单一的神经网络。在此前的版本中,AlphaGo 用到了“策略网络”来选择下一步棋的走法,以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中,这两个神经网络合二为一,依靠的是其高质量的神经网络来评估下棋的局势,从而让它能得到更高效的训练和评估。

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

AlphaGo Zero中的自我对抗强化学习

这一进展标志着通用型AI发展的大一里程碑。大多数AI被认为“用途有限”,因为它们只能执行单一任务,例如,翻译、识别面孔。但通用型AI在许多不同任务上拥有超越人类的潜能。像AlphaGo Zero就正在研究蛋白质如何折叠的问题,这是一个艰难的科学挑战,不过有望成为药物发明的一大突破。类似的其他结构性问题如减少能耗和寻找新材料也有望利用通用型AI来完成。

责任编辑人:张慕琪 PS049
热点新闻
精彩推荐
释放进入手凤首页

手机凤凰网 i.ifeng.com