AlphaGo Zero横空出世完全自学21天虐Master

2017-10-19 15:30 前瞻网

T大

据Verge等外媒报道，专注于推进人工智能（AI）研究的谷歌子公司DeepMind今天发布了一款新版本的AlphaGo程序，它能通过自学玩转多种游戏。这套系统名为“AlphaGo Zero”，它通过一种名为“强化学习”的机器学习技术，可以在与自己的对决游戏中吸取教训。

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

在击败韩国棋神李世石，并且今年5月击败“世界围棋第一人”柯洁后，AlphaGo迎来了一次新生。昨天，DeepMind 在《自然》杂志上发表了一篇论文，正式介绍了这个人工智能围棋程序及其演化：

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

- AlphaGo Zero从零开始自我学习下围棋。

- 仅仅36小时后，AlphaGo Zero靠着自我学习，就摸索出所有基本且重要的围棋知识，达到了与李世石九段对战的AlphaGo v18的相同水平。

- 30天后，不断进步的AlphaGo Zero达到了Master的水平。Master即年初在网上达成60连胜的AlphaGo版本。

- 40天后，AlphaGo Zero对战Master达到近90%胜率，成为有史以来AlphaGo的最强版本。

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

之前的AlphaGo版本首先基于数千场人类围棋比赛来训练如何学习围棋。但AlphaGo Zero跳过了这一步，从自己完全随机的下围棋开始来学习围棋。通过这种“无师自通”的方式，它快速超越了人类棋手的水平，并且以100:0 的比分打败了之前战胜世界冠军的AlphaGo，堪称“最强棋手”。

硬件和算法上的变化才是系统更加强大和高效的重要原因。AlphaGo Zero的运作非常高效，它只需要一台机器和4个TPU。在训练过程中，AlphaGo Zero每下一步需要思考的时间是0.4秒。

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

由于是自我对弈学习下棋，并且是在世界上最强大的棋手——AlphaGo本身学起，AlphaGo Zero很快超过了人类水平，并且走出了很多新的步法。利用“强化学习”的新模式，从一个对围棋一无所知的神经网络开始，将该神经网络和一个强力搜索算法结合，自我对弈。在对弈过程中，神经网络不断调整、升级，预测每一步落子和最终的胜利者。

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

等级分排名（在围棋等竞争性比赛中对选手的相关技巧的水平的度量）：显示AlphaGo 如何在发展过程中逐渐变得强大。

AlphaGo的首席研究员大卫·席尔瓦(David Silver)表示，“由于未引入人类棋手的数据，AlphaGo Zero远比过去的版本强大，我们去除了人类知识的限制，它能够自己创造知识。

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

DeepMind联合创始人宣布了AlphaGo Zero面世的消息，并称公司“要解决的是智能上的问题”

与此前的AlphaGo一大不同之处在于，AlphaGo Zero仅用了单一的神经网络。在此前的版本中，AlphaGo 用到了“策略网络”来选择下一步棋的走法，以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中，这两个神经网络合二为一，依靠的是其高质量的神经网络来评估下棋的局势，从而让它能得到更高效的训练和评估。

DeepMind新一代围棋程序AlphaGo Zero面世无师自学40分钟就可打败柯杰

AlphaGo Zero中的自我对抗强化学习

这一进展标志着通用型AI发展的大一里程碑。大多数AI被认为“用途有限”，因为它们只能执行单一任务，例如，翻译、识别面孔。但通用型AI在许多不同任务上拥有超越人类的潜能。像AlphaGo Zero就正在研究蛋白质如何折叠的问题，这是一个艰难的科学挑战，不过有望成为药物发明的一大突破。类似的其他结构性问题如减少能耗和寻找新材料也有望利用通用型AI来完成。

责任编辑人：张慕琪 PS049

打开APP阅读全文

热点新闻

精彩推荐

吸毒、出轨、离婚，被捕……贵圈最乱的一天请查收这份吃瓜笔记

卫星照曝光！俄军机被击落时以色列正空袭叙利亚
评论

AlphaGo Zero横空出世 完全自学21天虐Master

AlphaGo Zero横空出世完全自学21天虐Master