产业资讯方案大厅机构大厅

围棋程序 · AlphaGo Zero

深度学习DeepMind
https://deepmind.com/blog/alphago-zero-learning-scratch/

产品描述

该围棋智能利用深度强化学习,无须历史棋局进行训练,打败了 AlphaGo。AlphaGo Zero 最大的突破是实现了白板理论。与婴儿的学习模式类似,它可以通过不断训练、成长获得知识和智力。这意味着,AlphaGo Zero 的学习模式也可以被应用解决其他现实问题。

AlphaGo Zero 有两个核心技术,一个是拟合搜索,一个是深度残差简易神经网络。用了一个深度最深可以达到 80 的一个深度残差卷积神经网络,以前深度学习网络大概十层、二十层到头了,但是用残差网络就很好地解决了深度学习深度网络训练的问题,该网络由 Google 的 TPU 完成训练。 - 在将该技术拓展到通用智能时仍存在困难,因为围棋有着一定的特殊性,因为在围棋规则内所有信号全部是可以观测的,但像打麻将或者博弈这样的游戏,对手是不能观测的。最重要的一点是,通过一个模拟器,围棋可以通过计算机的方式很快下完。这个模拟过程非常短,可能两三百步就做完了,非常高效。模拟结束后,中间所有的结构可以输出来,赢和输的信号很快就可以确定,所以这是一个非常强的假设。

客户

简介:DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

所用技术

研发机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。