那个打败柯洁、李世石的阿尔法狗背后的男人,获得2019 ACM计算奖

美国计算机学会(ACM)近日宣布,将 2019 年 ACM 计算奖授予 AlphaGo 研发团队领导者 David Silver,以表彰他为计算机游戏表现带来的突破性进展。

与“计算机界的诺贝尔奖”图灵奖不同,ACM 计算奖(ACM Prize in Computing)每年授予在计算机领域里有突出贡献的年轻学者。

Silver 目前任伦敦大学学院(UCL)教授、谷歌旗下人工智能公司 DeepMind 首席科学家。作为深度强化学习领域的领军人物,Silver 最主要的成就就是领导了 AlphaGo 研发团队,在围棋比赛中击败了世界冠军柯洁和李世石。

Silver 巧妙地将深度学习强化学习、传统树搜索算法和大规模计算的思想结合起来,开发出了 AlphaGo 算法。AlphaGo 被认为是人工智能研究的里程碑,并被《新科学家》杂志列为过去十年的十大发现之一。

AlphaGo 也是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人。

2016 年 3 月,阿尔法围棋围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以 4 比 1 的总比分获胜;2016 年末 2017  年初,该程序在中国棋类网站上以“大师”(Master)为注册账号与中日韩数十位围棋高手进行快棋对决,连续 60 局无一败绩;2017 年 5 月,在中国乌镇围棋峰会上,它与排名世界第一的世界围棋冠军柯洁对战,以 3 比 0 的总比分获胜。

2017 年 10 月 19 日,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,Silver 团队报告新版程序 AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以 100:0 的战绩击败“前辈”。AlphaZero 在国际象棋、围棋围棋等游戏中都取得了超人的表现,展现了前所未有的游戏方法的普遍性。

ACM 主席 Cherri M. Pancake 表示:“在人工智能领域,很少有其他研究人员能像 David Silver 一样让人如此兴奋。”

Infosys 首席运营官 Pravin Rao 表示:“ David Silver 为深度强化学习做出了基础性贡献,从而迅速促进了人工智能的发展。当电脑能够在复杂的棋盘游戏中击败世界冠军时,它已经激发了公众的想象力,并将年轻的研究人员吸引到机器学习等领域。重要的是,Silver 和他的同事开发的框架将在未来的许多年里,为人工智能的商业和工业实际应用提供贡献。”

ACM 计算奖旨在表彰研究成果产生了深远影响和广泛意义的中青年计算机科学家,奖金为 25 万美元,由印度科技公司印孚瑟斯(Infosys Ltd)捐赠。颁奖仪式将于 2020 年 6 月 20 日在美国旧金山举行,届时 Silver 将正式接受奖项。

人工智能玩游戏

自上世纪 50 年代以来,教计算机程序与人类或其他计算机进行游戏比赛,一直是人工智能研究的核心实践项目。人类与机器之间的比赛,也一直是衡量人工智能的标尺。

计算机程序通过做出一系列决定,来达到获胜的目标,这个过程被看作是对人类思维的模拟和挑战。游戏比赛也给研究人员提供了很容易量化的结果,比如“电脑遵守规则了吗?得分了吗?或者赢了游戏吗?”

在这一领域的早期,研究人员开发了一些程序来与人类在跳棋上竞争,而在过去的几十年里,又出现了越来越复杂的国际象棋程序。

1997 年,ACM 赞助了一场比赛,IBM 的“深蓝”(DeepBlue)成为第一台击败国际象棋世界冠军加里·卡斯帕罗夫(Gary Kasparov)的电脑程序,这也是一个具有分水岭意义的时刻

但对于研究人员来说,目标不仅仅是开发赢得游戏的程序,而是将游戏作为开发具有模拟人类智能能力的机器的试金石。

2016 年 3 月,全世界数百万人在电视上观看了 AlphaGo 击败围棋世界冠军李世石(Lee Sedol)的比赛。但这仅仅是 David Silver 团队惊人成就影响的开始。他对深度强化学习的见解已经被应用于很多领域,比如提高英国电网的效率,降低谷歌数据中心的能耗,以及为欧洲航天局设计太空探测器的轨道。”Cherri M. Pancake说道。

Silver 是深度强化学习的最重要的贡献者之一,在深度强化学习这种工具中,算法通过在交互式环境中反复试验来学习,根据运行过程中积累的信息不断调整,并利用不同数学处理层次的计算模型——人工神经网络强化学习策略有效地结合起来,对试错结果进行评估。

该算法不需要对每一个可能的结果进行计算,而是进行预测,从而更有效地执行给定的任务。

阿尔法狗

2500 年前,中国发明了围棋游戏,至今仍然流行,尤其是在亚洲。围棋被认为比象棋要复杂得多,因为棋手可以做出更多潜在的动作,而且游戏可以有更多的方式进行。

Silver 在艾伯塔大学(University of Alberta)攻读博士学位时,就开始探索开发一种可以掌握围棋的计算机程序的可能性。

Silver 开发 AlphaGo 的关键见解,是将深层神经网络与计算机游戏中使用的算法 Monte Carlo 树搜索相结合。Monte Carlo 树搜索的一个优点是,在追求游戏中最佳感知策略的同时,该算法还在不断研究其他替代方案。

2016 年 3 月,AlphaGo 击败世界围棋冠军李世石被誉为AI里程碑式的时刻。Silver 和他的同事在 2016 年发表在《自然》杂志上的论文《用深层神经网络和树搜索掌握围棋游戏》中发表了支撑 AlphaGo 的基础技术。

AlphaGo Zero、AlphaZeroAlphaStar

Silver 和他在 DeepMind 的团队一直在开发新的算法,这些算法极大地提高了计算机游戏的发展水平,并取得了许多被认为人工智能系统无法实现的结果。

在开发 AlphaGo Zero 算法时,Silver 和他的合作者证明了程序可以在不接触人类专家游戏的情况下掌握围棋。该算法完全通过在没有任何人类数据或先验知识的情况下自己来学习,而在进一步的迭代版本中,算法甚至不需要知道规则。

后来,DeepMind 团队的 AlphaZero 在国际象棋、将棋围棋中也获得了超人的表现。在国际象棋中,AlphaZero 轻松击败了世界计算机国际象棋冠军 Stockfish ,这是一个由大师和国际象棋编程专家设计的高性能程序。就在去年,由 Silver 领导的 DeepMind 团队开发的 AlphaStar ,掌握了多人电子竞技游戏《星际争霸 II》,该游戏被视为 AI 学习系统面临的一项艰巨挑战。

关于 David Silver

David Silver 是 DeepMind 强化学习研究小组的负责人,也是伦敦大学学院的计算机科学教授。他所在的 Google 子公司 DeepMind 试图将机器学习和系统神经科学方面的最佳技术结合起来,以构建功强大的通用学习算法。

Silver 分别于 1997 年和 2000 年获得剑桥大学的学士和硕士学位。1998 年,他和别人共同创立了视频游戏公司 Elixir Studios,并在那里担任首席技术官兼首席程序员。后来 Silver 返回学术界,并于 2009 年获得了艾伯塔大学的计算机科学博士学位。

2015 年,Silver 和他的同事发表的一篇题为《通过深度强化学习实现人类水平控制》(Human Level Control Through Deep reinforcement learning)的开创性论文中,描述了他们将强化学习与人工神经网络相结合的方法。该论文发表在《自然》(Nature)杂志上,被引用了近1万次,对该领域产生了巨大的影响。

随后,Silver 和他的同事继续用新的技术完善这些深度强化学习算法,这些算法仍然是机器学习中最广泛使用的工具之一。

Silver 的众多荣誉包括:马文·明克西人工智能杰出成就奖(2018年)、皇家工程院对英国工程杰出贡献银奖(2017年)、门萨基金会人工智能领域最佳科学发现奖(2017年)。

关于 ACM 计算奖

ACM 计算奖旨在表彰研究成果产生了深远影响和广泛意义的中青年计算机科学家。该奖项的奖金为 25 万美元,资金支持由 Infosys Ltd.提供。ACM 计算奖以前被称为 ACM Infosys 基金会计算科学奖。ACM 奖获得者将被邀请参加海德堡桂冠论坛,这是一个年度网络活动,汇集了来自世界各地的年轻研究人员和 ACM 图灵奖、阿贝尔奖、菲尔兹奖和奈凡林纳奖的获得者。

关于 ACM

计算机科学协会(ACM)是世界上最大的教育和科学计算机学会,它将计算机教育工作者、研究人员和专业人士联合起来,以激发对话、共享资源并应对该领域的挑战。ACM 通过强大的领导力、最高标准的推广以及对技术卓越的认可,增强了计算机行业的集体声音。ACM 通过提供终身学习、职业发展和专业网络的机会来支持其成员的专业成长。

参考资料:
https://www.acm.org/media-center/2020/april/acm-prize-2019

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业阿尔法狗David SilverACM
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature。2018 年 12 月,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中,AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

阿尔法围棋技术

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

AlphaStar技术

AlphaStar是2019年1月DeepMind推出的打星际争霸2的AI系统。在1月的首次亮相中,DeepMind播放的比赛视频显示AlphaStar击败了两名人类职业选手TOL与MaNa,引起了业内极大的关注。DeepMind 官方博客介绍,AlphaStar 的行为是由一种深度神经网络生成的,该网络从原数据界面(单位列表与它们的特性)接收输入数据,输出构成游戏内行为的指令序列。具体来说,该神经网络使用了一个 transformer 作为躯干,结合了一个深度 LSTM 核、一个带有 pointer 网络的自动回归策略 head 以及一个中心价值基线。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

将棋技术

将棋,日语平假名:しょうぎ 片假名:ショウギ 罗马音:syo u gi也叫本将棋,又称日本象棋,一种流行于日本的棋盘游戏。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~