ASSIA | 中国自动化学会“深度与宽度强化学习”前沿讲习班

如何赋予机器自主学习的能力,一直是人工智能领域的研究热点。在越来越多的复杂现实场景任务中,需要利用深度学习、宽度学习来自动学习大规模输入数据的抽象表征,并以此表征为依据进行自我激励的强化学习,优化解决问题的策略。深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等领域中的成功应用,使其被认为是迈向通用人工智能的重要途径。

中国自动化学会将于2018年5月31日-6月1日在中国科学院自动化研究所举办第5期智能自动化学科前沿讲习班,主题为“深度与宽度强化学习”,此次讲习班由中国自动化学会副理事长、澳门大学讲座教授陈俊龙与清华大学教授宋士吉共同担任学术主任。

特邀嘉宾

 陈俊龙

澳门大学讲座教授,中国自动化学会副理事长

国家千人学者,IEEE Fellow、AAAS Fellow、IAPR Fellow

报告题目:从深度强化学习到宽度强化学习:结构,算法,机遇及挑战

报告摘要:本座谈讨论强化学习的结构及理论,包括马尔科夫决策过程、强化学习的数学表达式、策略的构建、估计及预测未来的回报。也会讨论如何用深度神经网络学习来稳定学习过程及特征提取、如何利用宽度学习结构跟强化学习结合。最后会讨论深度、宽度强化学习带来的机遇与挑战。

宋士吉

清华大学教授、博导

国家CIMS工程技术研究中心研究员

报告题目:基于强化学习的深海机器人智能搜索与运动控制方法

报告摘要:阐述强化学习在深海机器人智能搜索与运动控制领域的算法研究及其应用,从热液羽状流智能搜索与深海机器人运动控制两个方面开展工作。 在热液羽状流智能搜索方面,研究基于强化学习和递归网络的羽状流追踪算法。利用传感器采集到的流场与热液信号信息,将机器人搜索热液喷口的过程建模为状态行为域连续的马尔科夫决策过程,通过强化学习算法得到机器人艏向的最优控制策略。 在深海机器人运动控制方面,研究基于强化学习的轨迹跟踪与最优深度控制算法。在机器人系统模型未知的情况下,将控制问题建模成连续状态动作空间的马尔可夫决策过程,并构建评价网络与策略网络,通过确定性策略和神经网络学习得到最优控制策略。

侯忠生

北京交通大学教授、博导

北京交通大学自动控制系主任

报告题目:数据驱动的自适应学习控制

报告摘要:本报告分为以下4部分:第1部分主要介绍迭代轴上的学习控制;第2部分主要介绍时间轴上的学习控制,既无模型自适应控制;第3部分主要介绍学习控制的统一框架;第4部分是结论。

赵冬斌

中国科学院自动化研究所研究员、博导

中国科学院大学岗位教授

报告题目:深度强化学习算法及应用

报告摘要:将具有“决策”能力的强化学习(RL: Reinforcement Learning)和具有“感知”能力的深度学习(DL: Deep Learning)相结合,形成深度强化学习(DRL: Deep RL)方法,成为人工智能(AI: Artificial Intelligence)的主要方法之一。2013年,谷歌DeepMind团队提出了一类DRL方法,在视频游戏上的效果接近或超过人类游戏玩家,成果发表在2015年的《Nature》上。2016年,相继发表了所开发的基于DRL的围棋算法AlphaGo,以5:0战胜了欧洲围棋冠军和超一流围棋选手李世石,使围棋AI水平达到了一个前所未有的高度。2017年初,AlphaGo的升级程序Master,与60名人类顶级围棋选手比赛获得不败的战绩。2017年10月,DeepMind团队提出了AlphaGo Zero,完全不用人类围棋棋谱而完胜最高水平的AlphaGo,再次刷新了人们的认识。并进一步形成通用的Alpha Zero算法,超过最顶级的国际象棋和日本将棋AI。DRL在视频游戏、棋类博弈、自动驾驶、医疗等领域的应用日益增多。本报告将介绍强化学习深度学习和深度强化学习算法,以及在各个领域的典型应用。

陈霸东

西安交通大学教授、博导

陕西省“百人计划”特聘教授

报告题目:核自适应滤波与宽度学习

报告摘要:核自适应滤波器(Kernel Adaptive Filters)是近年来兴起的在可再生核希尔伯特空间(RKHS)中实现的一类非线性自适应滤波器,其拓扑结构为线性增长的单隐层神经元网络。其基本思想是:首先,将输入信号映射到高维核空间;然后,在核空间中推导线性滤波算法;最后,利用核技巧(Kernel Trick)得到原信号空间中非线性滤波算法。与传统非线性滤波器比较,核自适应滤波器具有以下优点:(a)如果选取严格正定的Mercer核函数,具有万能逼近能力;(b)性能曲面在高维核空间中具有凸性,因此理论上不具局部极值;(c)隐节点由数据驱动生成,减少了人工参与;(d)具有自正则性(Self-regularization),可有效防止过拟合。因此,核自适应滤波概念提出以后引起了国内外研究者广泛兴趣,越来越多的相关算法被提出,并被应用到诸多领域。核自适应滤波与最近兴起的宽度学习(Broad Learning)关系密切,可以认为是一类基于核方法的宽度学习算法。本报告将深入系统地阐述核自适应滤波的基本思想、主要算法、性能分析、典型应用,以及如何将其与宽度学习纳入统一框架。

刘勇

浙江大学教授、博导

浙江大学求是青年学者

报告题目:正则化深度学习及其在机器人环境感知中的应用

报告摘要:近年来,随着人工智能技术的飞速发展,深度神经网络技术在图像分析、语音识别、自然语言理解等难点问题中都取得了十分显著的应用成果。然而该技术在机器人感知领域的应用相对而言仍然不够成熟,主要源于深度学习往往需要大量的训练样本来避免过拟合、提升泛化能力,从而降低其在测试样本上的泛化误差,而机器人环境感知中涉及的任务与环境具有多样化特性,且严重依赖于机器人硬件平台,因而难以针对机器人感知任务提供大量标注样本;其次,对于解不唯一的病态问题,即使提供大量的训练数据,深度学习方法也难以在测试数据上提供理想的估计,而机器人感知任务中所涉及的距离估计、模型重构等问题就是典型的病态问题,其输入中没有包含对应到唯一输出的足够信息。针对上述问题,本报告以提升深度学习泛化能力为目标、以嵌入先验知识的正则化方法为手段、以机器人环境感知为应用背景展开介绍。

徐昕

国防科技大学教授、博导

国防科技卓越青年人才

报告题目:自评价学习控制中的特征表示与滚动优化

杨颖

中国中车首席专家,教授级高级工程师

中车株洲电力机车有限公司副总工程师

报告题目:轨道交通车辆预测与健康管理(PHM)技术应用

季向阳

清华大学教授、博导

国家杰出青年科学基金获得者

报告题目:强化学习及智能控制与决策

游科友

清华大学副教授、博导

国家优青,国家青年千人

报告题目:分布式优化算法与学习

注意事项

1、本期讲习班限报200人,报满即止;

2、2018年05月29日(含)前注册并缴费:自动化学会会员2000 元/人,非会员报名同时入会2500元/人;

3、现场缴费:会员2500元/人,非会员3000元/人(包含提前报名现场缴费、现场报名现场缴费);

4、在校生参会可享受学生优惠价格1200元/人;

5、公务卡缴费可现场刷卡,但需要提前提交报名信息方可按优惠价格缴费;

6、自动化学会团体会员参加,按会员标准缴费;

7、同一单位3人及以上团体报名,按会员标准缴费。

8、注册费包括讲课资料和两天会议期间午餐,其它食宿、交通费用自理。


报名方式

点击 http://www.caa.org.cn/assia5/reg 填写报名信息。

联系方式

周老师/辛老师

电话:010-62522472

手机:18811748370

邮箱:caa_assia@163.com

理论
相关数据
自适应学习技术
Adaptive learning

自适应学习也称为适应性教学(Adaptive Learning),是一种以计算机作为交互式教学手段的教学方法,根据每个学习者的特别需求,以协调人力资源和调解资源的分配。计算机根据学生的学习需求(如根据学生对问题、任务和经验的反馈)调整教育材料的表达方式。自适应学习技术已经涵盖了来自各个研究领域,包括计算机科学,教育,心理学和脑科学等等。

人工智能技术
Artificial Intelligence

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

DeepMind机构
阿尔法围棋技术
AlphaGo

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

深度神经网络技术
Deep neural network

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

深度强化学习技术
Deep reinforcement learning

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

核函数技术
Kernel function

核函数包括线性核函数、多项式核函数、高斯核函数等,其中高斯核函数最常用,可以将数据映射到无穷维,也叫做径向基函数(Radial Basis Function 简称 RBF),是某种沿径向对称的标量函数。最常应用于SVM支持向量机中

映射技术
Mapping

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

马尔可夫决策过程技术
Markov decision process

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具,广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时,我们一般特指其在离散时间中的随机控制过程:即对于每个时间节点,当该过程处于某状态(s)时,决策者可采取在该状态下被允许的任意决策(a),此后下一步系统状态将随机产生,同时回馈给决策者相应的期望值,该状态转移具有马尔可夫性质。

神经元技术
neurons

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

过拟合技术
Overfitting

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

策略网络技术
policy network

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

正则化技术
Regularization

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

自动驾驶技术
self-driving

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

感知技术
perception

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

再生核希尔伯特空间技术
Reproducing Kernel Hilbert Space

在功能分析(数学分支)中,再生核希尔伯特空间(RKHS)是点估算是连续线性泛函的函数的希尔伯特空间。

强化学习技术
Reinforcement learning

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

机器人学技术
Robotics

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

语音识别技术
Speech Recognition

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器人运动技术
Robot locomotion

重构技术
Refactoring

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

最优控制技术
best control

转载
转载

机器之心编辑

推荐文章