陈龙内容整理

纽约大学陈溪: AlphaGo Zero技术演进的必然性

本讲座选自纽约大学助理教授陈溪近日在2018第二届杉数科技AI大师圆桌会上所做的题为AlphaGo Zero技术演进的必然性-机器学习与决策的有机结合》的演讲。

陈溪:今天我要跟大家分享一下为什么要把机器学习运筹学这两个学科结合起来,才能有效地解决很多实际的问题。

一、机器学习

什么是机器学习首先需要有一堆数据,然后有机器学习的算法,对于数据的统计建模、概率建模和数据的假设来作为算法的支撑。机器学习一般常用的应用是对数据进行预测,比如预测明天股票的价格,这种都是一些基础的预测,更重要的是通过机器学习,去学习数据中的一些模式。

机器学习从大的角度分成两类:监督学习与无监督学习(Supervised Learning & Unsupervised Learning)。比如我们通过房间里的照片来识别人脸,用某些方式进行一定的标注来确定人脸在什么地方,这时候我们就叫做有监督的学习。监督学习的框架如上图所示,根据预测的函数,把机器学习的特征映射到值域上。

没有监督的学习是一个更加广泛的领域,比如我们需要把图片进行分类,这是完全根据人的需求和感觉,通过机器学习方法进行分类。

深度学习是一个自动提取特征的有效工具,比如图像的结构化让深度学习得以提取足够的特征。然而并不是每个领域的数据都能够通过深度学习的方式把有效的特征提取出来,比如在很多金融领域,一定要把深度学习与非深度学习的方法进行有效的比对。

二、从学习到决策

传统的机器学习通常处理静态数据,但是这并不能满足很多商业需求,许多商业应用最终需要做决策

上面这张图把整个数据分析分成五个阶段:

  • 第一阶段:Descriptive(描述性),对数据进行基本的描述;

  • 第二阶段:Diagnostic(诊断性),对数据进行基本的诊断;

  • 第三阶段:Discovery(发现),挖掘数据内在的模型;

  • 第四阶段:Predictive(预测性),预测可能发生的情况的分析;

  • 第五阶段:Prescriptive(指定),数据驱动决策的过程。

在现实领域中,我们会遇到很多决策的问题,比如决策库存量、设施位置、路线规划、商品价格等。

AlphaGo Zero,作为围棋的一个重大进展,它不仅要对对手进行预测,同时还要对落子进行决策。所以Google设计了deep reinforcement learning(深度强化学习,它带有决策的成分,通过Monte Carlo tree search(蒙特卡洛树搜索),让机器和机器自己进行对战,从而进行学习。不管是学习还是决策,Simulation technique(模拟技术)AlphaGo Zero中也很重要。

对于商业应用仍然很简单,这是为什么?在一个围棋的程序中,尽管搜索空间很大,信息是完整的,然后目标函数简单而明确(赢或输),而在商业决策过程中,目标函数可能会非常复杂。

这个研究工作叫Assortment optimization,基本上是一个推荐系统,比如搜索一个航班,它会自动帮我挑出性价比最高的几个航班。

做Assortment optimization?首先,我们要了解客户的购买行为,然后用choice model(选择模型)去做选择。

MNL是Logit类模型的基本型式,其选择一个产品的概率等于这个产品的效率(用户喜欢的程度)除上所有推荐产品的效率总和加1(S:推荐的产品,a:选择的产品,1:用户什么产品都不喜欢)。

在现实生活中还有很多复杂的情况,MNL不可能是一直有效的模型。

Nested logit models是先选择一个大类,然后在大类中再进行产品的选择,如上图所示,概率分成两部分,一部分是选择毛衣的概率,另一部分是选择毛衣的具体款式的概率,这样就构建了一个多层的选择过程。

给定choice model,如何选择最好的产品推荐给客户?我们选择一个S(推荐的产品)做组合优化,使得它数学期望值的收益最大化。然而,现实生活中更复杂的问题是你并不知道用户选择产品的概率。

Ruelala和唯品会是快消品的销售平台,销售时间很短,没有足够多的历史数据去学习用户对产品的喜好程度。Facebook在做在线广告的时候,若产品的选择数以百万计,这时候就无法估计用户对每一个产品的喜好程度。所以我们需要动态推荐系统,把机器学习和智能决策结合起来。

上图是简单的动态雏形,在每一个时刻我们假设给用户做一个产品的推荐,通过用户购买情况,不断的学习和做决策,一直到整个销售区间终止。如果知道用户的选择概率,可以把它做成静态的优化问题,如果不知道,就做成一个动态的优化问题。

怎么评估算法的好坏?在学术圈有一个叫Regret analysis的方法:将最佳分类与选择分类预期收益均差最小化。我们的目标是构造一个机器学习和决策的算法,使得在时间足够长的时候,收益差非常小,以及收益差怎么减少。

这些模型虽然很有用,但还不够复杂,机器学习的精髓在于特征的提取,比如利用上下文的信息,把用户和产品的特征提取出来,做一个动态的Choice Model,这样就能更好的服务于现实。

沃尔玛做过类似的工作,根据用户已经放在购物车里的产品,在最后结账的过程中再推荐产品。

三、总结

很多商业的问题极其复杂,我们要深入理解问题本质的结构,机器学习与决策要有机的结合起来。只有把机器学习过程,随机的建模和优化全部柔和在一起,我们才能对大数据进行更好的理解和处理。

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

产业运筹学机器学习AlphaGo
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

阿尔法围棋技术

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

运筹学技术

运筹学,是一门应用数学学科,利用统计学和数学模型等方法,去寻找复杂问题中的最佳或近似最佳的解答。运筹学经常用于解决现实生活中的复杂问题,特别是改善或优化现有系统的效率。研究运筹学的基础知识包括矩阵论和离散数学,在应用方面多与仓储、物流等领域相关。因此运筹学与应用数学、工业工程专业密切相关。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

推荐文章
暂无评论
暂无评论~