机器之心专访杨强教授:联邦迁移学习与金融领域的AI落地

7 月 21 日、22 日,由 KDD China 主办,西南交通大学和京东金融承办的 KDD Summer School 暨 KDD Pre-Conference,「交通大数据智能」论坛在成都举行,多位知名数据挖掘领域专家以及 KDD 2018 国际会议录用论文的作者介绍了自己的工作以及各自领域的进展。

在会上,我们采访了 KDD 中国主席杨强,与他聊了聊他在金融领域进行的 AI 落地的工作,包括「联邦学习」这个试图在保护数据隐私、满足合法合规要求的前提下继续进行机器学习的新方法。同时,作为 KDD 中国主席,他也分享了当下的迁移学习领域的新进展和他对本届 KDD 大会的展望。

联邦学习:数据合规应该是深度学习解决方案的一部分

机器之心:您如今在关注哪些 AI 的研究或应用方向?在您看来,机器学习领域有哪些新的趋势?

我现在关注的一个趋势是如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,我们将这部分研究称为「联邦学习」(Federated Learning)。

开始联邦学习的契机是欧盟通过了「数据隐私保护条例」(General Data Protection Regulation,简称 GDPR)。GDPR 认定「个人数据神圣不可侵犯」,要求公司在使用数据前要先向用户声明模型的作用。这份条例的实行让许多大数据公司噤若寒蝉,不敢再互相交流数据了,这对于极度依赖数据的机器学习是一个巨大的挑战。

因此我们现在正在寻找比较正向的应对方法,思考如何把 GDPR 囊括在机器学习框架之内,而不是绕着它走。

联邦学习希望在不共享数据的前提下,利用双方的数据实现模型增长。

假设两家公司想要建立一个用户画像模型,其中部分用户是重合的。联邦学习的做法是,首先通过加密交换的手段,建立用户的识别符(identifier)并进行沟通,在加密状态下用减法找出共有的部分用户。因为关键用户信息并没有得到交换,交换的只是共有的识别符,因此这并不违反数据隐私保护条例。然后,双方将这部分数据提取出来,将各自拥有的同样用户的不同特征作为输入,迭代地进行训练模型、交换参数的过程。我们证明了给定模型参数,双方不能互相反推出对方拥有的、自己没有的特征,因此用户隐私仍然得到了保护。在不违反 GDPR 的情况下,双方的模型性能都得到了提高。

联邦学习相比于迁移学习的优点在于「无损失」。之前的迁移学习都是存在性能损失的,当模型从领域 A 迁移到领域 B,从模型中学到的一大部分关于 A 的知识全丢了,只有和 B 共享的一小部分保留下来,甚至会出现负迁移。然而联邦学习保证,两家公司的模型都比原来效果好。因此我们没有继续沿用迁移学习的名称,而是将其命名为「联邦学习」,意思是说,两家公司并没有联合成为一个「国家」,而是像不同的「州」一样,在一个「联邦政府」——进行信息与模型参数的加密交换的系统——的管理下,各自为政,同时获得成长。在联邦学习的基础上,我们还可以启发式地搭建迁移学习的能力。这样,在模型成长的基础上,做到举一反三的效果。这个总的模型叫做「联邦迁移学习」(Federated Transfer Learning)。

联邦学习是我们应对 GDPR 类事件的一个例子。在未来,我们面临的社会大众的要求和监管一定越来越严格,因此我们人工智能的从业者应该拥抱这些条例,将其内化为解决方案的一部分。如今机器学习最薄弱的环节其实并非算法结构不够丰富、准确率不够高,而是来自社会大众对人工智能的态度和制约。GDPR 不是个例,在未来,不同国家和地区的隐私保护条例会如雨后春笋般出现,在这样的背景之下,如果不作出改变和适应,机器学习的一个重要的假设:假设我们拥有足够多的数据,将不复成立。

因此我们希望机器学习学者除了关心算法的准确率、效率之外,也将思考的维度上升到管理与合规的角度。我们希望能带头建立金融领域协同建模的规范,让不同的企业受益于合规的联合建模链条,更乐于加入这个 AI 建模联邦,在遵守合规要求的同时享受数据福利,也让机器学习更健康地发展下去。

我近年关注的问题是 AI 的落地,因为如果 AI 一直不落地,大家都埋头写论文,那么这个泡沫最后就破了。

我个人选择在金融相关的领域来实现 AI 落地,其原因是金融提高效率的痛点很强烈。现在很多媒体给大家的一个印象是「所有的领域」都可以马上应用 AI,这我是不赞同的。在一些领域里,如今的 AI 反而会把优势变成劣势:例如 IBM Watson 在美国癌症医疗中心就因为数据缺失问题而导致诊断协助系统的失败。

我认为现在的情况是,并非所有领域都适合在当下尝试 AI,根据数据和场景的准备状态,有一些领域特别适合首先去尝试 AI,其中就包括金融。

此外,我希望总结出一套方法论,可以告诉人们,一个领域在什么时间段、满足哪些条件后,可以开始考虑使用 AI 了。

迁移学习:深度和对抗成为范式

机器之心:去年,您在机器之心的 GMIS 大会上提到了迁移学习的六个进展,分别是结构与内容分离、多层次的特征学习、多步迁移学习、学习「如何迁移」、迁移学习作为元学习以及数据生成式的迁移学习。在过去的一年多时间里,有哪些方向出现了令人瞩目的进展?

首先是层次感。这方面进展非常迅速。业界发现深度学习天然适合做迁移的学习,正是因为深度学习不同的层次负责编码不同的知识。

因此多层次的特征学习有很多种可行结构:一是多视角,让不同的输入分别进入不同的初始层,处理后共享一些中间层;另一种是利用对抗的结构,例如 GAN 和 DANN,筛出不同领域间可共享的特征。共享特征的意思是无法用这个特征区分两个领域。用对抗找出共享特征的意思是,让一个网络负责筛选出让对方区分不了的特征,让另一个网络负责根据特征区分两个领域,两个网络通过博弈达到平衡时,就自动找到了两个领域之间的重叠部分。

总的来说,对抗网络现在已经变成了迁移学习的一种已定式和系统了。

学习如何迁移方面,我们最近有一篇 ICML 2018 文章,Transfer learning by learning to transfer 讲的就是这个问题。这个文章的第一作者是魏颖博士。文章的主旨是,在我们积累了在很多领域进行学习的经验后,把领域间的迁移过程作为例子。例如在翻译问题上,从日语到中文是一个迁移,从日语到英文是另一次迁移。如果有 N 个领域,就会有 近 N*N 个例子。把迁移的例子做成训练集,就可以训练出一个自动的迁移规划器,它会告诉你如何迁移或是说迁移的方法论。来了一个新问题,迁移器可以告诉你应该挑那些迁移学习算法来用在这个问题上。

这个问题的输入是算法的参数和描述不同领域的参数,优化函数是所有样本的期望损失最低,学出来的迁移器既挑选模型,也学习参数。这个工作的主题是「学习如何学习」,和时下流行的 AutoML 有紧密的联系。今年,「第四范式公司」会在 NIPS 2018 上将举办首届 AutoML 大赛,也是给大家一次展示迁移学习能力的机会。

「学习如何学习」也不仅仅是计算机科学中的问题。在心理学领域,上世纪美国心理学家 Thorndike 就拿猴子做了一个实验,证明猴子是有迁移能力的。他让猴子解决一些不同的任务,解决好了就能拿到食物,解决不好就让他继续解决,一段时间后,猴子就学会了在新的领域里寻找特征,利用原有的经验解决新问题。因此 Thorndike 总结道:「智能就是迁移能力。」他将这个观点应用到教育学上,认为教育程度高,并不是考试分数高,而是学下一门课学得更快。

最后,结构与内容分离,换言之,就是要用尽可能少的例子来学尽可能多的事儿,这方面的内容仍然不是很多。但这其实并不是局限于迁移学习的一个讨论,而是人工智能整体试图解决的一个问题。

最近 Yann Lecun 的在 IJCAI2018 上的一个讲座让我觉得很有启发。Yann 也在思考为什么人只需要几个例子,而深度学习需要那么多例子。他的观点是,一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann 描述的这个方法被业界称作「自监督学习」。

我觉得自监督学习可以和迁移学习结合来做的。因为一个样本毕竟还是有局限性,它的变化很小,统计性很差,但是如果和以前的经验能结合起来,例如从其他任务里迁移一个偏置项,可能就是解决小样本的一个方向。

机器之心:您如何对当前的迁移学习算法进行分类?原因是什么?

之前,我们通常将迁移学习分为三类。第一类是样本迁移,将可能对新领域有用的样本的权重加大。这一类方法非常经典,但是现在用得比较少。

第二种叫做特征迁移,特征空间的维度很高,如果我发现第一个领域里发现的重要特征能够覆盖新领域,那么我就把它迁移到新领域中去。迁移的部分可能是人工选出来的特征,这种方法在自然语言处理迁移中比较常见,也可以是一个特征提取器,这种方法在计算机视觉迁移中比较常见。

最后一种是参数迁移,迁移的范围与两个领域之间的距离有关。例如和图像相关的模型,越是靠下的层越通用,迁移能力越强,越是靠上的层越是特殊,迁移能力越弱。因此可以根据领域间距离定量地确定迁移的程度:如果两个领域相距很远,那么可以只迁移最下方的几层,如果两个领域很相似,则可以多迁移几层。此外还可以量化迁移后调节参数的时机:两个领域相距越远,参数调节就应该越早进行,两个领域相距越近,参数调节就可以越晚进行。

近年一个有意思的特征迁移案例是斯坦福大学为联合国做的「如何在卫星图片中标记贫穷的地区」。联合国在决定给每个地区分配的资助前,需要确定当地的贫穷程度。在过去,做法是派人去进行经济调查,而斯坦福大学试图用 跨越式迁移的方法来解决这个问题。研究人员首先对白天的卫星图片进行语义级别的分割,标出桥梁、建筑物等。然后以灯光明亮度代表富裕程度,通过白天和夜晚的图像比对,找出最富有的地区在白天有哪些可见的特征,比如游泳池。然后将游泳池视为富裕地区的显著特征后,再通过搜索游泳池周围经常出现特征,进行另一轮的代表性特征选择。逐步扩展下去,最后在识别贫富程度上达到和现场调查人员相近的准确率

这类非常具有社会意义的选题也是值得国内研究者思考和借鉴的,我们不应该只擅长刷 ImageNet 榜单。

除此之外,根据采用的模型结构还可以分成采用/不采用深度学习的。近年随着对抗生成网络在迁移学习中的应用越来越广泛,还有一种分法是根据是否利用对抗的方法进行分类。迁移学习中天然存在可以对抗的部分:希望算法在本领域准确性尽可能高,希望算法在两个领域间的差距尽可能小。把这两个限制条件同时作为目标,就形成了一个恰恰合适对抗生成网络做的事情。

KDD:连接工作与会议趋势

机器之心:作为 KDD 中国主席,能否分享下 KDD 中国的定位和任务,以及 KDD 大会的一些情况?

ACM SIGKDD 在中国的分会叫做 KDD China,这个学术社区的主旨是做好各项「连接」的工作,即连接学生和学者,连接公司和学校,以及连接学界和社会。本次 2018 的暑期学校分成三天(已于 2018 年 7 月 21-23 在成都的西南交通大学举行),分别是业界专家观点、学生 2018 KDD 工作展示,以及学界的「大牛」讲解如何写论文、如何做研究。旨在进行学生与业界领袖的连接,工业与学术界的连接,国内和国外的连接等一系列工作。现在看来效果还是非常不错的,会员已经超过了 1000 人,本次活动报名的会员/非会员也达到了场地的极限,达到三百多人。

而即将在伦敦召开的 KDD 2018,颁发的奖项包括:

  • Research Innovation Award,颁发给了芝加哥大学的刘兵教授,他率先开展了舆情分析方面的工作。

  • Distinguished Service Award,颁发给了清华大学的唐杰教授,他在 KDD 领域做了大量的突出的服务性工作,包括在 2012 年在北京举行的 KDD 所做的大量支持工作和建立著名的论文库系统 A-MINER 等的工作。

  • Test of Time Award,这个奖项颁发给发表在十年前的、产生了重大影响的文章。今年的获奖者是来自谷歌的 Yehuda Koren,获奖论文是关于推荐系统中的协同过滤问题。

在趋势方面,KDD 继续以信息网络的大数据为主题来研究,但 KDD 也在近几年开始举办以深度学习命名的一个 workshop,这也标志着深度学习也成为了 KDD 所接受的一类方法。

纵观 KDD 的历史,会发现发起者背景主要有二,一是来自工业界,比如曾经以 IBM 、微软等公司为代表一些领袖,二是学界的领军人物。切入角度是起始于数据仓库管理和关联规则等的分析;后来机器学习算法逐渐进入业界后,越来越多的机器学习学者也进入 KDD 界,而 KDD 一直保持有很高的工业界参与度以及对工业实际问题的敏感度。

如今 KDD 和机器学习的一些区别包括,KDD 是更多地以应用问题为导向的会议,很少有像强化学习等纯机器学习算法的论文;KDD 相比于机器学习更关心社交网络等信息网络数据,更关心「人」的参与建模,更在乎模型的可解释性、数据可视化、人对模型结论的理解等,而机器学习更关注自动化和端到端的建模。

工程杨强KDD
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

IBM 沃森技术

沃森是能够使用自然语言来回答问题的人工智能系统,由IBM公司的首席研究员David Ferrucci所领导的DeepQA计划小组开发并以该公司创始人托马斯·J·沃森的名字命名。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

暂无评论
暂无评论~