Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

周志华教授发表首届国际学习与推理联合大会IJCLR开场Keynote:探索从纯学习到学习+推理的AI

首届国际学习与推理联合大会(IJCLR)已于 10 月 25-27 日在线上举行,该会议代表了国际推理与学习相融合方面的重大趋势,多位国内外领域学者发表演讲,其中,周志华教授作了大会的开场主旨报告,分享了题为《利用无标签数据:从「纯学习」到「学习 + 推理」》的主旨演讲。


学习和推理一直是人工智能中的核心研究内容,诸多学者都认为,两者的结合将具有解决当代人工智能方法缺点的潜力,包括深度学习的黑箱性质等,然而这方面的工作极为困难,需要将人工智能逻辑推理、知识表示、机器学习等多个领域打通。

人工智能领域的大会可以说是不胜枚举,但还没有专门关注学习与推理结合的重量级会议。现在终于有这样一个会议,可以满足研究者这方面的需求——国际学习与推理联合大会(International Joint Conference on Learning & Reasoning,IJCLR)。

首届国际学习与推理联合大会已于 10 月 25-27 日在线上举行。该会议代表了国际推理与学习相融合方面的重大趋势,可以说是 2021 年国际人工智能界的一件大事。

该会议由四个有十年、甚至三十年历史的会议联合形成:第 30 届国际归纳逻辑程序设计大会 (ILP20-21)、第 15 届国际神经符号学习与推理研讨会(NeSy20-21)、第 10 届国际统计关系人工智能研讨会(StarAI 20-21)、第 10 届国际归纳程序方法及应用研讨会(AAIP 20-21)。这意味着国际人工智能领域关于「学习 + 推理」 的几个研究社区终于整合到了一起,携手探索「学习 + 推理」 的未来。

IJCLR 大会主页:http://lr2020.iit.demokritos.gr/index.html

IJCLR 旨在将从事学习和推理各个方面的研究人员和从业者聚集在一起,探讨未来发展和挑战,促进不同方法之间的协作和交叉融合:ILP 大会一直是基于逻辑学习方法研究的首要论坛,最初该会议专注于逻辑程序归纳,多年来已将其研究范围扩展到其他形式的关系学习和概率方法;NeSy 是展示和讨论与神经符号计算相关的系列研讨会,例如神经和基于逻辑的学习和推理方法的组合;StarAI 研讨会系列主要是研究逻辑与概率论组合,重点是统计推理和学习关系以及一阶逻辑表示;AAIP 研讨会系列侧重于从不完整的规范中学习任意编程语言的可执行程序。 

本次大会邀请了多位领域大咖发表演讲。其中,我国南京大学计算机系主任兼人工智能学院院长周志华教授作了大会的开场主旨报告,分享了题为《利用无标签数据:从 「纯学习」 到「学习 + 推理」》的主旨演讲

在会议最后的 Panel 环节,周志华教授还与流形学习与贝叶斯程序学习创始人、MIT 脑与认知科学系教授 Josh Tenenbaum, Robust.AI 创始人、认知科学专家 Gary Marcus,缺省推理创始人、瑞典林雪平大学知识表示与推理教授 Hector Geffner,英国皇家工程院交互可解释人工智能研究主席、帝国理工教授 Francesca Toni,曾担任国际人工智能联合会主席和《人工智能研究杂志》主编的 IBM Fellow Francesca Rossi 等五位大咖共同讨论了《学习和推理的未来挑战》。这意味着我国学者在机器学习逻辑推理融合方面已经达到了国际同行公认的引领性和前瞻性,能与国际顶尖专家平等对话讨论整个领域的未来。

在本次大会的开场主旨报告演讲中,周志华教授先简要介绍了机器学习中利用无标签数据的重要性,以及过去利用无标签数据主要依赖的「纯学习」解决方案,然后重点介绍了他最近提出的「反绎学习」。这是一种全新的「学习 + 推理」方案,与以往的「学习 + 推理」方案重点依赖学习、获得的结果牺牲了推理能力,或重点依赖推理、获得的结果牺牲了学习能力不同,反绎学习提供了一种以平衡和互利方式利用机器学习逻辑推理的「学习 + 推理」解决方案。通过逻辑推理对领域知识进行利用,从而可以显著缓解对有标签数据的需求;而通过机器学习可以利用数据对领域知识进行精化和改善,甚至可能发现新知识。

以下为机器之心根据周志华教授的现场演讲内容进行的整理。

周志华教授演讲内容概要

自训练方法(Self-training)

机器学习通常依赖大量的有标签数据,而现实中很容易获得大量无标签数据,如何利用无标签数据辅助少量有标签数据进行学习,是一个重大挑战问题。很容易想到的办法有自训练 / 自学习,用有标签数据训练一个模型,然后用模型来对无标签数据提供伪标签,然后基于伪标签数据来更新模型。但这样做不太“靠谱”,因为当初始有标签数据很少时,训练出的初始模型性能差,伪标签中会有大量错误,导致学习性能越来越差。

这样的做法在很久以前就有所改进,例如对伪标签数据进行数据编辑,对数据净化之后再用于学习。编辑过程可以采用一些统计假设检验方法。然而总体上这样的方法仍然是启发式的,人们希望有一些有理论支撑的方法。

主动学习(Active learning)

主动学习(Active learning)是机器学习的一个分支,其主要思路是,从大量无标签样本中挑选少量样本给人类专家进行标注,从而让人类专家的力气用在 「最有价值」的地方。其目标是通过尽量少地选择样本给人类专家标注,能够大幅度提升学习性能。 

典型的两大类代表性方法是有选择最 informative 的示例进行标注,和选择最有代表性的示例进行标注。新的发展是同时兼顾 informative 和代表性。

然而,主动学习假设了「人在环中」(human-in-the-loop),如果没有人类专家的帮助,则必须考虑其他的办法来利用无标签数据,例如监督学习

监督学习

监督学习具有代表性的方法包括生成式方法、半监督 SVM、基于图的方法、基于分歧的方法。

 基于分歧的监督学习是该领域的主流范型之一, 通过训练多个学习器,利用它们之间的分歧来对无标签数据进行利用。协同训练(Co-training)是基于分歧方法的代表,它最初是针对 「多视图」 数据提出,多视图数据是指一个样本同时由多个属性集合描述,每个属性集合称为一个「视图」。协同训练首先基于两个视图分别训练一个分类器,然后每个分类器挑选一些可信度高的无标签样本,标注后提供给另一个分类器作为有标签数据进行使用。由于这些分类器从不同角度训练出来,可以形成一种互补,从而提高分类精度;就如同从不同角度可以更好地理解事物一样。

这个简单的算法被广泛应用,在应用中有令人惊讶的优越性能。研究者们努力理解它为什么有效、在什么时候有效。机器学习领域奠基人、CMU 的 Tom Mitchell 教授等人证明,如果数据具有两个满足条件独立性的视图、且每个视图都包含足够产生最优学习器的信息,则协同训练能够通过利用无标签数据任意提升弱学习器的性能。

然而这个理论条件在现实中并不成立,因为关联到同一个样本的两个视图通常并不满足条件独立性。此后有许多著名学者,如计算学习理论大会主席 Balcan 等人做了重要工作,最后周志华教授课题组在理论上最终给出了协同训练能够奏效的充分条件和充分必要条件。其理论揭示出只要两个学习器有较大差异,就能通过协同训练利用无标签数据提升性能。该理论说明,「两个视图」并非必须,只要想办法让学习器之间具有较大差异即可。

该理论结果导致了一系列 「单视图方法」,例如  tri-training 方法等,最近在深度学习领域也有基于 tri-training 的半监督深度神经网络模型。

然而,监督学习仍然需要一批有标签数据,例如在半监督 SVM 或基于分歧的方法中训练初始分类器。如果既没有 「人在环中」 的人类专家帮助、也没有充分的有标签数据,还有没有办法利用无标签数据呢?周志华课题组提出,如果有「领域知识」,那么可以通过机器学习逻辑推理的结合来做。

机器学习逻辑推理

逻辑推理容易利用规则知识,机器学习容易利用数据事实,从人类决策来看,通常需要结合知识和事实以解决问题。研究一个能够融合机器学习逻辑推理并使其协同工作的统一框架,被视为人工智能界的圣杯挑战。

人工智能研究的历史中,机器学习逻辑推理两者基本是独立发展起来的,1956~1990 年是逻辑推理 + 知识工程作为人工智能主流的发展时期,但此时关心机器学习的人很少;1990 年之后是机器学习作为人工智能主流的发展时期,但此时逻辑推理已经相对冷门。

目前流行的逻辑推理技术通常基于一阶逻辑表示,而流行的机器学习一般基于特征表示。这两者几乎是基于完全不同的表示方式,难以相互转化,使得两者的结合极为困难。

为了融合机器学习逻辑推理,历史上已经有很多研究者在做努力。他们通常采用扩展其中一种技术来适应另一种技术的方法。例如,概率逻辑程序(PLP)尝试扩展一阶逻辑以引入概率推理。而统计关系学习(SRL)基于领域知识构建、初始化概率模型。

前者「重推理、轻学习」,开头引进了一点机器学习的成分,然后几乎完全依赖逻辑推理解决问题;后者「重学习、轻推理」,开头引进了一点逻辑推理的成分,然后几乎完全依赖机器学习解决问题。总是「一头重、一头轻」,意味着总有一端的能力没有完全发挥出来。

这就面临一个问题,能不能有一个新的机制帮助我们把这两大类技术的优势都充分地发挥起来、相对均衡地「互利式地」结合逻辑推理和机器学习呢?反绎学习的提出就是为了解决这个问题。

反绎学习(abductive learning)

反绎学习,是一种将机器学习逻辑推理联系起来的新框架。在理解反绎学习之前,我们先来理解这个反绎的含义。

在人类对现实问题的分析抽象上,通常有两种典型方法论:演绎,从一个普遍的规则开始,到一个有保证的特定结论,这就是一个从一般到特殊的过程;归纳,从一些特定事实开始,然后我们从特定的事实中总结出一般的规律,这就是从特殊到一般。定理证明可以说是演绎的典型代表,而机器学习是归纳的典型代表。反绎则与两者有所区别,其标准定义是首先从一个不完备的观察出发,然后希望得到一个关于某一个我们特别关心的集合的最可能的解释。

周志华说他提出的反绎学习可大致理解为将演绎过程反过来嵌入到归纳过程中去,所以他提出 「反绎」 这个中文名字,而不是直接翻译为 「诱导」或「溯因」。

现在返回来看传统的监督学习监督学习首先需要有很多示例以及标签,将它们结合起来进行监督学习,训练出一个分类器。

反绎学习的设置不太一样,反绎学习中假设有一个知识库,以及一个初始分类器。

在这个学习中,我们先把所有的数据提供给这个初始分类器,初始分类器猜测一个结果,得到结果之后就会把它转化成一个知识推理系统能够接受的符号表示。

那么接下来这一步,我们就要根据知识库里面的知识来发现有没有什么东西是不一致的?如果有不一致,我们能不能找到某一个东西,一旦修改之后它就能变成一致?或者修改之后使得不一致程度大幅度降低?这就需要我们去找最小的不一致。如下图所示:假设我们现在找到,只要把这个非 C 改成 C,那么你得到的事实就和知识都一致了。我们就把它改过来,这就是红色的这个部分,这就是一个反绎的结果。而反绎出来的这个 C,我们现在会回到原来的标签中,把标签改掉,接下来我们就用修改过的标签和原来的数据一起来训练一个新分类器。这个分类器可以代替掉旧的分类器。这个过程可以不断地迭代下去。这个过程一直到分类器不发生变化,或者我们得到的伪事实和知识库完全一致,这时候就停止了。

从上图可以看到,左半部在进行机器学习,而右半部在进行逻辑推理。机器学习逻辑推理这两者互相依赖,循环处理往复,直到分类器与知识库一致(此时相当于分类器已经 「学到」了知识库中的内容)或者分类器连续数轮不再提升;如果允许对知识库进行修改,还可以使得知识库中的内容可以被精化或更新(这是利用数据经验来改善知识的过程)。

反绎学习不依赖于真实标签,但如果存在有标签数据,它也可以充分利用,例如可以生成更可靠的伪标签等,从这个意义上说,反绎学习可以被视为一种更具一般性的弱监督学习,其监督信息不仅限于标签,还可以是领域知识。

初始分类器可以是预训练好的深度模型或者迁移学习模型,甚至可以很简单,例如基于聚类或最近邻分类的预处理;其基本作用是让整个过程 「启动」 起来。在领域知识丰富可靠时,通过知识的利用可以使得整个过程并不依赖于初始分类器的强度。

知识库目前仍需要人工总结人类经验并写成一阶逻辑规则。今后可能通过学习来对知识库进行改善和提炼。对数据事实与符号知识的联合优化不再能依靠常规的梯度方法,使用了周教授团队自己开发的不依赖梯度计算的零阶优化方法。

周教授还简要介绍了反绎学习应用于司法案件辅助量刑的初步情况。

最后,如果将反绎学习示意图旋转一下,上半部是逻辑推理对应了认知过程,下半部是机器学习对应了感知过程,则反绎学习也为探索认知和感知交互提供了一个框架。

想要了解更多关于「学习 + 推理」内容的你,不妨深入了解一下这个大会,相信你能从中收获满满。

理论周志华
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
周志华人物

周志华分别于1996年6月、1998年6月和2000年12月于 南京大学计算机科学与技术系获学士、硕士和博士学位。主要从事人工智能、机器学习、数据挖掘 等领域的研究工作。主持多项科研课题,出版《机器学习》(2016)与《Ensemble Methods: Foundations and Algorithms》(2012),在一流国际期刊和顶级国际会议发表论文百余篇,被引用三万余次。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

计算学习理论技术

在计算机科学中,计算学习理论(或仅仅是学习理论)是人工智能的一个子领域,致力于研究机器学习算法的设计和分析。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

假设检验技术

假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出适当的推论。

条件独立性技术

在概率论和统计学中,两事件R和B在给定的另一事件Y发生时条件独立,类似于统计独立性,就是指当事件Y发生时,R发生与否和B发生与否就条件概率分布而言是独立的。换句话讲,R和B在给定Y发生时条件独立,当且仅当已知Y发生时,知道R发生与否无助于知道B发生与否,同样知道B发生与否也无助于知道R发生与否。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

流形学习技术

流形学习(manifold learning)是机器学习、模式识别中的一种方法,在维数约简方面具有广泛的应用。它的主要思想是将高维的数据映射到低维,使该低维的数据能够反映原高维数据的某些本质结构特征。流形学习的前提是有一种假设,即某些高维数据,实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中,揭示其本质。

一阶逻辑技术

一阶逻辑是使用于数学、哲学、语言学及计算机科学中的一种形式系统。 过去一百多年,一阶逻辑出现过许多种名称,包括:一阶断言演算、低阶断言演算、量化理论或断言逻辑。一阶逻辑和命题逻辑的不同之处在于,一阶逻辑有使用量化变数。

主动学习技术

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
迁移学习技术

迁移学习 是属于机器学习的一种研究领域。它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。计算机领域的迁移学习和心理学常常提到的学习迁移在概念上有一定关系,但是两个领域在学术上的关系非常有限。

暂无评论
暂无评论~