Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

王晋东作者

系统调研160篇文献,领域泛化首篇综述问世,已被IJCAI 2021接收

在这篇文章中,中国科学院大学计算机应用技术博士、微软亚洲研究院研究员王晋东介绍了 DG(领域泛化)领域的第一篇综述论文。
领域泛化 (Domain Generalization, DG) 是近几年非常热门的一个研究方向。它研究的问题是从若干个具有不同数据分布的数据集(领域)中学习一个泛化能力强的模型,以便在未知 (Unseen) 的测试集上取得较好的效果。

本文介绍 DG 领域的第一篇综述文章《Generalizing to Unseen Domains: A Survey on Domain Generalization》。该论文一共调研了 160 篇文献,其中直接与领域泛化相关的有 90 篇。文章从问题定义、理论分析、方法总结、数据集和应用介绍、未来研究方向等几大方面对领域泛化问题进行了详细的概括和总结。

该论文的精简版已被国际人工智能顶会 IJCAI-21 录用。

  • 文章链接:https://arxiv.org/abs/2103.03097

  • PDF:https://arxiv.org/pdf/2103.03097

  • 作者单位:微软亚洲研究院、中央财经大学


问题定义

领域泛化问题与领域自适应 (Domain Adaptation,DA) 最大的不同:DA 在训练中,源域和目标域数据均能访问(无监督 DA 中则只有无标记的目标域数据);而在 DG 问题中,我们只能访问若干个用于训练的源域数据,测试数据是不能访问的。毫无疑问,DG 是比 DA 更具有挑战性和实用性的场景:毕竟我们都喜欢「一次训练、到处应用」的足够泛化的机器学习模型。

例如,在下图中,DA 问题假定训练集和测试集都可以在训练过程中被访问,而 DG 问题中则只有训练集。

DG 问题的示意图如下所示,其形式化定义如下:

DG 不仅与 DA 问题有相似之处,其与多任务学习迁移学习元学习、终身学习等,都有一些类似和差异之处。我们在下表中对它们的差异进行了总结。

理论

我们从 Domain adaptation 理论出发,分析影响不同领域学习结果的因素,如 -divergence、-divergence 等,继而过渡到领域 Domain generalization 问题中,分析影响模型泛化到新领域的因素。从理论上总结了领域泛化问题的重要结果,为今后进行相关研究指明了理论方向。

详细结果请参考原文第 3 部分。

方法

领域泛化方法是我们的核心。我们将已有的领域泛化方法按照数据操作、表征学习、学习策略分为三大方面,如下图所示。

其中:
  1. 数据操作,指的是通过对数据的增强和变化使训练数据得到增强。这一类包括数据增强和数据生成两大部分。

  2. 表征学习,指的是学习领域不变特征 (Domain-invariant representation learning) 以使得模型对不同领域都能进行很好地适配。领域不变特征学习方面主要包括四大部分:核方法、显式特征对齐、领域对抗训练、以及不变风险最小化(Invariant Risk Minimiation, IRM)。特征解耦与领域不变特征学习的目标一致、但学习方法不一致,我们将其单独作为一大类进行介绍。

  3. 习策略,指的是将机器学习中成熟的学习模式引入多领域训练中使得模型泛化性更强。这一部分主要包括基于集成学习和元学习的方法。同时,我们还会介绍其他方法,例如自监督方法在领域泛化中的应用。

在文章中,我们对每大类方法都进行了详细地介绍与总结。

应用与数据集

领域泛化问题在众多领域都得到了广泛应用。大多数已有工作偏重于设计更好的 DG 方法,因此,其往往都在图像分类数据上进行评估。除此之外,DG 方法还被应用于行人再识别(Re-ID)、语义分割、街景识别、视频理解等计算机视觉的主流任务中。

特别地,DG 方法被广泛应用于健康医疗领域,例如帕金森病识别、组织分割、X 光胸片识别、以及震颤检测等。

自然语言处理领域,DG 被用于情感分析、语义分割、网页分类等应用。

DG 也在强化学习、自动控制、故障检测、语音检测、物理学、脑机接口等领域中得到了广泛应用。

下图展示了领域泛化问题中流行的标准数据集。

未来挑战

我们对 DG 进行以下展望:

  • 连续领域泛化:一个系统应具有连续进行泛化和适配的能力,目前只是离线状态的一次应用。

  • 新类别的领域泛化:目前我们假定所有的领域具有相同的类别,未来需要扩展到不同类别中、乃至新类别中。

  • 可解释的领域泛化:尽管基于解耦的方法在可解释性上取得了进步,但是,其他大类的方法的可解释性仍然不强。未来需要对它们的可解释性进行进一步研究。

  • 大规模预训练与领域泛化:众所周知,大规模预训练(如 BERT)已成为主流,那么在不同问题的在规模预训练中,我们如何利用 DG 方法来进一步提高这些预训练模型的泛化能力?

  • 领域泛化的评价:尽管有工作在经验上说明已有的领域泛化方法的效果并没有大大领先于经验风险最小化,但其只是基于最简单的分类任务。我们认为 DG 需要在特定的评测,例如行人再识别中才能最大限度地发挥其作用。未来,我们需要找到更适合 DG 问题的应用场景。


理论IJCAI王晋东领域泛化
1
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

多任务学习技术

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~