阿里的AI安全武功秘籍:迁移+元学习开路,小样本数据能用跨模态

12月8日,AI 与安全研讨会在清华大学召开。在研讨会上,阿里巴巴分享了阿里在安全 AI 技术方面的经验和实践。

当前,随着深度学习技术突飞猛进的发展,AI 已经被广泛应用于各个场景中,例如我们的日常生活、工业生产等多个领域,包括自动驾驶、安防、医疗、金融等关键领域。但随着应用领域的不断扩展,深度学习的缺陷也逐渐被人发现,例如可解释性、安全性、可靠性和泛化能力等不断受到质疑,进而引发了人们对其整体安全性的担忧,导致 AI 安全也逐渐受到学界、业界和社区的广泛关注。因此,提升 AI 的安全性,打造更安全的 AI 系统成为下一阶段关键领域应用的重要课题。

在本次研讨会上,阿里分享了 AI 在安全领域中的应用,以及对 AI 安全性的理解和实践。机器之心同时对阿里安全图灵实验室负责人薛晖进行了采访,了解了阿里在提升 AI 安全性方面所做的技术实践。

AI 安全日益重要

AI 的安全性近年来受到业界和学界的关注。提升 AI 安全性成为机器学习,特别是深度学习社区所努力的方向。阿里巴巴基于自身在 AI 和安全领域的业务实践,在去年底提出了安全 AI 的理念,包括两层含义:1)使用 AI 解决安全问题,让安全更加智能;2)提升 AI 自身的 安全性、鲁棒性和泛化性等,让 AI 更强大。

安全 AI 应当具有四个特征:

  1. 能够从小样本、低质量的数据中进行学习;

  2. 在不同的业态和场景中都具有良好的泛化和迁移能力;

  3. 模型可信赖、可解释;

  4. 在对抗攻击下安全和鲁棒。

安全 AI 的第一方面:使用 AI 解决安全问题,让安全更加智能

随着技术的发展和进步,安全领域的场景和问题更加复杂,使用传统技术难以有效应对。如何使用 AI 技术发现并解决安全问题,也是很多企业进行探索和实践的课题。更进一步来说,人工智能的技术力量也具有潜在的破坏性,从网络安全到国防安全,研究 AI 安全问题,也有助于保护我国经济、社会乃至国家安全。

安全 AI 的第二方面:提升 AI 自身的 安全性、鲁棒性和泛化性等,让 AI 更强大

另一方面,由于处于当前发展阶段的 AI 无法满足上述安全 AI 的四个特征,导致它无法被应用于在一些关键应用领域,例如辅助医疗的诊断结果、自动驾驶的控制指令等都必须给出可解释性的决策规则,让生产方和使用方能够清楚的了解判断依据,但目前的深度学习模型的黑盒性还无法做到这一点,因此安全性成为制约 AI 扩大应用范围的一个主要障碍。

安全场景中的 AI 风控大脑

阿里已经将 AI 应用于各类安全场景中。本次研讨会期间,机器之心也了解到了阿里在一些场景中的实际应用。

根据资料,阿里目前已建成了安全场景下的 AI 风控大脑,通过整体系统,在各个业务层面应用 AI,帮助解决各类安全问题,包括知识产权保护、原创保护、内容安全等方面。

知识产权保护

淘宝等平台上的制假贩假等侵害知识产权的行为非常频繁。为了应对这些问题,阿里研发了「知产保护科技大脑」,通过各类手段打击这些行为。

「阿里知产保护科技大脑」积累了阿里近 20 年的打假特征库,是经由业务平台打假经验聚合而成的算法技术系统。在实际运行中,当商家上传假冒产品后,系统对其进行识别(如商标等信息),从而发现售假行为。

阿里知产保护科技大脑全景。

商品理解和分析技术是知产保护科技大脑中的一个重要组成模块,其中对于商品之间的相似度度量则非常关键。阿里巴巴原创保护平台提供对商品图像、设计创意和短视频等多个数字载体的版权保护服务,所使用的核心技术包括同源图检索、商品同款检索、视频指纹和超大规模检索系统等。

例如在商品设计创意保护中,除了对完全相同款式的商品进行检索之外,阿里还研究了基于局部属性相似度的商品检索技术,以提供更全面的创意版权保护服务。

研究商品属性,并进行相似度度量。

另外针对商品信息的多种模态信息载体,阿里也在跨/多模态分析和检索技术上进行了持续研究,例如将不同模态特征映射到公共空间进行相似度度量。

使用统一框架学习图像、视频和文本的公共空间表征,可直接用于计算不同模态数据之间的相似度度量。

随着打击力度的逐渐升级,售假商家也逐渐改变策略进行对抗。例如,从提供假冒商品商标到仅展示商品。从提供完整的商品描述到留下直播链接,从直播中进行商品展示和售卖。面对迭代更新的对抗策略,知产保护大脑也随之升级,通过多模态数据输入(如视频、图像和商品评论文本)和升级后的图像识别算法,对售假行为进行更精准的检测。

最终,面对不断更换店铺「马甲」,假冒商品数量倍增的趋势,阿里知产保护大脑还升级了更多技术手段,采用商品品类信息结合价格,或知识图谱结合多维数据分析商家资质链路的形式,防御新的售假策略。

研讨会上,阿里公布了这样一组数据:目前阿里已做到淘宝平台上 96% 的假货识别和处理。同时,有 96% 的假货商品在上架前就被发现和拦截,足以见得阿里知产保护大脑的能力。

其他安全领域应用

除了知识产权保护领域外,阿里在多个安全场景中使用了 AI 技术。包括原创保护、内容安全和新零售等。

在原创保护方面,阿里使用智能水印等技术,保护原创图片不被剽窃和盗用。同时,智能水印还可进行追踪溯源,在防止机密泄露等方面发挥作用。

在内容安全方面,阿里采用计算机视觉和自然语言处理算法,对违法违规内容进行过滤,保障互联网环境。

在新零售方面,阿里使用目标检测算法等,对货架、商品、人员等进行识别和管理。在盗窃行为发生时能够及时预警。

阿里除了 AI 应用于各类安全场景中之外,也努力使用各种技术提升 AI 安全性,从算法和数据等多个方面采用技术手段进行了多种方法的实践。

怎样提升 AI 安全性:阿里的实践

针对安全 AI 应当具备的四个特征,薛晖谈到了阿里在算法和数据层面的工作,介绍了阿里打造安全 AI 的技术手段。

针对低质量小样本扩充数据

在一些业务场景中,数据样本数量少、难以获得,或获得的数据质量较差。因此,需要采取多种手段帮助 AI 进行学习,包括传统的数据增强、对抗样本生成等方法。

其中数据增强是指通过生成数据方式来补充原始数据不足的问题。以人脸识别为例,假设已有大量正脸数据,而现在的场景需要进行人类侧脸的识别时,可以通过 3D 模型结合原始图像的方式,进行侧脸数据的生成。

此外,还有对原始数据进行风格迁移、背景替换等方式,能够弥补数据不足的问题。据悉,在一些人体识别的场景中,使用一些策略生成数据,带来的效果比较好。除了生成特定数据外,阿里也采用了流行的对抗样本生成方法,让模型通过对抗样本提升性能和鲁棒性,如使用一些策略生成对抗文本,帮助模型学习和检测非法词汇。

采用生成对抗样本的方式,扩充数据并提升模型鲁棒性。

当然,如果在实在无法获得更多数据的情况下,采用跨模态多维度分析的方法也可以提升模型的性能。在采访中,机器之心询问了薛晖关于如何对堆砌多种商品名词的商品文本进行分类的技术。例如,某商品实际为「高压锅」,但商家为了提升被搜索到商品的概率,将淘宝商品命名为:「电压力锅高压锅电饭煲煮锅」。这样的命名方式被称为「堆砌」,会导致用户浪费时间搜索和浏览无意义的商品。

为了解决这一问题,阿里在处理商品名称上会采用多维度的方法。例如,判断该商品的类别时,不仅仅输入商品名称,而是加入多种数据和维度进行分析,包括商品的图片、详细描述,甚至是评论等信息。通过多种维度,能够更精准的判断该商品的实际类别和属性,从而去除堆砌词语。

广泛使用迁移学习

迁移学习近来取得了很多成果。从通用图像表征到自然语言处理,预训练模型已成为解决一些任务的有效方法。在阿里的实践中,很多任务都可以采用迁移学习来解决。一方面,模型可以在小样本、低质量数据的条件下进行学习,同时还能够利用迁移学习的能力,使模型具有一定的泛化能力。

而利用迁移学习的过程中,如何判断某一模型是否适合迁移到另一场景时所使用的测评标注非常重要。举例说明,某个在淘宝上表现较好的图像分类模型,如果要应用于优酷视频的分类时,在分类类别一致但数据的领域不一致的情况下,研究者会首先尝试使用优酷的数据,观察有少量数据的情况下模型的性能表现(根据任务类型选择评测指标,例如 top-5 准确率等)。然后,再观察使用不同的数据和多种迁移策略下的综合表现,最终判断迁移是否成功。

另外,除了迁移学习外,阿里也关注能否将多个任务合并的问题,对应该问题研究者会关注「遗忘率」这样一个指标。遗忘率指的是模型在新任务上精度达到要求后,在原始任务上精度的下降程度。如果迁移后依然保持原始任务上的精度,则说明可以使用一套通用的模型同时完成两个任务的学习。

现在,阿里已有非常丰富的业务形态,如文娱、社交等。当面对复杂的多对多的模型迁移时,评估则可能是更加多维度的,甚至需要使用矩阵表示不同任务上模型迁移后的性能表现。这可能需要更加系统的分析工作。

逐渐引入元学习

元学习的兴起,也推动了用算法去解决小样本学习问题。考虑到当不同任务之间的空间不同,迁移学习并不一定总是有效,因此阿里已对元学习进行研究并尝试解决安全 AI 中的一些问题。

和一般的机器学习不同,元学习不是指用模型来学习某个特定任务中的特定数据,而是学习一种「学习的过程」,简而言之是学习一种方法论。具体而言,对元学习分类器,可输入一部分数据,但目标是让学习到的模型能够用来预测未见的另一部分数据。通过这样的方法,使模型根据已学习到的数据的特征预测未见数据。

因为元学习模型对未见数据具有推理能力,因此阿里目前在业务层面多采用「迁移学习+元学习」的方式应用算法——首先采用迁移学习,在大量的任务上训练得到一个泛化性能较好的通用模型,随后结合元学习,使其具有应对未知任务的能力。

提升模型可解释性

可解释性是安全 AI 必须面对的一个问题。不透明、无法解释的「黑盒」模型必然会降低人们对推理结果的信赖程度。更重要的是,如果不清楚模型决策的原理,就无法对其进行干预,实现更好地提升其性能。

在提升 AI 可解释性方面,阿里有自己的一套办法。提升模型的可解释性在薛晖看来首先在于提升数据的可解释性。因此在输入模型之前,研究者会首先对数据的分布进行判断,并挑选特定的样本。

通过对敏感词的分析,捕获模型在分类过程中的关注点,拟合模型的决策边界,使其具有可解释性。

其次就是模型的可视化工作。研究者会打开模型的黑盒结构,对如神经网络中的每个神经元进行研究,观察它们所「看到」的特征。这一过程可使用可视化方法,例如对一张被判断为猫的图像进行研究,观察图像的哪些部分被激活,从而给「猫」这一分类带来了强增益。这样使得研究者在观察被误分类的图像时发现哪些特征会导致模型将图像分类错误,从而进行调整和改进。

当然,在提升模型可解释性方面,更重要的可能是需要具有可解释性的训练框架。此外,目前的场景中如果真正需要强可解释性,可能需要的是依然是模型和规则的结合。

综上所述,AI 与安全是一个永恒的话题。安全领域需要 AI 的介入和协助,从阿里的在知识产权保护等一系列场景中的实际可以说明,AI 在安全领域有很大的应用空间。而另一方面,在 AI 逐渐深入日常生产生活的过程中,阿里也一直在致力于提升安全性,确保 AI 性能稳定,决策渐渐变得透明。

产业AI安全阿里巴巴
21
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
相关技术
小样本学习技术

人类非常擅长通过极少量的样本识别一个新物体,比如小孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”。在人类的快速学习能力的启发下,研究人员希望机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习,这就是 Few-shot Learning 要解决的问题。

推荐文章
想求一下第二张图片——研究商品属性,并进行相似度度量 所对应的文章是?