阿里安全「启发式领域适应」成果入选NIPS2020,新一代算法「鉴黄师」诞生

导语:来自阿里安全图灵实验室和中科院计算所的研究人员将经典的「启发式搜索」思想融入到领域适应问题中,以解决数据不充分情况下的模型训练问题,进而将人工智能从现有数据学习到的知识迁移到未知场景中。比如,在鉴黄场景下,目前该研究提出的技术可直接从电商场景迁移至直播场景。

相关论文《启发式领域适应》(Heuristic Domain Adaptation)已被人工智能领域顶级会议NeurIPS 2020(神经信息处理系统大会)接收。

深度学习为代表的现代人工智能技术,已成为安全智能化的重要组成部分。高精度的深度学习模型通常需要大量经过准确标注的训练样本,且训练样本与真实样本满足独立同分布条件。

而安全场景具备两个典型特点:一是在很多场景下,风险或者违规样本的收集成本比较高,二是业务存在对抗和变异,其真实样本分布随着时间不断演变。因此,安全新基建需要利用小样本、迁移学习增量学习技术来解决数据不充分情况下的模型训练,和数据变异情况下的模型迭代问题。

内容安全治理面临着多用户多场景问题,单一模型无法同时在多个场景中达到最优效果,因此高效解决不同图片域、风险域的识别问题成为目前内容安全的主要问题之一。

研究者认为,在经典的DAN以及DANN方法中,直接对齐也会在高维空间产生「障碍物」,从而影响最终收敛效果。

「启发式」领域适应

该研究采取的技术方案借鉴了经典的启发式搜索思想,强调在完成任务、识别具体物体的过程中,应额外对环境场景等无关因素进行建模。在相对固定的环境与场景中,环境特征H(x) 并不难建模。估计的环境信息实际上相当于启发式信息,可以指导用于商品识别的特征G(x)。同时估计的环境信息不要过多,也就是H(x) 的范围不应过大,否则过多建模的环境信息容易影响商品类别信息的建模。

在具体的实现中,阿里安全和中科院的研究者分析了环境特征H(x) 和商品特征G(x) 之间的相似性、独立性和终止条件。

关于相似性,他们强调环境和商品特征应该有所区分,但同时还应关注易混淆的特征。所以,相似性分析最终得到初始时相似度的约束,而放弃其全部训练过程的约束。考虑到环境应该是领域不变而不同商品变化,两者的特征应该具有独立性,并可通过其高斯性度量来约束。

启发式搜索中,距离终点的距离呈现整体下降的趋势,相应的估计距离也逐渐减少。类似地,在启发式搜索中将启发式特征H(x) 的范围缩小到接近零的约束。

基于以上条件构建出启发式网络的基础网络结构(HDAN),并从理论和实验两方面分析该方法的正确性。

该研究证明,在启发式指导下,理论上可以实现更低的误差上限。

网络结构方面,相比于DAN,研究者新增Heuristic Network来对H(x) 函数进行构造;

通过不同初始化分组来构建多条H(x) 通路。

优化函数方面,对于H(x) 分支的训练进行初始态和收敛态约束。

研究者将HDAN应用在具体的三个领域适应场景中:无监督领域适应(UDA)、半监督领域适应(SSDA)和多源域领域适应(MSDA),并取得了SOTA结果。

效果与应用

论文一作崔书豪举例说,与电商场景不同,直播场景不仅有主播等人物,还常常有桌椅家具等繁杂的物品背景,这些差异会导致电商场景下的搜索识别技术迁移应用效果不佳。通过将「启发式搜索」思想融入,研究团队构建了启发式领域适用的基础架构,并通过相似性、独立性、终止点等角度进行约束,使算法模型在相同计算量下,达到最佳效果。

论文共同作者王树徽介绍道:「针对复杂任务和场景,迁移学习的鲁棒性(稳定性)与可扩展性主要体现为如何更好地提取领域不变特征。相比以前的研究,本研究所提方法能够更好地实现复杂迁移学习任务的域不变特征学习,提高了多种迁移设定下的泛化性能。」目前,该成果主要用于内容安全识别,如直播或动漫人物及速写场景是否涉黄等。阿里安全新一代安全架构核心技术入选AI顶会NeurIPS,该成果主要用于鉴黄等内容安全场景,目前该研究成果技术可直接从电商鉴黄场景迁移至其他场景。

「AI技术应用在不同的场景下可能有着同样的任务目标,但如何更好地将AI在某一场景下习得的知识用于不同场景,是『领域适应』致力于解决的问题。」阿里安全图灵实验室高级安全专家华棠介绍说,人们对能够实现领域适应的AI需求越来越大,如安全领域的暴恐识别、不良场景鉴定(如区分成年人和未成年人吸烟)等。

消费者每天面对的信息流越来越多,其中不乏有害信息,这会严重侵扰网络环境的健康发展,内容识别与审核角色的重要性因此凸显。阿里安全图灵实验室负责人薛晖表示,阿里安全通过研发,将内容识别技术产品化,形成云盾内容安全(绿网)解决方案,并将其深入到直播审核等领域。

「以深度学习等为代表的人工智能技术,已成为当前安全智能化的重要组成。」华棠表示,风险或违规样本收集成本较高、业务存在对抗和变异等特点,使得深度学习模型无以为继,因此研究探索基于小样本和增量学习技术的模型训练与迭代,变得非常重要。

薛晖透露,目前阿里正围绕诸多生活中的内容安全审查需求,研发智能化审查一体的内容识别技术。

作者简介

本文第一作者是阿里安全的实习算法工程师崔书豪。2018年本科毕业于清华大学自动化系,现在是中科院计算所VIPL实验室三年级硕士生,研究方向主要为深度领域适应学习技术,提交的相关两篇论文为CVPR收录。其指导老师为中科院计算所研究员王树徽,长期从事跨模态、跨域分析推理技术研究。论文合作方为阿里安全图灵实验室,围绕生活中的诸多内容进行安全审查,力求实现智能化自动化过程。

产业阿里安全NIPS2020
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

增量学习技术

增量学习作为机器学习的一种方法,现阶段得到广泛的关注。对于满足以下条件的学习方法可以定义为增量学习方法: * 可以学习新的信息中的有用信息 * 不需要访问已经用于训练分类器的原始数据 * 对已经学习的知识具有记忆功能 * 在面对新数据中包含的新类别时,可以有效地进行处理

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

SSD技术

一种计算机视觉模型。论文发表于 2015 年(Wei Liu et al.)

启发式搜索技术

计算机科学的两大基础目标,就是发现可证明其运行效率良好且可得最佳解或次佳解的算法。而启发式算法则试图一次提供一个或全部目标。例如它常能发现很不错的解,但也没办法证明它不会得到较坏的解;它通常可在合理时间解出答案,但也没办法知道它是否每次都可以这样的速度求解。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

独立同分布技术

在概率论与统计学中,独立同分布(缩写为IID)是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。一组随机变量独立同分布并不意味着它们的样本空间中每个事件发生概率都相同。例如,投掷非均匀骰子得到的结果序列是独立同分布的,但掷出每个面朝上的概率并不相同。

推荐文章
暂无评论
暂无评论~