Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

筛选风险词、用实体类型推断发现限售商品,阿里安全夺冠知识图谱大赛

最近,阿里安全一线风控发现,在禁售的风险防控库里,有人试图「上新」新品种,借助在社交媒体上走红的「魔法改运」等说辞,引入玄学骗局。这种安全风险如何防范呢?他们给出了答案。

对于阿里安全等风控部门来说,尽量提前发现风险问题,提早布防他们的日常工作。但是,风险对抗不断升级,各类风险词不断变异试图躲避各家平台管控,如果单靠人力防控,只会是杯水车薪。

针对类似具有行业共性的风险治理难题,业界和学界推动以技术创新探索网络风险治理。今年中国中文信息学会语言与知识计算专业委员会主办了「CCKS 2021 通用百科知识图谱实体类型推断」比赛,邀请国内 283 支队伍参赛。

12 月 25 日,比赛结果出炉,阿里安全升级包含封建迷信、软色情、野生动植物保护、血腥暴力等重难点风险治理域在内的 AI 技术,并获得第一名

CCKS 2021 通用百科知识图谱实体类型推断竞赛获奖情况。

任务介绍

通用百科知识图谱实体类型推断任务围绕通用百科知识图谱构建中的实体类型推断展开,评测从实体百科页面出发,从给定的数据中推断相关实体的类型。数据示例如下:


任务涉及的类型包括组织机构、人物、作品、位置等多个领域,54 种实体类型。实体类型之间具有层级关系。标签体系如下:



实体类型推断任务指的是指通过上述实体的信息,对实体进行分类,上面示例中的卡米尔陨坑,其对应的标签是『位置_自然景观』。

任务难点

与目前主流的学术评测不同,本次任务提供的 60 万 训练数据,全部没有标签。这样的比赛设定更贴近于实际的工程场景,因此对参赛选手解决问题能力有着更高的要求。

此外,实体类型更加丰富,不同领域下包括多个具体的实体类型,整体任务包括几十个实体类型。某些实体可能只属于一个实体类型,某些实体可能属于多个实体类型,因此更加增添了任务的难度。比如「刘德华」既属于「歌手」类型,又属于「演员」类型;「知识图谱概念与技术」就只属于「书籍」类型。

阿里安全的解决方案

数据处理

由于训练数据没有标签的特性,如何利用最小的成本给训练数据打上标签,则成为了整个方案最重要的一环。本次评测,阿里安全采用了多种低成本的方案,对数据进行打标

一方面是弱监督。通过外部高置信度的数据,训练模型,回标训练集。使用到的外部数据有维基百科、CN-DBpedia。其中,维基百科中的实体都是带有实体标签的,比如通过的标签映射中国男歌手即「人物 > 文艺工作者 > 歌手」, 即可得到外部的歌手数据。

通过此种方法,得到的外部数据共计 30 万条。给定树状结构标签,广度优先 + 剪枝进行递归遍历,获取每个子类别。利用类似的方法,在 CN-DBpedia 中得到数据 70 万条。

另一方面是基于句法分析标签抽取。通过分析训练数据,基于统计结果,大部分实体的首句,都包含了实体类型。基于 LTP 依存句法分析和语义角色标注的事件三元组抽取,可抽取出 (海贼王, 是, 漫画)。通过此部分逻辑,可给 Train 打标 20 万条数据。


模型

基准

实体类型推断任务,本质上是一个文本的多分类任务,因此在模型的选择上,采用了预训练模型 + finetune 的方式作为基准(baseline)


特征选择

需要分类的实体,本身包含名称、正文内容、多个属性对和关键词等特征。为了挑选出最佳的特征组合,阿里安全进行多组对照试验,最终得出结论:输入为「实体名 + 数据源 + 摘要 + 属性名 + 关键词」效果最好

预训练模型

阿里安全尝试了多种预训练模型,其中 Roberta-large 效果最好。

层级损失

越细粒度的类别,父子标签所占的比重应该是不一样的。例如,如果选择了子标签,那么较粗的粒度肯定要选择父标签,而传统的损失函数在优化时,就是将它们平等对待的。因此,引入了层次分类最常用的几种损失,有效地解决了上述问题,并选用层级损失(Hierarchy loss)作为最终方案。

层级标签示意图

模型数据相互迭代优化方案

该方案类似于强化学习的思想,模型和数据相互正向优化,直至收敛。以游戏为例,通常会出现游戏类型这样的 schema 字段,反之,若一个实体若出现游戏类型,则大概率是游戏。类似游戏类型这样的 schema 或 keyword,称之为「必杀」特征。这种方式类似漏斗,可以通过必杀属性,进而过滤出具体类别的实体,如下图所示:

必杀属性示意图

基于第一部分生成的 train,构建了一套自动生成「必杀」特征的逻辑,如下(1)对所有标签为游戏的数据进行统计,生成如下统计结果:

  • 游戏类型 310 次

  • 发行厂商 320 次

  • 中文名 2000 次


以及(2)统计每个特征在其它类型中出现次数;(3)用在本类中出现的次数 / 其它类出现的次数,即为该特征的「必杀」特征。

必杀属性计算样例

利用分值大于 6 的「必杀」特征,重新打标数据。除了「必杀」属性之外,阿里安全基于「模式匹配法」统计相同属性出现的频率。一方面,可以过滤掉低频属性,另一方面,基于假设:待验证实体的属性与 M 类属性共现的次数远远大于 N 类属性共现次数,可以判断该实体属于 M 类。用这种方法纠正了错误实体分类,如下图所示:


整体迭代的过程如下:

模式匹配法示意图

应用场景

违规商品检测

各电商平台上每天都会出现各种各样的新产品,当面对新型商品时,如何判断其是否属于违规的商品类型则成为了一个非常重要的事情。当出现以一个新的商品种类的时候,实体类型推断模块可以借助商品的描述信息,对此品类的商品进行类型推断,从而自动发现一些新的禁限售商品,从而提升违规商品的防控水位。

因此,实体类型推断在知识图谱中具有非常重要的价值,因此该任务也一直是研究的热点。而在实际应用场景中,新实体往往不会有百科那样多的文本特征使用,因此如何利用有限的数据资源,训练出更准确的实体类型推断系统则成为了一个非常有挑战的问题。

随着近期 prompt 方式的飞速发展,小样本甚至零样本的分类方法的效果都得到了大幅度的提高。但是在目前工业界主流的应用场景,还是强依赖于标注数据的高成本运作方式。未来,希望可以出现一套低成本且快速的范式,有效解决目前实体类型推断的难题。
工程知识图谱阿里安全
相关数据
模式匹配技术

在计算机科学中,模式匹配就是检查特定序列的标记是否存在某种模式的组成部分。 与模式识别相比,匹配通常必须是精确的。 模式通常具有序列或树结构的形式。 模式匹配的使用包括输出令牌序列内的模式的位置(如果有的话),输出匹配模式的某个分量,以及用另一个令牌序列(即搜索和替换)替换匹配模式。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

依存句法分析技术

依存句法分析的过程是分析句子的语法结构,建立“头”单词和修改这“头”单词的单词之间的关系。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~