李海玉、陈虞君作者郝晓茹编辑

循环智能的主动学习(Active Learning)技术探索与实践:减少 80% 标注量

LabelXL:让每一次标注的价值最大化

很多企业通过建立自己的客户联络中心,为客户提供服务、解答疑惑、推介新产品。在企业与客户的沟通过程中,产生了海量的非结构化录音和文本数据。为了让沟通更高效,服务质量更优,客户满意度更强,企业就需要从数据中洞察客户的真实需求、管理和提升业务员的沟通能力。

但由于需要收集分析的数据量急剧增加,从大量数据中手动提取有用的知识变得非常困难和不可能,因此需要利用自然语言处理(NLP)和数据挖掘(Data Mining)技术来帮助企业挖掘和发现有用的知识。

为了让机器快速学习,对沟通数据(电话录音、在线IM沟通记录)进行标注是必不可少的一步。但是,数据标注需要昂贵的人工或各种成本,面对海量的非结构化数据,如何经济又准确地进行标注是一个的棘手问题。

主动学习(Active Learning)被认为是一种非常有效的解决方案:通过使用少量已有标注数据,让机器学习到的模型与标注专家进行高效的交互,选出最有价值和信息量的样本进行标注,能够在达到预设标准的情况下,有效降低模型学习所需要的标注数据量。

主动学习模型的分类

目前各类研究积累了大量的主动学习模型,通常,我们有几种不同的分类标准来划分这些模型。
根据输入数据的方式,主动学习可以分为:
  • 基于流的主动学习,它将未标记的数据一次性全部呈现给一个预测模型,该模型将预测结果(实例的概率值),根据某些评价指标(比如margin)计算评估实例的价值,随后应用主动学习决定是否应该花费一些预算来收集此数据的类标签,以进行后续的训练;
  • 基于池的主动学习,这个通常是离线、反复的过程。这里向主动学习系统提供了大量未标记的数据,在此过程的每个迭代周期,主动学习系统都会选择一个或者多个未标记数据进行标记并用于随后的模型训练,直到预算用尽或者满足某些停止条件为止。此时,如果预测性能足够,就可以将模型合并到最终系统中,该最终系统为模型提供未标记的数据并进行预测。
根据数据选择的角度,又可以分为具有渐进关系的两类:
  • 一是仅基于独立同分布(IID)数据的不确定性进行主动学习,其中选择标准仅取决于针对每个数据自身信息计算的不确定性值;
  • 二是通过进一步考虑实例相关性来进行主动学习,基于数据相关性的不确定性度量标准,利用一些相似性度量来区分数据之间的差异。
这里涉及几种不同的有意义的度量来对未标记数据进行打分排名,包括不确定性、代表性、不一致性、方差和错误率等。每个重要性度量都有一个标准,用于评估哪些数据对于提高分类器性能最重要。例如:
  • 不确定性认为最重要的未标记数据是最接近当前分类边界的数据;
  • 代表性认为可以表示一组新实例(例如一个聚类)的未标记数据更为重要;
  • 不一致性认为在多个不同基准分类器中具有最大预测差异的未标记数据更为重要。
另外,根据采用的分类器,主动学习模型也可以分为不同的类别。一些流行的分类器,包括朴素贝叶斯,k近邻,决策树,多层感知机逻辑回归支持向量机神经网络都有相应的研究。

解决主动学习中类不平衡问题的方法

主动学习无疑是有效的,但最近的一些研究表明主动学习在应用于存在类不平衡问题时往往会失败:大类中的数据所占比例较大,可能会导致模型的训练和预测偏向一个类。之前的一些研究,试图通过使用不同的技术来解决这一问题。
  • Zhu和Hovy [1] 等人尝试在主动学习过程中加入几种采样技术,以控制少数类和多数类中被标记实例数量的平衡,他们提出了一个基于bootstrap的过采样BootOS策略,该策略会基于该样本的所有k个邻居生成一个bootstrap样本。在每次迭代中,选择不确定性最大的数据进行标记并加入到已标记的数据集中。对应用该过采样策略来产生更加平衡的数据集,该数据集用于模型的重新训练。在每次迭代中选择具有最高不确定性的数据进行标记的操作涉及对已标记的数据进行重采样和使用重采样的数据集训练新的分类器,因此,此方法的可扩展性可能是大型数据集所关注的问题。

  • Ertekin [2] 等人提出VIRTUAL,一种过采样和主动学习相结合的方法,它建立了一种对少数群体进行重采样的自适应技术学习者选择最有用的样本进行过采样,然后该算法沿着的k个邻居之一的方向构造一个伪样本。该算法是一个在线算法,且它在构造伪样本后无需在整个标记数据集上重新训练就可以逐步构建分类器。
  • Bloodgood和Shanker [3] 等人利用了代价敏感学习的思想,用于在主动学习过程中处理失衡的数据分布,他们提出一种引入类特定代价的方法,扩展了基于SVM的主动学习的优势,然后利用经过适当调整的代价敏感的SVM,根据基于不确定性的“margin”标准选择数据。
  • Tomanek和Hahn [4] 等人提出了两种基于不一致显著性度量的主动学习方法。
  • Hualong Yu [5] 等人提出了一种基于极限学习机的主动在线加权模型。
但这些算法在很多实际场景中的效果并不尽如人意。首先,由于缺乏真实场景中的数据集,学术中的主动学习方法是针对模拟数据集,而且样本通常是均匀数据集,同时对数据集中待标记的样本进行了强假设;其次,很多主动学习方法忽略了通过主动学习选择样本的重要性,而且在初始训练集的选择上也存在欠缺;第三,真实场景中的数据集噪声更多、也更不平衡,而数据的不平衡性会在很大程度上影响主动学习策略的抽样性能,因此我们需要降低类不平衡性带来的影响。

综合以上分析,可以发现在真实场景中,类不平衡问题在很大程度上会限制主动学习策略在实际业务中的能力。

真实场景的主动学习策略 LabelXL

针对上述问题,循环智能(Recurrent AI)设计并提出了一种,在真实场景的不平衡文本分类任务中,有效的主动学习策略 LabelXL——让每次标注的价值最大化。
主动学习策略 LabelXL 的工作流程

整个主动学习流程为一个闭环,在每一轮的迭代中,已标记的少量数据集用于训练分类模型,然后模型评估每个实例的价值,并选出最有价值和信息量的一些实例交给专家进行标注,然后将新标注的数据加入到已标记数据集中进行更新。然后主动学习重复上述过程,直至满足预设条件为止。

在实际训练时,不同的样本实例对于模型的学习贡献度不同,如果能够选出最有价值和信息量的一部分数据进行标注,那么就有可能仅使用少量的训练数据而获得同样性能的分类模型。因此主动学习的主题,就是为当前模型,选择信息最丰富的未标记实例。主动学习的核心任务就是采样策略的设计,即按照一定的度量准则来选择未标记实例。显然,对未标记实例价值的评估和合理的样本选择策略尤为重要。

考虑到实际业务场景下的真实数据十分复杂,捕捉和分析样本的空间信息比较困难,因此在选择价值度量时,我们优先选择了基于不确定性的度量指标margin,同时为了降低数据类不平衡性的影响,我们对少数类(正例)采用了过采样策略来优化训练。过采样方法能够从数据集发现我们更关注的样本,从而为算法提供足够的数据以输出更准确的结果。在类不平衡问题中,我们通常更关心的是少数类所蕴含和传递的信息。因此对少数类进行过采样,创建数据增强的方法来增加我们更关注类别的样本数量,并进行模型训练。

我们详细对比了使用主动学习策略 LabelXL 与未使用时(随机选取标注样本)的算法性能差异。两个典型的例子,如下:

金融行业客户的语义点“资金困难”,达到预设标准所需的标注量,降低了 80%。
教育行业客户的语义点“六级”,达到预设标准所需的标注量,降低了 65%。
综合来看,在实际业务场景下,应用主动学习策略 LabelXL 可以让每次标注的价值最大化,从而大幅降低达到同样的效果(F1值)所需的标注量。

同时,不同的语义点能降低的标注量比例会有区别。在我们的测试中,大部分语义点应用主动学习策略 LabelXL 可以降低 50% ~ 80% 的标注量。也就是说,生产一个语义点(画像/标签)的速度通常可以提升 2~3 倍。借助 LabelXL 策略,循环智能显著提升了 NLP 技术的规模化落地能力。

参考资料:
  • [1] J. Zhu and E. H. Hovy. Active learning for word sense disambiguation with methods for addressing the class imbalance problem. in Proc. EMNLP-CoNLL, 2007, pp. 783–790.

  • [2] S. Ertekin, J. Huang, and C. L. Giles. Adaptive Resampling with Active Learning. 2009.

  • [3] M. Bloodgood and K. Vijay-Shanker. Taking into account the differences between actively and passively acquired data: The case of active learning with support vector machines for imbalanced datasets. in Proc. Hum. Lang. Technol., 2009, pp. 137–140.

  • [4] K. Tomanek and U. Hahn. Reducing class imbalance during active learning for named entity annotation. in Proc. 5th Int. Conf. Knowl. Capture, 2009, pp. 105–112.

  • [5] H. Yu, X. Yang, S. Zheng, and C. Sun. Active Learning From Imbalanced Data: A Solution of Online Weighted Extreme Learning Machine. IEEE Trans. Neural Netw., vol. 30, no. 4, pp. 1088-1103, Apr. 2019.

循环智能(Recurrent AI)
循环智能(Recurrent AI)

循环智能是一家企业服务公司,通过机器学习的方法,分析企业与客户之间的语音沟通记录、文本沟通。公司的主产品是基于对话数据的 AI 销售中台。

https://www.rcrai.com/
产业Active learning自然语言处理循环智能主动学习
5
相关数据
重采样技术

重采样是指根据一类象元的信息内插出另一类象元信息的过程。在遥感中,重采样是从高分辨率遥感影像中提取出低分辨率影像的过程。常用的重采样方法有最邻近内插法(nearest neighbor interpolation)、双线性内插法(bilinear interpolation)和三次卷积法内插(cubic convolution interpolation)。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

多层感知机技术

感知机(Perceptron)一般只有一个输入层与一个输出层,导致了学习能力有限而只能解决线性可分问题。多层感知机(Multilayer Perceptron)是一类前馈(人工)神经网络及感知机的延伸,它至少由三层功能神经元(functional neuron)组成(输入层,隐层,输出层),每层神经元与下一层神经元全互连,神经元之间不存在同层连接或跨层连接,其中隐层或隐含层(hidden layer)介于输入层与输出层之间的,主要通过非线性的函数复合对信号进行逐步加工,特征提取以及表示学习。多层感知机的强大学习能力在于,虽然训练数据没有指明每层的功能,但网络的层数、每层的神经元的个数、神经元的激活函数均为可调且由模型选择预先决定,学习算法只需通过模型训练决定网络参数(连接权重与阈值),即可最好地实现对于目标函数的近似,故也被称为函数的泛逼近器(universal function approximator)。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

朴素贝叶斯技术

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

独立同分布技术

在概率论与统计学中,独立同分布(缩写为IID)是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。一组随机变量独立同分布并不意味着它们的样本空间中每个事件发生概率都相同。例如,投掷非均匀骰子得到的结果序列是独立同分布的,但掷出每个面朝上的概率并不相同。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

极限学习机技术

传统的前馈神经网络采用梯度下降的迭代算法去挑战权重参数,这有着明显的缺陷:①学习速度缓慢,从而系统计算时间增多;②学习率难以确定且易陷入局部最小值;③易出血过度训练,引起泛化(generalization)性能下降。这些缺陷成为制约使用迭代算法的前馈神经网络的应用瓶颈。针对这些问题,极限学习机算法应运而生。

主动学习技术

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

F1值技术

为了能够评价不同算法的优劣,在Precision和Recall的基础上提出了F1值的概念,来对Precision和Recall进行整体评价。F1的定义如下: F1值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)

推荐文章
暂无评论
暂无评论~