技术解读 | 基于fastText和RNN的语义消歧实战

云脑科技是一家跨越中美两地的人工智能行业平台公司,在深度学习(RNN/CNN)、增强学习、NLP、知识图谱领域均拥有大规模项目成功实践经验。

1.问题的引入

在我们云脑科技最近的一个项目中,需要对文本中提取的实体进行消歧(WSD, Word Sense Disambiguation),即确定某个实体在当前上下文中是我们期望的一个意义。

比如,美国电影《坏女孩》由Myriad Pictures Inc.于2013年出品。讲述雅蕾克丝,一个女同性恋,父母离异,母亲重新找了一个继父,却又早早自杀身亡;父亲也重新找了个继母,继母对她百般刁难。

其中坏女孩、继父、继母、同性恋都是候选的电影作品名。但结合上下文,如何去掉歧义候选,只保留坏女孩,这就是我们需要解决的消歧问题。

2.解决消歧问题的一般思路

2.1 基线算法

机器学习任务一般需要对效果有简单的基线设置,WSD的基线可以用Lesk算法确定。人类在类似WordNet的词汇释义标注语料上的共识大概75%-80%,这可以作为WSD任务的上限参考。

Lesk是一个经典的算法。它的主要思想是:在词典中,常常需要借助若干其它词汇来对一个词进行解释。因此针对一条语料,我们可以选取它与词典中词汇重叠最多的那条释义。如果词典中的解释太过简单,可以把已标注释义的例句也当做释义内容。

2.2 监督学习算法

监督学习算法一般涉及如下步骤:

a.确定词表释义表,eg: 目标词bass, 两个释义:乐器-贝斯、鱼类-鲈鱼;

b.获取训练语料:google、crawl;

c.特征提取:一般先设定一个窗口(window),只关心这个窗口内的词。常用的两种提取:窗口内每一个位置的词汇、相对位置、词性;以及忽略位置和词性的词袋表示,即词典内词的出现计数;

d.分类器选择朴素贝叶斯逻辑回归、SVM、KNN、神经网络

2.3 半监督学习算法

如果对于目标问题没有足够的标注语料,如何启动呢?

一般可以从少量的手动标注启动,按照同一共现释义相同进行标注扩展,例如:bass的鲈鱼解释一般与fish共现;乐器贝斯解释一般与play共现。因此可以标注所有<fish, bass> 和 <play, bass>的语句。

还可以按照同一文章释义相同进行标注扩展,例如利用共现词标注了某个句子,那么可以确定这个文章中其他的目标词的同释义标注。

3.fastText和RNN的组合消歧方法

3.1 选型思路

在本文的应用场景下,我们对于词汇的候选释义集合是固定的。比如候选词坏女孩来说,我们并不关心它的实际解释,只关心它在当前语境中是否代表一个电影名。

因此,与上述一般化的消歧思路不同,我们可以先把问题转化成一个语境分类问题。fastText在这种近乎端到端的文本分类问题上有非常不错的效果,模型尺寸较小而且训练速度也很快。在fastText分类器对候选词的上下文进行领域分类后,基本能够排除掉大部分的非目标领域候选,比如示例语句中的继父/继母/同性恋等等。

但是在拿到最终的目标词提取结果后,发现还有一些电影语境中的其他歧义候选词。比如美国电影《坏女孩》这个例句,能够通过电影领域上下文分类,但是候选词中有电影,没错,电影也是一个影片的候选词。因此,我们还需要更精细化的消歧处理。因此,我们在此处引入了基于RNN的序列标注算法,在确定语境范围后,进一步在语境内标注合理的出现位置。

3.2 fastText语境分类

训练语料

我们的训练语料是来自一些公开网站的影视信息和资讯信息,利用中文标点进行了语句切分。由于我们的语料中绝大多数的作品名是由书名号扩起的,可以利用这一点将语句进一步标注为包含领域关键词的短句。

特征处理

为了简化处理,直接将原始语句做了bigram切分。此时我们去掉了语料中的书名号,因为语料的标注是用书名号这种强规则来标注的,因此模型很可能只学到书名号这个特征。并且在做中文bigram切分时,非中文的数字/英文单词也需要作为一个整体处理。

训练模型

利用官方的源码编译二进制工具进行训练,以下是训练调参过程中的一些小tips。

a.使用epoch参数来更好的拟合训练集;

b.使用wordGram参数,让fastText学习到连续的切分嵌入,弥补分词不足和语序的缺失,但是模型大小会飞速增长,我只用到了wordGram=3;

c.使用minCount参数对词表词频进行过滤,避免词表过于庞大。以我们的语料为例,过滤效果是词表从75w减少到7w,我选取的minCount=5;

d.使用quantize命令压缩最终的模型,尺寸会小很多,本例中是300m到7.5m;

e.使用test命令进行验证集验证时,会发现准确P和召回R是相等的,这是因为fastText把分类问题都当做多分类来处理,不会输出针对每个分类的PR,最终会用所有分类的PR进行某种平均。因此需要手动编写一个基于predict命令的验证过程;

f.注意语料的设计,起初只用了电影语料的作品句子和非作品句子,结果发现在普通文本上的表现并不好。因此又加入了一部分的社会新闻语料,让模型能有更好的泛化效果。

3.3 RNN序列标注

训练语料

语料部分还是采用了fastText相同的规则,利用书名号这种强特征标注了作品名部分。由于序列标注的分类不平衡问题非常明显,因此决定用RNN的序列标注作为fastText的一个补充,训练语料中没有添加不含作品名的语句。

特征处理

直接采用字符级别的切分,同时和fastText一样去掉了书名号,此处将连续的字母和英文单词都做了特殊标签的处理,可谓一切从简。同时将训练语料统一在长度30上,超长的截断,不足的补充[eos]。

训练模型

a.采用多层的双向RNN+softmax分类;

b.引入了dropout进行正则化处理;

c.针对序列标注的类不平衡问题,起初尝试了针对分类配置loss权重的方法,但是权重设置过于主观。最终我们使用了focal loss。Focal Loss的核心思想是样本因为分类难度的不同对损失函数的贡献是不同的。鼓励模型把难分类的分对,而不是进一步优化易分类的效果。

4.小结

最后回顾一下我们在这项任务中的若干做法。

1.消歧问题的基线可以借助贝叶斯、Lesk等简单算法来设计;

2.语料不足时可以采用一些半监督的方法来扩充标注样本,人为总结标注规则;

3.利用fastText做短句分类,确定候选词所在上下文是否是目标领域;

4.利用RNN在短句中做关键信息标注,过滤掉领域上下文中非关键信息的候选;

5.利用focal loss改善序列标注中的类别不均衡问题,提升模型的召回表现。

欢迎探讨。

作者介绍

Amow,云脑科技机器学习算法工程师,负责开发NLP方向的基础服务。

云脑科技
云脑科技

云脑科技是一家跨越中美两地的人工智能行业平台公司,在深度学习(RNN/CNN)、增强学习、NLP、知识图谱领域均拥有大规模项目成功实践经验。本专栏将持续输出云脑员工的原创技术解读,旨在与AI从业者共同探讨、进步。

理论RNNfastText
5
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

朴素贝叶斯技术

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

推荐文章
暂无评论
暂无评论~