纪达麒作者

达观数据CTO纪达麒:小标注数据量下自然语言处理实战经验

自然语言处理在文本信息抽取、自动审校、智能问答、情感分析等场景下都有非常多的实际应用需求,在人工智能领域里有极为广泛的应用场景。然而在实际工程应用中,最经常面临的挑战是我们往往很难有大量高质量的标注语料。 

“巧妇难为无米之炊”,在缺少语料的情况下,如何达到良好的NLP应用效果,是这些场景要落地所必须解决的问题。我们通常称其为“低资源问题”,或者称为“小样本学习”问题,本文从达观数据的实践经验出发,用命名实体识别(NER)任务为例,来介绍在小标注数据量下进行NLP处理的经验和方法,希望对大家有所启发。 

经典的低资源NLP方法

在众多文本处理场景中,NER(Named Entity Recognition,命名实体识别)又称专名识别,是最为常见的一项任务,使用的范围非常广,因此本文中我们以NER任务为例来讲解。命名实体通常指文本中具有特别意义或者指代性非常强的事物,例如人名、地名、机构名、书名、时间、以及其他专有名词等。NER的任务就是从原始的非机构化文本中自动抽取出上述实体,或者按业务需求识别出更多特定类别的实体,比如产品名称、型号、价格等。实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。例如在金融行业文本中,债权人、债务人、利润总额、资产负载率等,这些特定意义的信息,都可以视为实体。

在实际应用中,由于标注数据稀少(这个原因来自很多实际条件的限制),但又期望能达到足够好的效果,在经典的机器学习方法里,往往可以通过对特征进行概率统计学习,来形成抽取模型。其具体算法思想如下:

先由工程师标定特征,通过对训练数据进行特征统计和挖掘,形成抽取模型。

下面简单举例说明,假设标注的样本数据是:

百度是一家人工智能公司  à NER (公司名:百度)

需要抽取出“参加本次活动的达观数据是一家人工智能公司”这句话里的公司名。通过分词、词性标注、句法结构分析等,掌握到“参加本次活动”这样的定语修饰词,以及后续13个字,经典方法是用概率计算方法判断出现在“是人工智能公司”前面的词汇是公司名的概率。

在经典NER方法中,达观的经验是条件随机场(CRF)效果较好。条件随机场使用势函数和图结构上的团来定义条件概率P(y | x)。给定观测序列x,链式条件随机场主要包含两种关于标记变量的团,即单个标记变量{yi}以及相邻的标记变量{yi-1,yi}。在条件随机场中,通过选用合适的势函数,并引入特征函数,可以得到条件概率的定义:

其中: 

其中tk(yi- 1, yi, x, i)是定义在观测序列的两个相邻标记位置上的转移特征函数,用于刻画相邻标记变量之间的相关关系以及观测序列对它们的影响,sl(yi, x, i)是定义在观测序列的标记位置i上的状态特征函数,用于刻画观测序列对标记变量的影响,λk和ul参数,Z为规范化因子。

可以将tk(yi - 1, yi, x, i)和sl(yi, x, i)两个特征函数统一为:fk(yi-1, yi, x, i),则有:

其中:

已知训练数据集,由此可知经验概率分布,可以通过极大化训练数据的对数似然函数来求模型参数。加入惩罚项后,训练数据的对数似然函数为:

其中的σ是可以调节的惩罚权重。对似然函数L(w)中的w求偏导,令:

可以依次求出wi。在上述情况下,如果带来干扰的训练样本不多,则CRF还是可以取得尚可的效果的。但是前置的句法结构分析、词性分析等一旦出现误差,会带来连锁反应。例如“参加本次活动的”这样的定语有时需要进行剔除才能确保NER识别的精度,不得不让工程师针对每个场景进行很多繁琐的预处理和后处理工作。

深度学习与小标注数据训练

使用深度学习的优点是不需要工程师告诉算法要提取哪些特征,而是由算法从标注数据中自动学习并寻找到关键特征,再进行预测(提取)。深度学习源自经典的BP神经网络模型,一般由输入层,隐藏层,输出层组成,其中隐藏层的数目按需确定。深度学习增加了网络层数,将每一层的输出作为下一层的输入,将底层的简单特征进行多层组合抽象为高层的特征表示。NER最常使用的深度神经网络结构是长短时记忆网络LSTM(Long ShortTerm Memory)。长短期记忆网络的原理可见下图: 

第一步,如何做长期记忆的更新?输入Ht-1和Xt,Ht-1是上一个时刻这个cell隐状态的输出,Xt是当前输入,它们两个通过这个函数计算后的输出是0-1之间的某一个值。这一步,决定上个时刻神经元状态留下的比率是多少。

第二步,上下文中获得了新的信息,不能只是把老的神经元状态更新,还要把新的信息添进去,通过这两个公式来添,第一个公式输出0-1的系数,第二个公式要选出量是多少。有了第一步和第二步之后就开始第三步神经元状态更新。

第三步,第一步的输出0-1和Ct-1相乘决定上一时刻这个神经元状态留下多少。第二步算出来系数和信息量相乘决定留下多少新增信息,然后把上一步剩下的和这一步新增的加起来,做一个更新,这个更新就是现的神经元状态值。

第四步,现在单元的状态更新完了,接下来就要输出,这个输出有两个:第一个,对外是一样,还是隐层的输出Ht。决定留下多少老的信息,决定留下多少新的信息,第二个再把老的信息和新的信息加起来就是最终的结果。

使用深度学习的方法通常需要有大量的训练数据,在小数据集下往往很难对网络结构进行充分训练。多任务学习(Multi-task Learning)可通过端到端的学习方式,直接在当前任务中引入其他相关任务的标注信息作为监督学习的样本。2008年Collobert等人最早提出了NLP中应用Multi-task的思想,通过不同任务的标注数据,共同训练一个神经网络模型,来共同提升数据的综合利用程度。多任务学习可以设计为可共享网络的核心层次,在输出层对不同任务设计特定的网络结构。达观在实际使用中,也会使用Bi-LSTM和CRF结合的网络结构,效果略有提升,但受限于数据规模,并非有质的提升。

引入预训练神经网络

前面所提的方法只依赖了测试场景下已有的训练数据,而很多实际场景下获取标注语料非常困难,那为了达到好的效果还有什么不同的思路吗?这些专有名词除了出现在标注语料中,还有很多文本中也一样会出现,无论是字、词或者句子,都大量存在。所以是否可以使用其他文本中的未标注过的语料,来改进当前测试场景下的效果?这就是近年来在NLP领域大放异彩的预训练思路。而词向量(Word Embedding)是普遍使用的方法,相比传统的对于词语进行One-Hot编码,词向量携带了更加丰富的语义信息。

字面上不相关的词在中文中有可能是非常相近甚至是同义词,如“电脑”和“计算机”,“香蕉”和“水果”,“公司”和“企业”,如果模型可以结合这些信息,能有效提高抽取的泛化能力。词向量主要的几代技术有Word2Vec,ELMO和BERT。

Word2Vec 

Word2Vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化。Word2Vec中最重要的两个模型是CBOW(Continuous Bag-of-Word)模型和Skip-gram(ContinuousSkip-gram)模型,两个模型都包含三层:输入层,投影层,输出层。CBOW模型的作用是已知当前词Wt的上下文环境(Wt-2,Wt-1,Wt+1,Wt+2)来预测当前词,Skip-gram模型的作用是根据当前词Wt来预测上下文(Wt-2,Wt-1,Wt+1,Wt+2)

在模型求解中,和一般的机器学习方法类似,也是定义不同的损失函数,使用梯度下降法寻找最优值。Word2vec模型求解中,使用了HierarchicalSoftmax方法和NegativeSampling两种方法。通过使用Word2vec,我们可以方便的将词转化成向量表示,让计算机和理解图像中的每个点一样,数字化词的表现。

ELMO

相同的词在不同上下文是可能有不同的含义。如“苹果”,在“我吃了一个苹果”,和“我买了一个苹果手机”两个句子下的含义完全不同。所以word embedding 对于每个词只有一个唯一的向量,是无法区分不同语义下相同词的不同含义。ELMO(Embeddingfrom Language Models)通过上下文来调整word  embedding 的方式, 可以比较好的解决这个问题。

上图展示的是其预训练过程,它的网络结构采用了双层双向 LSTM,目前语言模型训练的任务目标是根据单词的上下文去正确预测单词,单词之前的单词序列称为上文,之后的单词序列称为下文。图中左端的前向双层LSTM代表正方向编码器,输入的是从左到右顺序的除了预测单词外的上文。右端的逆向双层 LSTM 代表反方向编码器,输入的是从右到左的逆序的句子下文。每个编码器的深度都是两层 LSTM 叠加。这个网络结构其实在NLP 中是很常用的。

使用这个网络结构利用大量语料做语言模型任务就能预先训练好这个网络,如果训练好这个网络后,输入一个新句子,句子中每个单词都能得到对应的三个Embedding:最底层是单词的 WordEmbedding,往上走是第一层双向LSTM中对应单词位置的Embedding,这层编码单词的句法信息更多一些;再往上走是第二层 LSTM 中对应单词位置的Embedding,这层编码单词的语义信息更多一些。所以,ELMO不仅仅学会单词的 WordEmbedding,还学会了一个双层双向的LSTM 网络结构。

BERT

ELMO一个非常明显的缺点在特征抽取器选择方面,ELMO使用了 LSTM 而不是新贵Transformer,Transformer 是谷歌在 17 年做机器翻译任务的“Attentionis all you need”的论文中提出的,引起了相当大的反响,很多研究已经证明了Transformer 提取特征的能力远强于LSTM。

BERT的全称是Bidirectional Encoder Representation from Transformers,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类!并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进率5.6%)等。

Bert使用双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在预训练方法上,即用了Masked Language Model和Next Sentence Prediction两种方法分别捕捉词语和句子级别的语义。

Masked Language Model(MLM)是指在训练的时候随即从输入预料上mask掉一些单词,然后通过的上下文预测该单词,该任务非常像我们在中学时期经常做的完形填空。正如传统的语言模型算法和RNN匹配那样,MLM的这个性质和Transformer的结构是非常匹配的。在BERT的实验中,15%的Token会被随机Mask掉。在训练模型时,一个句子会被多次喂到模型中用于参数学习,但是Google并没有在每次都mask掉这些单词,而是在确定要Mask掉的单词之后,80%的时候会直接替换为[Mask],10%的时候将其替换为其它任意单词,10%的时候会保留原始Token。这么做的原因是如果句子中的某个Token100%都会被mask掉,那么在fine-tuning的时候模型就会有一些没有见过的单词。加入随机Token的原因是因为Transformer要保持对每个输入token的分布式表征,否则模型就会记住这个[mask]是token ‘hairy’。至于单词带来的负面影响,因为一个单词被随机替换掉的概率只有15%*10% =1.5%,这个负面影响其实是可以忽略不计。

Next Sentence Prediction(NSP)的任务是判断句子B是否是句子A的下文。如果是的话输出‘IsNext’,否则输出‘NotNext’。训练数据的生成方式是从平行语料中随机抽取的连续两句话,其中50%保留抽取的两句话,它们符合IsNext关系,另外50%的第二句话是随机从预料中提取的,它们的关系是NotNext。

达观数据在实践中发现,使用预训练方法,通过词嵌入,对于比较常见的字段抽取可以有明显的提升,比如人名类字段(甲方,乙方,律师,原告等),很少的标注语料就可以达到很好的效果,但对于行业性质比较强的字段,由于本身能获取到的未标注语料总量也不够大,相关字词的出现频率不够多,限制了方法的效果。

迁移学习(Transfer Learning)方法

现在需要处理的任务标注样本不足,但其他相关的任务有大量的标注样本,并且有个比较好的模型。所以是否可以将大量标注样本数据的任务来优化这个样本不足任务?迁移学习就是基于这样的思路,核心思想就是将一个已经成熟的任务应用于另外一个任务。举例来说,比如采购合同往往数据量比较大,而租赁合同数据量比较小,可以用采购合同的模型来优化租赁合同的场景。

迁移学习根据迁移的知识进行分类,可以分为基于样本的迁移,基于模型的迁移,基于特征的迁移,及基于关系的迁移。

基于样本的迁移学习是根据一定的权重生成规则,对数据样本进行重用,来进行迁移学习。经典的算法是TrAdaBoost,从源场景中筛选有效数据,过滤掉与目标场景不同的数据,通过 Boosting方法建立一种权重调整机制,增加有效数据权重,降低无效数据权重

基于模型的迁移是目前比较容易落地的,前面提到的租赁合同和采购合同,达观也是基于模型的迁移进行的处理。基于模型的迁移又叫多任务学习,网络结构如下图所示,任务与任务之间共享隐藏层,保留每个任务的输出层。


基于特征的迁移方法是指将通过特征变换的方式互相迁移,来减少源场景和目标场景之间的差距;或者将源场景和目标场景的数据特征变换到统一特征空间中,然后利用传统的方法进行识别。典型的方法是迁移成分分析方法。该方法的核心内容是以最大均值差异作为度量准则,将不同数据领域中的分布差异最小化。

基于关系的迁移学习方法比较关注源场景和目标场景的样本之间的关系。目前研究和应用都比较少。

半监督(Semi-supervised Learning)学习方法

一些少标注数据的场景,是标注成本比较高,比如招股说明书,一份都打几百页甚至上千页,一个人要几天才能标注完一篇文档。这种场景下可以考虑使用半监督学习方法。

监督学习方法最简单的做法是,通过已有的标注数据进行建模,对未标注数据进行预测,预测结果中概率比较大的,则认为是正确的,加入到训练样本中。这种方法达观实践下来效果一般,原因是这种方式加入的样本里,正确的样本都是原来模型可以准确预测,而且特征明显(预测概率高),所以对模型的补充性不一定很高,只是一些小特征的补充。而且更严重的是这里面可以有些是误判的,当成训练数据对模型往往影响就会比较大。

监督学习方法的另外一种方法伪标记半监督学习算法,用在深度学习的网络结构中。当输入的样本是一个有标记的样本的时候,我们需要最小化模型输出和样本标记的交叉熵,这就是监督学习,那么没有标记的怎么办,这时候就需要一个伪标记。

这样我们就获得了一个伪标记。我们在训练模型的时候定义损失函数

其中y和f代表监督学习的输入和输出,为伪标记,α了加权系数,而t代表了当前的迭代次数。通过求解这个新的网络,得到最终的模型。所以这里的方法就是网络对无标签数据的预测,作为无标签数据的标签(即伪标签)。模型不会做为正确标签进行处理,从而避免上面算发判错带来的影响。

引入业务知识&领域常识

达观数据服务了非常多的大型企业,发现命名实体识别在大型企业里面的应用场景,基本都是对一些行业内常见类型的文本进行实体抽取,进而通过RPA(机器人流程自动化)代替人进行自动操作。如财务合同,可自动抽取出甲方,乙方,总金额等数十个字段,进行财务核算;比如几百页的招股说明书,需要抽取出董事,监事,高管,财务表,重大合同,上下游供应商等数千个字段;比如司法裁判文书,需抽取出原告,被告,律师,罪名,判罚结果等上百个字段。这些场景有几个共同的特点是:

1、都是具备特定格式的规范文书。相比于互联网中的五花八门的各类评论和文章,这些行业文档内容规范,行文准确,很少会出现错字,语法错误等问题。文档的撰写会遵从行业规范,每个人撰写风格影响小,会有特定行业固定的套路。

2、这些文档训练语料极为稀少,比如招股说明书或者合同,即便是大型企业内部历史积累的语料也不会很多,获得标注的更少

3、这些场景由于行业属性非常强,所以通过全网文书计算词向量的方式效果往往不好,用行业语料进行训练,由于数据量较少,也不能达到很好的效果。达观数据在服务上百家大型客户实践中,研发了一套结合行业经验的算法模型,可以在这些低资源文档的场景,达到非常好的效果。

这个算法的核心思想是,利用行业专家经验,通过知识沉淀的方法,帮助系统掌握行业规律,通过知识图谱将专家经验输入给模型,极大提升算法的效果。

对于每个抽取的字段,行业专家可以梳理出这个字段的重要词,重要句式,重要段落,重要位置,重要上下文,把这些信息进行编码加入到模型中。

上图是将行业专家梳理到核心词使用的例子。假设“委员”和“委员会”是核心词。需要对“美国联邦通信委员会最近正式批准苹果展开5G通信试验”的每个字生成词向量。这里的方法是通过2-gram,3-gram,4-gram和5-gram对每个字进行编码,编成8个位,每种gram各2个位表示上文是否是核心词和下文是否是核心词。以“委”字为例编码方式为:

2-gram,就是“信委”和“委员”,“信委”不是核心词,而“委员”是核心词,所以编码为“01”
3-gram,就是“通信委”和“委员会”,“通信委”不是核心词,而“委员会”是核心词,所以编码为“01”
4-gram,就是“邦通信委”和“委员会最”都不是核心词,所以编码为“00”
5-gram,就是“联邦通信委”和“委员会最近”都不是核心词,所以编码为“00”

然后我们再通过训练两个独立的LSTM双向网络(如图所示),一个是用经典LSTM结构,一个是将以上专家特征(或者领域知识)合并进来后,并最终将把所有的行业向量和原始的字向量进行拼接,作为CRF层的输入,这样双层BiLSTM+CRF模型可以较好的融合领域知识来提升提取效果。 

本文小结

本文以NER任务为例,详细阐述了达观在小标注语料情况下进行算法优化的经验。在标注语料稀缺的情况下,仅仅依靠传统的NLP模型很难达到理想的效果,我们往往需要因地制宜的深入研究具体的业务场景,实事求是的运用各种方法,引入更多相关的数据和资源,融会贯通,更好的理解业务并实现技术的落地。

关于作者 

纪达麒:达观数据首席技术官(CTO),研发团队总负责人,中国计算机学会(CCF)会员。拥有10年技术团队管理经验,在加入达观前,曾担任腾讯文学数据中心高级研究员、盛大文学技术总监,搜狗广告系统高级研发工程师,百度工程师等职务,擅长数据挖掘以及实时服务系统架构设计工作。曾代表公司多次参加国际数据挖掘竞赛,是ACM KDD-Cup,CIKM Competition等世界一流数据挖掘竞赛获胜队伍的核心成员。

达观数据
达观数据

达观数据是一家专注于文本智能处理技术的国家高新技术企业,获得2018年度中国人工智能领域最高奖项 “吴文俊人工智能科技奖”,也是本年度上海市唯一获奖企业。达观数据利用先进的自然语言理解、自然语言生成、知识图谱等技术,为大型企业和政府客户提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统,让计算机代替人工完成业务流程自动化,大幅度提高企业效率。

工程
3
相关数据
搜狗机构

搜狗成立于2003年,是中国搜索行业挑战者,AI领域的创新者。目前搜狗月活跃用户数仅次于BAT,是中国用户规模第四大互联网公司。2004年8月,搜狗推出搜狗搜索,现已成为中国第二大搜索引擎。2006年6月,推出搜狗输入法,重新定义了中文输入,目前搜狗输入法覆盖超5亿用户,是国内第一大中文输入法。2017年11月9日,搜狗在美国纽约证券交易所正式挂牌上市,股票交易代码为“SOGO”,开盘价为13.00美元,市值超50亿美元。

http://corp.sogou.com/
达观数据机构

达观数据成立于2015年,是中国领先的文本智能处理企业,利用先进的文字语义自动分析技术,为企业、政府等各大机构提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统,让计算机代替人工实现业务流程自动化,大幅度提高运营效率。 达观数据为企业提供完善的文本挖掘、知识图谱、搜索引擎和个性化推荐等大数据服务,是国内唯一一家将自动语义分析技术应用于企业数据化运营的人工智能公司。

http://www.datagrand.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

Skip-gram技术

CBOW和skip-gram是word2vec的核心概念。CBOW模型是用词的前后几个词来预测这个词,skip-gram的输入是当前词的词向量,而输出是周围词的词向量。

提升算法技术

Boosting是一种主要用于减少偏差的机器学习集成元算法,也是监督学习的一个变化,是一种将弱学习器转换为强学习器的机器学习算法家族。 Boosting是基于Kearns和Valiant(1988,1989)提出的问题:一组弱学习器能创造一个强大的学习器吗?一个弱的学习器被定义为一个分类器,它与真实的分类只有轻微的相关性(它可以比随机猜测更好地标注示例)。相反,强大的学习器是一个与真实分类任意相关的分类器。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

流数据技术

流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

特征抽取技术

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

条件随机场技术

条件随机场(conditional random field,简称 CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 如同马尔可夫随机场,条件随机场为无向性之图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场当中,随机变量 Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链接式的架构,链接式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在有效率的算法可供演算。 条件随机场跟隐马尔可夫模型常被一起提及,条件随机场对于输入和输出的机率分布,没有如隐马尔可夫模型那般强烈的假设存在。 线性链条件随机场应用于标注问题是由Lafferty等人与2001年提出的。

似然函数技术

在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。 似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“ 似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

多任务学习技术

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

推荐文章
暂无评论
暂无评论~