腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用

本文由机器之心经授权转载自腾讯AI实验室,未经授权禁止二次转载。

今日,腾讯AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。针对业界现有的中文词向量公开数据的稀缺和不足,腾讯 AI Lab此次开源,可为中文环境下基于深度学习自然语言处理(NLP)模型训练提供高质量的底层支持,推动学术研究和工业应用环境下中文NLP任务效果的提升。

数据下载地址:https://ai.tencent.com/ailab/nlp/embedding.html

近年来,深度学习技术在自然语言处理领域中得到了广泛应用。基于深度神经网络的模型已经在词性标注命名实体识别、情感分类等诸多任务上显著超越了传统模型。用深度学习技术来处理自然语言文本,离不开文本的向量化,即把一段文本转化成一个n维的向量。在大量任务中,作为千变万化的文本向量化网络架构的共同底层,嵌入层(Embedding Layer)负责词汇(文本的基本单元)到向量(神经网络计算的核心对象)的转换,是自然语言通向深度神经网络的入口。大量的学界研究和业界实践证明,使用大规模高质量的词向量初始化嵌入层,可以在更少的训练代价下得到性能更优的深度学习模型。

目前,针对英语环境,工业界和学术界已发布了一些高质量的词向量数据,并得到了广泛的使用和验证。其中较为知名的有谷歌公司基于word2vec算法[1]、斯坦福大学基于GloVe算法[2]、Facebook基于fastText项目[3]发布的数据等。然而,目前公开可下载的中文词向量数据[3,4]还比较少,并且数据的词汇覆盖率有所不足,特别是缺乏很多短语和网络新词。

腾讯AI Lab词向量的特点

腾讯AI Lab此次公开的中文词向量数据包含800多万中文词汇,其中每个词对应一个200维的向量。相比现有的中文词向量数据,腾讯AI Lab的中文词向量着重提升了以下3个方面,相比已有各类中文词向量大大改善了其质量和可用性:

⒈ 覆盖率(Coverage):

该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河


⒉ 新鲜度(Freshness):

该数据包含一些最近一两年出现的新词,如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。以“因吹斯汀”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

⒊ 准确性(Accuracy):

由于采用了更大规模的训练数据和更好的训练算法,所生成的词向量能够更好地表达词之间的语义关系,如下列相似词检索结果所示:

得益于覆盖率、新鲜度、准确性的提升,在内部评测中,腾讯AI Lab提供的中文词向量数据相比于现有的公开数据,在相似度和相关度指标上均达到了更高的分值。在腾讯公司内部的对话回复质量预测和医疗实体识别等业务场景中,腾讯AI Lab提供的中文词向量数据都带来了显著的性能提升。


腾讯AI Lab词向量的构建


为了生成高覆盖率、高新鲜度、高准确性的词向量数据,腾讯AI Lab主要从以下3个方面对词向量的构建过程进行了优化:

⒈ 语料采集:

训练词向量的语料来自腾讯新闻和天天快报的新闻语料,以及自行抓取的互联网网页和小说语料。大规模多来源语料的组合,使得所生成的词向量数据能够涵盖多种类型的词汇。而采用新闻数据和最新网页数据对新词建模,也使得词向量数据的新鲜度大为提升。


⒉ 词库构建:

除了引入维基百科和百度百科的部分词条之外,还实现了Shi等人于2010年提出的语义扩展算法 [5],可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式,在发现新词的同时计算新词之间的语义相似度。


⒊ 训练算法:

腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法 [6] 作为词向量的训练算法。DSG算法基于广泛采用的词向量训练算法Skip-Gram (SG),在文本窗口中词对共现关系的基础上,额外考虑了词对的相对位置,以提高词向量语义表示的准确性。

此份中文词向量数据的开源,是腾讯AI Lab依托公司数据源优势,对自身基础AI能力的一次展示,将为中文环境下基于深度学习的NLP模型训练提供高质量的底层支持,推动学术研究和工业应用环境下中文NLP任务效果的提升。

除发布此份中文词向量数据外,腾讯AI Lab长期以来在文本表示学习方面有着持续的投入,相关研究成果近期在ACL、EMNLP、IJCAI等自然语言处理人工智能顶级会议上发表[7,8,9,10],并被应用于多个落地场景。未来,腾讯AI Lab将着眼于常规文本与社交媒体文本两种不同的文本类型,继续探索词汇、词组/实体、句子/消息、篇章/对话等各粒度文本对象的语义建模和理解,为自然语言处理领域的重要应用提供基础支持。

[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean:Distributed Representations of Words and Phrases and their Compositionality. NIPS 2013.

[2] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation. EMNLP 2014.

[3] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information. TACL 2017 (5).

[4] Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du. Analogical Reasoning on Chinese Morphological and Semantic Relations. ACL 2018.

[5] Shuming Shi, Huibin Zhang, Xiaojie Yuan, and Ji-Rong Wen. Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches. COLING 2010.

[6] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018.

[7] Jialong Han, Yan Song, Wayne Xin Zhao, Shuming Shi, and Haisong Zhang. hyperdoc2vec: Distributed Representations of Hypertext Documents. ACL 2018.

[8] Jichuan Zeng, Jing Li, Yan Song, Cuiyun Gao, Michael R. Lyu, and Irwin King. Topic Memory Networks for Short Text Classification. EMNLP 2018.

[9] Yan Song and Shuming Shi. Complementary Learning of Word Embeddings. IJCAI 2018.

[10] Yan Song, Shuming Shi, and Jing Li. Joint Learning Embeddings for Chinese Words and their Components via Ladder Structured Networks. IJCAI 2018.

本文由机器之心经授权转载自腾讯AI实验室,原文链接:https://mp.weixin.qq.com/s/2StourAzxe-gCZOM5YXiAw

工程腾讯AI Lab开源
4
相关数据
理查德·索切人物

Richard Socher(理查德·索赫尔)是Salesforce的首席科学家。 在此之前,他是斯坦福大学计算机科学系的兼职教授,也是2016年被Salesforce收购的MetaMind的创始人兼首席执行官/首席技术官。研究兴趣:深度学习、自然语言处理和计算机视觉。

克里斯托弗·曼宁人物

现任斯坦福大学教授、斯坦福自然语言处理组负责人。Christopher Manning是自然语言处理领域著名学者,是国际计算机学会(ACM)、国际人工智协会(AAAI)、国际计算语言学会(ACL)等国际权威学术组织的会士,曾获ACL、EMNLP、COLING、CHI等国际顶会最佳论文奖,著有《统计自然语言处理基础》、《信息检索导论》等自然语言处理著名教材。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

fastText技术

Facebook开发的文本处理工具,是一个用于高效学习单词表示和句子分类的库。

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~