Yuanchao Li作者Joni Chung编辑

只需25条推文,机器学习模型就能知晓你的个性

社交网络已经成为了我们很多人生活的重要组成部分,但你是否想过你发布的帖子也在无形之中展示着你的个性?IBM 研究院的一项研究提出了一种新模型,经过训练之后,只需用户少量的推文,就能预测出该用户的“大五人格”特质。

论文地址:https://arxiv.org/pdf/1704.05513.pdf

摘要

为了给用户提供个性化广告,谷歌和 Facebook 等科技巨头都正试图通过用户在社交媒体上分享的内容来洞悉用户的个性。对于社交应用而言,根据用户书写的文本来预测个性是至关重要的。但是,实现实际应用需要大量输入数据。在这篇论文中,研究者开发了一种模型,可以通过更少的数据预测个性。该模型所需的数据比之前最佳的技术少 8 倍,同时还能取得更优的表现。

引言

为了提供更具适应性和个性化的服务和用户体验,越来越多的社交应用开始将用户个性纳入考量。个性通常通过“大五人格(Big-5)”来衡量,即: 开放性(openness)、责任心(conscientiousness)、外倾性(extraversion)、宜人性(agreeableness)、神经质或情绪稳定性(neuroticism);可简称为 OCEAN [1,2,3]。

随着互联网的快速发展,社交媒体上积累了大量可用于预测个性的数据。但是,大家都知道,构建一个稳健的机器学习模型需要大量输入数据。之前已有研究表明,通过使用平均 200 个 Facebook 发帖 [2] 或 100 000 个词 [3],就能够构建出一个实用的个性预测模型。相对而言,Twitter 用户平均仅有 22 条推文 [4]。因此,这些模型不能应对在社交媒体上发帖很少的大多数用户。

这篇论文首先介绍了基于少量文本的个性预测,以比较文中提出的全新方法和之前的方法,毕竟这是这一领域的首个研究。此外,论文中还介绍了一种将词嵌入用作个性建模的特征,将高斯过程用作学习算法的新方法。这种方法的表现优于这一领域的其它研究。

使用高斯过程的词嵌入

研究者提出了一种将词嵌入与高斯过程结合在一起的新方法。该方法首先从推文中提取词,然后求词嵌入表征的平均,得到单个向量,然后以这些向量作为输入来进行训练和测试。

词嵌入特征

词嵌入是一种将词表示成低维向量的技术,可用于对大规模非结构化文本数据的学习。通过让相似的词更为接近,其表现取决于词与词之前的句法和语义关系。

研究者在这篇论文中选择了 Twitter 200 维 GloVe 模型 [5] 来提取词嵌入特征。

高斯过程模型

这篇论文首先引入了一个新的非线性模型:高斯过程(GP)[6]。高斯过程允许通过执行一个核函数(kernel function)来明确地量化噪声和调制特征的有用性,因此在回归任务上表现很好。高斯过程与词嵌入的组合已被证明在短文本分类 [7] 和文本特征的非线性建模 [8] 上是非常有效的。

在这篇论文中,研究者使用了上述词嵌入特征的 200 维向量作为输入,为“大五人格”中的每一个训练了一个高斯过程模型。

实验设计

基本真值数据来自 1300 多个参与者,研究者也比较了新方法和之前的方法的表现。

基本真值收集

参与者自己报告的个性评估的收集方式与之前的研究一样 [5]。参与者自愿分享他们的推文并通过研究者开发的一个 Twitter 插件形式的网络应用进行了个性调查。然后研究者对参与者的推文进行了分析,并根据“大五人格”进行了评级。

至少有 200 条非转发推文的有效参与者数量共 1323 名。年龄分布如下:18 以下占 23%,18-24 岁占 47%,25-34岁占 14%,35-54 岁占 12%,54 岁以上占 3%。其中 52% 的参与者为女性。

研究者也对推文进行了预处理,移除了其中的 URL、话题标签、数字和标点符号,并将文本全部转换成了小写形式。

比较方法

研究者将新提出的方法与两种之前最佳方法进行了比较:

  1. 使用岭回归(RR)的语言查询和词计数(LIWC)。该方法是由 Yarkoni [3] 提出的,使用 LIWC [10] 来提取特征,使用 RR 作为学习算法。
  2. 使用岭回归的 3-Gram。研究者使用 3-Gram 和 RR 实现了这一方法。

新提出的方法是使用高斯过程的词嵌入,该方法使用 GloVe 特征,将高斯过程用作学习算法。岭回归和高斯过程都进行了正则化,以降低过拟合

研究者使用十折交叉验证(10 Fold Cross-Validation)将数据分成了测试集和训练集;又按照 75%-25% 的比例将训练集分成了训练部分和验证部分。测试结果是通过在测试集上对预测结果和实际个性分数进行皮尔森相关性分析得到的。

比较设置

上述三种方法的表现按下列方式进行了比较:

  1. 完全型设置:在整个文本语料库上训练和测试这些方法。
  2. 采样型设置:对测试用户的推文进行下采样,所用推文的数量各不相同以模拟推文数量不同的用户。
  3. 现实型设置:使用大量用户的大量推文训练模型,然后在少量真实用户的少量推文上测试,旨在进一步研究这些方法在现实情况下的表现。

结果

完全型设置

表 1:“大五人格”的模型相关性比较,所报告的相关性是显著的,p<0.01

除了前面介绍的三种方法,研究者还测试了特征与模型的另外三种组合方式:GloVe+RR、LIWC+GP、3-Gram+GP。

新提出的方法(GloVe GP)在“大五人格”上平均相关性是 0.33,优于其它方法 33%。此外,GloVe 特征和高斯过程对这一方法的表现同等重要。另外,高斯过程与 3-Gram 等词袋型特征结合的表现并不好。

采样型设置

图 1:随推文数量变化的“大五人格”的预测准确度情况,所报告的相关性是显著的,p<0.01现实型设置

图 2:在“大五人格”上平均后得到的平均绝对误差

这张图比较了三种方法在“大五人格”上的平均绝对误差(测试集包含 55 位用户)。新提出的方法的平均绝对误差比之前最佳的方法低 25%,比原方法低 11%。

所有的结果都表明新提出的方法在现实应用中优于之前的方法,即使数据量很小也一样。

总结

这篇论文提出了一种将 GloVe 特征与高斯过程结合在一起的新方法,在基于用户的社交媒体文本预测他们的“大五人格”上取得了相当不错的表现。

尽管这种方法能提升个性建模水平,但仍有很大的进步空间。这个模型是在大量推文上训练得到的。未来也可探索基于少量推文来训练模型。

参考文献

1. McCrae, R. R., and John, O. P. 1992. An introduction to the five- factor model and its applications. Journal of personality 60(2):175-215.

2. Schwartz, H. A., et al. 2013. Personality, gender, and age in the language of social media: The open-vocabulary approach. PloS one 8(9):e73791.

3. Yarkoni, T. 2010. Personality in 100,000 words: A large-scale analysis of personality and word use among bloggers. Journal of research in personality 44(3):363-373.

4. Burger, J. D., et al. 2011. Discriminating gender on Twitter. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. 1301-1309: Association for Computational Linguistics.

5. Pennington, J., Socher, R., and Manning, C. D. 2014. Glove: Global Vectors for Word Representation. In EMNLP. 1532-4.

6. Rasmussen, C. E. 2006. Gaussian processes for machine learning.

7. Ma, C., et al. 2015. Distributional Representations of Words for Short Text Classification. In Proceedings of NAACL-HLT. 33-38

8. Yoshikawa, Y., Iwata, T., and Sawada, H. 2015. Non-Linear Regression for Bag-of-Words Data via Gaussian Process Latent Variable Set Model. In AAAI. 3129-3135.

9. Schwartz, H. A., et al. 2013. Personality, gender, and age in the language of social media: The open-vocabulary approach. PloS one 8(9):e73791.

10. Pennebaker, J. W., et al. 2015. The development and psychometric properties of LIWC2015. UT Faculty/Researcher Works.

技术分析
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

核函数技术

核函数包括线性核函数、多项式核函数、高斯核函数等,其中高斯核函数最常用,可以将数据映射到无穷维,也叫做径向基函数(Radial Basis Function 简称 RBF),是某种沿径向对称的标量函数。最常应用于SVM支持向量机中

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

推荐文章
暂无评论
暂无评论~