社交网络已经成为了我们很多人生活的重要组成部分,但你是否想过你发布的帖子也在无形之中展示着你的个性?IBM 研究院的一项研究提出了一种新模型,经过训练之后,只需用户少量的推文,就能预测出该用户的“大五人格”特质。
论文地址:https://arxiv.org/pdf/1704.05513.pdf
摘要
为了给用户提供个性化广告,谷歌和 Facebook 等科技巨头都正试图通过用户在社交媒体上分享的内容来洞悉用户的个性。对于社交应用而言,根据用户书写的文本来预测个性是至关重要的。但是,实现实际应用需要大量输入数据。在这篇论文中,研究者开发了一种模型,可以通过更少的数据预测个性。该模型所需的数据比之前最佳的技术少 8 倍,同时还能取得更优的表现。
引言
为了提供更具适应性和个性化的服务和用户体验,越来越多的社交应用开始将用户个性纳入考量。个性通常通过“大五人格(Big-5)”来衡量,即: 开放性(openness)、责任心(conscientiousness)、外倾性(extraversion)、宜人性(agreeableness)、神经质或情绪稳定性(neuroticism);可简称为 OCEAN [1,2,3]。
随着互联网的快速发展,社交媒体上积累了大量可用于预测个性的数据。但是,大家都知道,构建一个稳健的机器学习模型需要大量输入数据。之前已有研究表明,通过使用平均 200 个 Facebook 发帖 [2] 或 100 000 个词 [3],就能够构建出一个实用的个性预测模型。相对而言,Twitter 用户平均仅有 22 条推文 [4]。因此,这些模型不能应对在社交媒体上发帖很少的大多数用户。
这篇论文首先介绍了基于少量文本的个性预测,以比较文中提出的全新方法和之前的方法,毕竟这是这一领域的首个研究。此外,论文中还介绍了一种将词嵌入用作个性建模的特征,将高斯过程用作学习算法的新方法。这种方法的表现优于这一领域的其它研究。
使用高斯过程的词嵌入
研究者提出了一种将词嵌入与高斯过程结合在一起的新方法。该方法首先从推文中提取词,然后求词嵌入表征的平均,得到单个向量,然后以这些向量作为输入来进行训练和测试。
词嵌入特征
词嵌入是一种将词表示成低维向量的技术,可用于对大规模非结构化文本数据的学习。通过让相似的词更为接近,其表现取决于词与词之前的句法和语义关系。
研究者在这篇论文中选择了 Twitter 200 维 GloVe 模型 [5] 来提取词嵌入特征。
高斯过程模型
这篇论文首先引入了一个新的非线性模型:高斯过程(GP)[6]。高斯过程允许通过执行一个核函数(kernel function)来明确地量化噪声和调制特征的有用性,因此在回归任务上表现很好。高斯过程与词嵌入的组合已被证明在短文本分类 [7] 和文本特征的非线性建模 [8] 上是非常有效的。
在这篇论文中,研究者使用了上述词嵌入特征的 200 维向量作为输入,为“大五人格”中的每一个训练了一个高斯过程模型。
实验设计
基本真值数据来自 1300 多个参与者,研究者也比较了新方法和之前的方法的表现。
基本真值收集
参与者自己报告的个性评估的收集方式与之前的研究一样 [5]。参与者自愿分享他们的推文并通过研究者开发的一个 Twitter 插件形式的网络应用进行了个性调查。然后研究者对参与者的推文进行了分析,并根据“大五人格”进行了评级。
至少有 200 条非转发推文的有效参与者数量共 1323 名。年龄分布如下:18 以下占 23%,18-24 岁占 47%,25-34岁占 14%,35-54 岁占 12%,54 岁以上占 3%。其中 52% 的参与者为女性。
研究者也对推文进行了预处理,移除了其中的 URL、话题标签、数字和标点符号,并将文本全部转换成了小写形式。
比较方法
研究者将新提出的方法与两种之前最佳方法进行了比较:
- 使用岭回归(RR)的语言查询和词计数(LIWC)。该方法是由 Yarkoni [3] 提出的,使用 LIWC [10] 来提取特征,使用 RR 作为学习算法。
- 使用岭回归的 3-Gram。研究者使用 3-Gram 和 RR 实现了这一方法。
新提出的方法是使用高斯过程的词嵌入,该方法使用 GloVe 特征,将高斯过程用作学习算法。岭回归和高斯过程都进行了正则化,以降低过拟合。
研究者使用十折交叉验证(10 Fold Cross-Validation)将数据分成了测试集和训练集;又按照 75%-25% 的比例将训练集分成了训练部分和验证部分。测试结果是通过在测试集上对预测结果和实际个性分数进行皮尔森相关性分析得到的。
比较设置
上述三种方法的表现按下列方式进行了比较:
- 完全型设置:在整个文本语料库上训练和测试这些方法。
- 采样型设置:对测试用户的推文进行下采样,所用推文的数量各不相同以模拟推文数量不同的用户。
- 现实型设置:使用大量用户的大量推文训练模型,然后在少量真实用户的少量推文上测试,旨在进一步研究这些方法在现实情况下的表现。
结果
完全型设置
表 1:“大五人格”的模型相关性比较,所报告的相关性是显著的,p<0.01
除了前面介绍的三种方法,研究者还测试了特征与模型的另外三种组合方式:GloVe+RR、LIWC+GP、3-Gram+GP。
新提出的方法(GloVe GP)在“大五人格”上平均相关性是 0.33,优于其它方法 33%。此外,GloVe 特征和高斯过程对这一方法的表现同等重要。另外,高斯过程与 3-Gram 等词袋型特征结合的表现并不好。
采样型设置
图 1:随推文数量变化的“大五人格”的预测准确度情况,所报告的相关性是显著的,p<0.01现实型设置
图 2:在“大五人格”上平均后得到的平均绝对误差
这张图比较了三种方法在“大五人格”上的平均绝对误差(测试集包含 55 位用户)。新提出的方法的平均绝对误差比之前最佳的方法低 25%,比原方法低 11%。
所有的结果都表明新提出的方法在现实应用中优于之前的方法,即使数据量很小也一样。
总结
这篇论文提出了一种将 GloVe 特征与高斯过程结合在一起的新方法,在基于用户的社交媒体文本预测他们的“大五人格”上取得了相当不错的表现。
尽管这种方法能提升个性建模水平,但仍有很大的进步空间。这个模型是在大量推文上训练得到的。未来也可探索基于少量推文来训练模型。
参考文献
1. McCrae, R. R., and John, O. P. 1992. An introduction to the five- factor model and its applications. Journal of personality 60(2):175-215.
2. Schwartz, H. A., et al. 2013. Personality, gender, and age in the language of social media: The open-vocabulary approach. PloS one 8(9):e73791.
3. Yarkoni, T. 2010. Personality in 100,000 words: A large-scale analysis of personality and word use among bloggers. Journal of research in personality 44(3):363-373.
4. Burger, J. D., et al. 2011. Discriminating gender on Twitter. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. 1301-1309: Association for Computational Linguistics.
5. Pennington, J., Socher, R., and Manning, C. D. 2014. Glove: Global Vectors for Word Representation. In EMNLP. 1532-4.
6. Rasmussen, C. E. 2006. Gaussian processes for machine learning.
7. Ma, C., et al. 2015. Distributional Representations of Words for Short Text Classification. In Proceedings of NAACL-HLT. 33-38
8. Yoshikawa, Y., Iwata, T., and Sawada, H. 2015. Non-Linear Regression for Bag-of-Words Data via Gaussian Process Latent Variable Set Model. In AAAI. 3129-3135.
9. Schwartz, H. A., et al. 2013. Personality, gender, and age in the language of social media: The open-vocabulary approach. PloS one 8(9):e73791.
10. Pennebaker, J. W., et al. 2015. The development and psychometric properties of LIWC2015. UT Faculty/Researcher Works.