自然语言处理领域的进展(五)社会媒体挖掘

本文译自:Julia Hirschberg, Christopher D. Manning. Advances in Natural Language Processing. Science Magazine 2015. vol. 349 no. 6245 (261-266). 译者:石继豪(哈工大SCIR本科生)。

社交媒体的发展彻底改变了当今自然语言处理研究者信息获取的数量和形式。利用Twitter, Facebook, YouTube,博客以及论坛获取到的信息有助于研究人口信息、语言运用和社会交互三者之间的关系51。研究人员使用Web抓取技术,通常是通过网站提供的应用程序接口下载大量不同类别的数据。利用统计和机器学习技术相结合,能够从语言中获取用户信息(年龄和性别等),追踪群众热议的流行话题,确定产品意见和政治信念,利用推文或与食品有关的疾病中提到的症状预测疾病传播52,识别虚假评论诈骗53,确定在线互动的社交网络。

在眼下这个大数据的时代,社会媒体的应用彻底改变了广告商、记者、企业家、政客以及医学专家获取数据的方法和应用数据的场景。挖掘产品评论可以用来预测价格起伏以及评估广告宣传活动,搜索政治论坛能够预测大选中候选人的感染力和表现力,调研社交网络可以发现不同群体中权势的指标,研究医学论坛能够发现常见问题和对个别医疗状况患者的误解,以改善网站信息。

社交媒体也会在网络论坛上提供大量丰富的会话数据资源,可以为语言现象研究提供元数据,例如语言转换现象(演讲中双语混合使用)、模糊语用现象(单词或短语暗示话题的不确定性,如sort of)、仇恨言论或者霸凌行为。社交媒体广泛存在于各种语言中,其中既包括多源语言(HRL)又包括低源语言(LRL)。这些数据在丰富自动语音识别(ASR)语言模型和开发文字语音转换(TTS)合成器方面非常宝贵,可以使我们不再需要付出很高地代价构造特殊用途的语料库。反过来,这些技术对低源语言(LRL)领域生成口语对话系统(SDS)也是很有用的。这样的系统可以让数以百万计的人们像居住在多源语言(HRL)城市的居民一样通过手机获取信息(即使在低识字率,语言或方言没有标准书写形式的群体中也能广泛使用)。基于低源语言(LRL)元数据,采用高源语言(HRL)工具对低源语言(LRL)工具的开发是应用文本元数据的另一个重要途径。在低源语言(LRL)数据挖掘中,有一种特殊的应用是利用Twitter和博客收集到的数据为救灾机构提供有价值的信息,用来解决最紧急的问题——识别灾难发生地以及确定受灾群众。

社交媒体数据挖掘也存在一些弊端。隐私问题越来越受到关注,尤其是个体极力保护自己的隐私而阻止研究人员挖掘这部分个人隐私数据。像Twitter这样的网站严格限制研究人员下载数据,这对语料的快速采集和获取是一种阻碍。还有一个重要的问题是如何在社交网络回帖中发现真实数据。究其原因在于用户个人信息的准确性,相关事件的时效性以及酒店、餐厅和产品评价的真实性还没有明确的方法来核实。虽然汇集同一时刻来自多个源的信息可以用来核实上述部分问题,同时网站也在设法找出虚假的评论,但这一问题或许仍然是社交媒体行业从业者遇到的最棘手的问题。

REFERENCES AND NOTES

51. M. A. Russell, Mining the Social Web:Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and More (O’ReillyMedia, Sebastopol, CA, ed. 2, 2013).

52. N. Elhadad, L. Gravano, D. Hsu, S.Balter, V. Reddy,H. Waechter,“Information extraction from social media for public health,” in KDD atBloomberg Workshop, Data Frameworks Track (KDD 2014) (Association for ComputingMachinery, New York, 2014).

53. M. Ott, C. Cardie, J. T. Hancock,“Estimating the prevalence of deception in online review communities.” inProceedings of the 21st International Conference on World Wide Web Conference,Lyon, France, 16 to 20 April 2012 (Association for Computing Machinery, NewYork, 2012), pp. 201–210. 


本文来源于哈工大SCIR

原文链接点击即可跳转

入门
暂无评论
暂无评论~
返回顶部