北大获中国首个WWW大会最佳论文奖,提出ELSA跨语言情感分析模型

WWW 2019(The Web Conference)已于5月13-17日在美国旧金山召开。会议闭幕式上,大会主席公布了两篇最佳长论文和一篇最佳短论文。

其中来自北京大学信息科学技术学院计算机科学技术系、高可信软件技术教育部重点实验室刘譞哲副教授课题组的论文“Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification”获得了今年WWW大会最佳长论文奖,这是WWW历史上中国学术研究机构(含港澳台)首次获此荣誉。

WWW大会由万维网发明人、2016年度图灵奖获得者Tim Berners-Lee爵士等人于1992年发起并创办,是计算机与互联网领域的顶级学术会议,也被列为《中国计算机学会推荐国际学术会议和期刊目录》中的A类学术会议,录用率常年维持在14%~18%。

今年,WWW 大会投稿总数为1247篇,录取225篇,录取率为18%。值得一提的是,今年也正值万维网诞生30周年。

以下是大会官方公布的三篇获奖论文信息:

  • 最佳长论文1:Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification

  • 作者:Zhenpeng Chen、Sheng Shen、Ziniu Hu、Xuan Lu、Qiaozhu Mei、Xuanzhe Liu(北京大学)

  • 链接:https://arxiv.org/abs/1806.02557

  • 获奖理由:创造性地使用全球通用的emoji作为跨语言情感分类表征学习的一部分,显著优于之前的SOTA结果。

  • 最佳长论文2:OUTGUARD: Detecting In-Browser Covert Cryptocurrency Mining in the Wild

  • 作者:Amin Kharraz、Zane Ma、Paul Murley、Charles Lever、Joshua Mason、Andrew Miller、Nikita Borisov、Manos Antonakakis、Michael Bailey(伊利诺伊大学香槟分校、佐治亚理工学院)

  • 链接:https://nikita.ca/papers/outguard-www19.pdf

  • 获奖理由:首个无需手动分析、有效防御浏览器内cryptojacking系统的设计、实现和评估。

  • 最佳短论文:ViTOR: Learning to Rank Webpages Based on Visual Features

  • 作者:Bram van den Akker、Ilya Markov、Maarten de Rijke(阿姆斯特丹大学)

  • 链接:https://arxiv.org/abs/1903.02939

  • 获奖理由:集成了ImageNet 预训练CV模型和IR显著模式(salience pattern),从而极大提升排序的准确率,特别是对于更早网页位置而言。

北大最佳长论文解读

图注:本文第一作者为北京大学信息科学技术学院2018级博士生陈震鹏,通讯作者为刘譞哲副教授,论文作者还包括北京大学信息科学技术学院2014级本科生沈晟、胡子牛,2016级博士生陆璇,以及密歇根大学梅俏竹教授。

在动态、开放和多变互联网环境下,软件系统需要深入准确地感知和理解用户情境(包括所处环境的状态和用户的行为),以更加智能地提供服务。作为用户情境感知和理解中一个重要方面,情感分析得到了包括数据挖掘、系统软件、人机交互等多领域研究者的广泛关注,成为交叉研究热点并取得一系列进展。现有情感分析工作主要基于英语文本开展。在其他语言上,研究较少、标注语料稀缺,现有方法效果较差。但是,75%的互联网用户为非英语用户,大约一半的Web内容为非英语内容。考虑到上述学术研究上的不平衡问题,非英语用户对Web贡献很大,却无法像英语用户一样享受到高质量的基于情感分析的Web服务。

针对这一现象,学术界提出了“跨语言情感分析”,将英语语料中学习到的知识迁移到那些缺乏标注语料的语言(称为目标语言)上。最直接的跨语言情感分析方法就是使用机器翻译技术来连接两种语言。比如,将目标语言文本翻译成英语,直接使用英语的情感分析工具来处理翻译语料。近年来,随着表征学习的发展,研究者开始尝试更复杂的方法,例如,借助机器翻译技术将两种语言的表征对齐,形成一个统一的表征空间,并基于该表征空间开展情感分析。

尽管上述方法听起来可行,但是效果却一直不尽人意。事实上,上述方法均未考虑到语言差异问题。具体来说,不同语言中的情感表达方式不同,机器翻译只能保留那些语言之间共性的情感表达,不能保留语言特定的情感信息。例如,“怒っている”翻译成英语是“angry”,两者均蕴含负面情感,是英语与日语之间共性的表达;“湯水のように使う”在日语中形容浪费,是负面的表达,但是翻译成英语后是“use it like hot water”,丢失了原本的情感。

因为机器翻译只能保留两种语言的共性,需要一个新的“桥梁”来连接两种语言,同时保留两种语言共性和个性的情感信息。作为情感信息的载体,该桥梁需要比人工标签更易获得,且在各语言中普遍存在。基于上述需求,本文使用emoji表情符号作为这一桥梁。一方面,emoji是情感表达的有效工具,可以充当人工标注的情感标签的替代品;另一方面,emoji作为世界通用的普适性语言,可以充当连接两种语言(即英语与目标语言)的桥梁。两种语言之间共性的emoji使用模式可以和机器翻译一起,缩小语言之间的差异;各语言特定的emoji使用模式可以缓解语言差异问题。

具体地,本文提出了ELSA(Emoji-powered representation learning for cross-Lingual Sentiment Analysis)模型。首先,从Twitter上收集两种语言的语料,基于语料中的emoji使用情况学习两语言各自的表征模型。英语和目标语言各自的表征模型中蕴含了各自特定的情感信息。接着,使用机器翻译技术生成平行语料,抓住两种语言之间共性的情感信息。

为了验证ELSA的效果,本文选用了经典的亚马逊评论数据集,该数据集中包含9个任务,即分析法语、德语、日语的关于书籍、DVD、音乐的评论文本中的情感。结果显示,ELSA较已有的跨语言情感分析方法,效果上有显著提升。为了验证模型的泛化能力,本文还选用了Twitter数据集进行验证,较已有方法,准确率提升十几个百分点。

2016年开始,刘譞哲副教授课题组在研究移动互联网系统与服务时发现,emoji正在成为一种新的“普适”语言,是用户最为广泛使用的交互方式(大多数输入法都已内置emoji)。课题组认为,emoji不仅可以让表达更加生动,而且可以作为一种新的“软”传感器(Soft Sensor)来感知和理解用户的情境。特别地,随着用户数据的安全隐私问题日益得到关注,如欧盟《通用数据保护条例》(GDPR)等法律法规的推出,传统方法可能因涉及用户隐私数据而无法应用;而emoji可以在一定程度上避免涉及这些敏感数据,并在用户画像、情感理解等方面被验证具有良好的效果。以emoji作为理解和分析用户情境的切入点,课题组在过去三年形成了一系列研究成果,已陆续发表于WWW和UbiComp等国际顶级会议,为用户情境分析理解并进行服务推荐开辟了全新的研究视角。

理论WWW 2019最佳论文北大
3
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~