WWW 2020:百度入选论文解析,涵盖信息抽取、对抗生成等领域

近日,国际顶级综合学术会议WWW 2020 (The Web Conference 2020) 在中国台湾如期举办。本次会议,百度研究院共有6篇论文入选,位居国内科技企业前列。而且其中大部分论文的全部作者均来自百度,展现出百度公司超高的科研水准和领先的技术实力。

创办于1994年,WWW会议由国际万维网会议委员会(IW3C2)和主办地地方团队合作组织,每年召开一次,今年是第29届。WWW会议被中国计算机学会(CCF)推荐为A类国际学术会议,每次都会吸引大批学者、研究人员、技术专家、政策制定者等人的广泛关注和参与。自2018年开始,WWW会议有了另外一个别名——“The Web Science (互联网科学)”,旨在为世界提供一个主要的论坛,以讨论和辩论Web的发展,其相关技术的标准化以及这些技术对社会和文化的影响,成为互联网领域最受关注的顶级学术会议之一。

下面将详细解读一下此次百度入选论文中的4篇,向行业分享研究成果:

论文1:Extracting Knowledge from Web Text with Monte Carlo Tree Search 

每一天,互联网都会产生海量的非结构化文本数据,这些文本数据(比如新闻、博客等)包含了大量的非结构化的信息。对于人类而言,这些非结构化的信息是易于理解的,但是计算机很难直接利用这些非结构化的文本数据进行运算和逻辑处理。因此,从大量的非结构化信息中提取出结构化的知识,为后续自动化的信息处理、知识计算等任务构筑了有力的基石。

在本篇论文中,百度信息抽取任务通过蒙特卡洛过程建模,提出了基于蒙特卡洛树搜索的开放领域信息抽取方法。在基于蒙特卡洛树搜索的强化学习架构中,信息抽取模型探索了大量的、可能的结构化知识,通过奖励函数的评价,反哺给信息抽取模型,从而在训练过程和推理过程中显著的提升了信息抽取模型的效果。在目前最大的人工标注中文结构化知识抽取数据集SAOKE中,模型取得了最好的效果。

论文2:Improved Touch-screen Inputting Using Sequence-level Prediction Generation

近年来,各种移动触屏设备不断的深入普及,在触屏软键盘上的输入效率则深深影响着人们的交流速度和用户体验。本篇论文对“触屏输入结果预测”的问题进行了形式化总结,阐述了依据“用户所输”和“用户所见”来预测“用户所想”的一般框架。同时,论文给出了在保证用户隐私的前提下,以输入效率为优化目标的特化问题描述。此外,论文描述了两种评价方法,以适应不同的用户输入习惯假设。实现方面,目前已有的输入效率提升方法包含输入纠错(包括字符替换、调序、删除、插入)、单词补全和候选打分排序等多个子步骤。本文提出了从“输入坐标序列”到“期望字符串”端到端的训练方法,并利用柱状搜索进行解码,实现了多个候选的一次性生成与排序。较分步骤的人工规则方法,这一方法有效提升了准确率,同时降低了特征构建成本,达到降本增效的成果。

论文3:Efficient Online Multi-Task Learning via Adaptive Kernel Selection 

因为无法在线性不可分的数据上应用,传统的多任务学习限制任务间结构为线性相关。为了解决这一难题,百度提出在线多任务核方法来解决分类任务,这个方法所在的再生核希尔伯特空间能够提供更准确的分类函数。特别的是,此方法为每一个子任务维持一个局部-全局高斯分布模型,以此指导参数更新的方向和规模。然而,在计算上优化这一方法会相当昂贵。大多数多任务方法需要获取整个数据来训练算法,这就限制了其在大规模数据流场景的应用。

为此,百度提出了一个随机采样的方法来为模型进行可适应素描。此方法不需要所有的数据标签,它会通过相似任务对标签预测的自信度,来决定是否需要数据的标签。理论上证明,与学习所有标签的方法比,此方法在采样样本上学习能够得到相似的结果。实验上,此方法能够提高准确性,同时减少了计算复杂度和标签成本。

论文4:Estimate the Implicit Likelihood of Gas with Application to Anomaly Detection

本篇论文提出了一种计算对抗生成网络(GAN)隐含似然值(implicit likelihood value)的方法,并应用于异常检测。不同于基于极大似然估计的方法,训练良好的GAN可以学习和生成尖锐的图像局部信息。但是,GAN 是一种隐含模型,很难直接估计给定数据点的似然值。这是由于直接通过GAN获取给定数据点(Data Sample)的隐藏变量(Latent Variable)比较困难,再者,对抗学习到的生成网络(Generator)的雅可比矩阵(Jacobian Matrix)通常不是满秩的, 无法直接用变量变换的形式来通过隐藏变量(Latent Variable)计算数据点的似然值。

为克服上述困难,本篇论文提出通过对抗生成模型增加推理网络(Inference Network)和方差网络(Variance Network)。基于RBF核的方差网络,可以把生成网络的输出拓展到整个生成空间,并且可以学习数据点的局部不确定性。对于给定的数据点,可以用学习到的推理网络直接获取数据点的隐藏变量。此外,通过方差网络和推理网络的结合,可以避免雅可比矩阵的奇异值的问题。本篇论文提出的模型在MNIST,CIFAR10,Imagenet32获得优于其他基于神经网络的成模型的似然估计,在MNIST 和 CIFAR10等数据集上有不错的异常检测的表现。

以上介绍的4篇论文是百度研究院众多出色研究成果的一小部分。百度研究院由百度CTO王海峰博士兼任院长,已经取得了一系列前瞻的研究成果和技术落地应用。后续还将持续向行业介绍更多来自百度研究院的学术论文成果。

理论对抗生成信息抽取论文百度WWW 2020
1
相关数据
高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

异常检测技术

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

特征构建技术

特征构造(也称为构造感应或属性发现)是一种数据增强形式,可将派生特征添加到数据中。 特征构造可以使机器学习系统在各种学习任务中构建更准确的模型。

雅可比矩阵技术

在向量分析中,雅可比矩阵是函数的一阶偏导数以一定方式排列成的矩阵,其行列式称为雅可比行列式。在代数几何中,代数曲线的雅可比行列式表示雅可比簇:伴随该曲线的一个代数群,曲线可以嵌入其中。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

再生核希尔伯特空间技术

在功能分析(数学分支)中,再生核希尔伯特空间(RKHS)是点估算是连续线性泛函的函数的希尔伯特空间。

多任务学习技术

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
推理网络技术

推理网络是一种执行复杂推理任务的方法, 它通常基于从各种来源中获得的大量的以及不同形式的证据。推理网络被广泛的应用在法律,医学,以及情报分析,人工智能等众多领域。这些任务的复杂性通常可以通过现在被称为推理网络的图形结构来获取和表示。

推荐文章
暂无评论
暂无评论~