Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

腾讯微信团队作者

自媒体文章质量如何AI知道,这是微信的自动评估算法

自媒体时代,每个公众号都在思考一个问题:如何让我的文章被更多人看到?其实,除了运营之外,本章本身的质量才是最根本的。在这篇文章中,腾讯微信数据质量团队解读了他们的自媒体在线文章质量自动评估算法,告诉你模型眼中的好文章都是什么样的。



移动阅读时代涌现了许多用户生成内容模式下的自媒体平台,每个用户都可以作为内容生产者,这种开放性同时也导致了自媒体在线文章的质量参差不齐。自动评估自媒体在线文章质量对在线推荐、搜索和广告等应用场景都具有重要意义,然而当前几乎没有针对该任务的研究工作。 

不同于格式良好的传统文章(例如学术论文和 Wikipedia 文档),自媒体在线文章主要由用户创建,没有统一的格式、布局和写作规范,包含文本、图像和视频的多模态混合编辑,以及内容丰富、风格多样、语义跨度大的潜在特征。同时,评估过程需要充分考虑读者的阅读体验。此外,影响文章质量的因素包括内容,排版布局,写作风格等不同方面下的多种影响因素。这些都使得自媒体在线文章质量的自动评估变得更加复杂和具有挑战性。

为了解决这些挑战,在 ACM MM2020 中,腾讯微信数据质量团队建立了一个统一的框架来有效地学习和整合在线文章质量评估的不同因素,结合排版布局、写作风格和深度语义建立了一个联合模型 CoQAN ,设计了不同的表示学习子网络,特别是考虑了交互特征学习过程和移动终端上的交互阅读习惯,这与人类对文章质量评价的认知方式更为贴合。作者还构建了一个大规模的真实世界评估数据集。充分的实验结果表明,所提出的方法有效地学习和整合了在线文章质量评估的不同因素。


论文链接:https://arxiv.org/pdf/2008.05658.pdf

考虑到自媒体平台的性质,作者将自媒体在线文章质量合理地定义为文章带给用户的阅读体验水平,即文章的可读性,反映在文章的信息内容、写作规范、用户感知等方面。

高质量文章需要满足布局工整美观,有清晰的版块和段落划分,图片和文字排列整齐; 内容具有连贯性和高聚合度,具有良好的写作逻辑和丰富的信息。相反,低质量的文章往往布局或写作逻辑令人困惑,内容不完整或无意义,甚至可能是一片拥挤的文本或混乱的纯图片或视频。

图 1 展示了两篇报道同一新闻「绑架和谋杀中国学者张莹颖事件」的微信公众号文章,我们可以很容易地分辨出它们之间的区别:右侧低质量的文章包含不相关的广告图片,并且它在很少的文本行数中使用了多种文本格式,这给读者的眼睛带来了不必要的负担,而且在表达上使用了更多口语和情感词。相反地,左侧的高质量文章具有更好的写作逻辑和表达方式并传达了更丰富的内容。
 

图 1:高质文章(左)与低质文章(右)示例

我们知道人类阅读自媒体在线文章时的认知过程是由浅入深的。

读者点开文章时,首先感受到的是排版外观,即读者的表层认知。精美的视觉布局和丰富的呈现形式可以使读者对文章产生兴趣,并为读者带来更好的阅读体验。

然后,读者通过浏览词汇、句法、文章组织和图片来获得内容的主要印象,这是读者的浅层认知。

最后,读者需要对文本语义和写作逻辑有深度的理解,才能领略到文章的意义和价值,这是读者的深层认知。

受上述认知过程的启发,本文建议结合布局组织、写作特征和文本语义,交互地进行特征表示学习并整合到统一框架中以评估自媒体在线文章的质量。不同于传统的文档质量评估大多只考虑文本要素,本文所提方法将图片用作建模页面布局的关键单元,并提取重要的图片特征以反映视觉观感水平和文章的可读性。

该工作的主要贡献包括:

  • 据了解,这是解决自媒体在线文章质量自动评估的第一项研究工作。所提出的方法可以很好地模拟人类专家的评分要素和阅读习惯。

  • 作者提出了一个结合了不同特征空间子网络的联合认知表示学习模型,并构建了自媒体在线文章质量评估的端到端框架。

  • 作者构造一个大规模的现实世界数据集。充分的实验结果表明,提出的模型明显优于以往的文档质量评估方法。


具体方法

本文将自媒体在线文章质量评估视为一项分类任务,即给定一篇文章,预测其为高质量文章或是低质量文章。

图 2 展示了本文提出的自媒体在线文章质量评估的 CoQAN 网络架构,其中设计了三个子网络来解耦布局组织、写作特征和文本语义的建模。

对于布局建模,研究者考虑了人们在终端上阅读自媒体文章时从上到下滑动浏览的顺序阅读习惯,将文章划分为内容块序列,显式地学习文章图文标题等要素的排版布局,并同时捕捉整体的页面布局和局部的排版模式。

写作特征子网络考虑到了多模态元素特征,并且能够通过深层次的特征交互关系的学习进行不同特征子空间的特征选择和特征融合,实现高阶非线性的特征融合。

文本语义子网络从不同语义层次深入捕获篇章级长文本内容中的语义和内聚关系,深入学习复杂的语义空间中词间和句间的依赖以及文章整体的写作逻辑。在融合层,每个子网络都经过一个全连接层以调整各神经元在输出向量中的权重,级联后经过输出层预测得到质量类别。
 

图 2:本文提出的自媒体在线文章质量评估的 CoQAN 网络架构

布局组织子网络

为了显式学习外观布局的组织排列,作者首先通过页面解析将文章划分为一序列的内容块,内容块可以是标题、段落、图片或视频,如图 3 所示。

之后,为每个内容块提取页面布局相关特征,例如类型(文本 / 图片 / 视频)、在文章中的位置、内容块自身高度、距页面顶部的距离等。将这些特征值进行聚合构成每个内容块的排版特征向量,其可以表达多个重要的布局特征。
 

图 3 :布局组织子网络中内容块提取和输入特征向量的构建

在内容块排版特征向量序列上应用 GRU 网络来建模内容块之间的序列依赖并捕获文章的全局排列模式。同时,作者在输入排版向量上应用了一维卷积神经网络以学习关键的局部布局,设定多个尺寸的卷积核来捕获不同比例的布局模式。 两个网络进行级联产生该子网络的输出向量。

写作特征子网络

写作特征子网络可以捕获在线文章的编辑风格。作者提取和计算了包括标题、正文、图片和视频、篇章组织等方面的特征。例如,标题特征包括标题长度、关键字数目等;正文特征包括文章类别、文本长度、n-gram、词性标签、非重复字符和非重复单词比例等;图片和视频特征包括图片数目、动图数目、视频数目、OCR 文字的最大数目等,篇章组织特征包括段落数目、作为版块标识的模板图片数目、图片数与段落数的比例等。

为了允许不同类别特征和数值特征之间的交互,写作特征子网络首先通过嵌入层将所有特征投影到相同的特征空间中,旨在在嵌入空间中对高阶组合特征进行建模。在本文中,作者通过应用多头自注意力层同时在多个特征子空间中学习不同特征之间的相互依赖关系,并进行特征空间的融合。多头使得一个特征域可以包含在不同组合特征中。

作者在网络中添加了残差连接以保留之前学习到的更低阶的组合特征,包括原始的单特征。网络堆叠多层多头自注意力层,从而可以同时建模多阶组合特征,实现不同空间的深度特征融合。

文本语义子网络

作者改进 BERT,设计 hi-Bert 作为文本语义子网络。依靠强大的预训练技术,BERT 具有很强的建模上下文关系的能力。由于 BERT 中的自注意力机制的时间复杂度为 O(n2),BERT 目前仅用于处理句子级文本,并不适合用于文档级长文本输入。考虑到文档固有的层次结构,即单词构成句子、句子构成文档,作者将 BERT 改进为层次结构称为 hi-BERT,其包含两个层级的编码器依次对文档进行编码,分别应用于句子级别和文档级别。

由于标题是对文章的高层概述,这里将标题也作为输入句子。在句子级别,网络以迁移学习的方式使用预训练的 BERT。在文档级别,作者采用了文档级双向 Transformer 层学习句子之间的深层依赖关系得到最终的文章语义向量。hi-BERT 可以深入学习单词和句子之间的交互关系,并在面对不同的写作风格时可以学习到鲁棒的文章语义表示。

实验结果

由于尚无公开数据集可用于自媒体在线文章质量评估任务,作者从微信公众号平台上收集处理在线文章数据,构建了一个自媒体在线文章质量分类数据集。该数据集包含 38,248 篇在线文章,涵盖了 44 种文章类别,涵盖新闻,金融,技术,民生等。实验在该数据集上进行评估。

对比实验结果显示,所提方法 CoQAN 在各项指标上均显著达到最佳。实验中,基线模型与本文所提模型使用相同的特征,因此模型的优越性能受益于作者提出的联合网络表示学习架构,可以完备性地学习到更多有价值的信息。
 


消融实验结果证明了每个子网络的架构以及联合学习的有效性。去除文本语义子网络时,网络性能下降最大,这说明建模好复杂的写作知识是非常必要的。另外,文本语义子网络的性能超过了仅对文本输入建模的所有基线模型,并且写作特征子网络的性能超过了所有基于特征的基线模型,对文章布局的建模可以有效提升文章质量评估的性能。从实验结果来看,任何两个子网络联合后的性能都优于单一子网络,并且联合了三个子网络的整体网络 CoQAN 是最优的,这证明每个子网络对于自媒体在线文章质量评估都发挥了重要作用。
 


作者设计了扰动实验,以验证模型是否可以学习到所关注的写作逻辑和布局模式。实验中,随机打乱所有被正确预测为正样本的文章的句子或布局内容块的顺序,并将打乱后的样本视为负样本,观察成功扰动的比例。扰动率越高,说明模型对写作逻辑和布局模式更为敏感,对文章质量的评估能力越强。

从结果来看,本文提出的模型显然比所有对比模型对句子打乱的干扰更为敏感,这表明 CoQAN 可以更轻松地捕获句子之间的内聚关系,并学习内容和写作逻辑的一致性。单文本语义子网络(TS)的成功干扰率要高于整体联合网络 CoQAN ,这是因为扰动实验是对正样本进行的,而正样本具有良好的文本质量和排版质量。因此,当仅打乱句子时,良好的布局会在一定程度上阻止 CoQAN 将其判断为负样本。同时打乱布局顺序和句子顺序时,成功干扰的比例远高于单一维度下的干扰。这些结果证明了本文提出的 CoQAN 成功地学习到了文本写作和页面布局的知识。

 
另外,作者对特征的交互关系进行了可视化分析,发现底部自注意力层可以区分主导特征,而顶层则学习更复杂的特征空间交互,获得有意义的高阶融合特征。图中结果可见,占主导的特征有文本长度和图片中的最大字符数,高质文章通常具有更丰富的内容和更规则的图片,而低质文章通常具有不完整的内容,并且经常出现包含很多文本文字的广告图片。其他重要特征包括图片中文本区域占比,非重复词数,标题中的关键词数,图片数,段落数和词性等,表明图片、标题、写作和正文的组织对于自媒体在线文章质量都非常重要。
 


理论自注意力特征抽取微信AI
相关数据
张莹人物

佐治亚理工学院电气与计算机工程系副教授,感知器与智能系统实验室主任。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

时间复杂度技术

在计算机科学中,算法的时间复杂度是一个函数,它定量描述了该算法的运行时间。这是一个代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述,不包括这个函数的低阶项和首项系数。使用这种方式时,时间复杂度可被称为是渐近的,亦即考察输入值大小趋近无穷时的情况。例如,如果一个算法对于任何大小为 n (必须比 n0 大)的输入,它至多需要 5n3 + 3n 的时间运行完毕,那么它的渐近时间复杂度是 O(n3)。

分类数据技术

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。 有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
迁移学习技术

迁移学习 是属于机器学习的一种研究领域。它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。计算机领域的迁移学习和心理学常常提到的学习迁移在概念上有一定关系,但是两个领域在学术上的关系非常有限。

推荐文章
暂无评论
暂无评论~