百度发布「交互新闻」,新闻bot是未来?

百度新闻的chatbot是电影《Her》中描述的未来吗?

电影《Her》中的人工智能机器人 Samantha 说「The past is just a story we tell ourselves.」(「过去的时光」只是我们讲述给自己的一段故事)。Samantha 和目前所有的人工智能机器人的基本技术原理一样,通过大量的数据学习来进行信息的重构理解人类思维。而新闻的起源正是人类通过讲故事的方式对信息的重构。

随着自然语言处理、知识图谱等人工智能技术的发展,许多媒体已经开始了将人工智能技术在内容生产方面的探索。《纽约时报》数字部门开发了机器人编辑 Blossomblot,每天推送 300 篇文章,每篇文章的平均阅读量是普通文章的 38 倍;在华尔街引起巨大反响的 Kensho 可以通过接入美国劳工部等数据源来自行创造投资分析报告;Automated Insights 的写作软件去年写了 150 亿篇文章,宣称自己是世界上最大的内容生产者;路透社也在发表机器撰写的文章,该系统的负责人认为「在一次盲测中,机器的作品表现得比人类作品更具可读性。」;此外,还有专门提供「标题党」服务的 Click-o-Tron 公司。来自 Narrative Science 的 Kris Hammond 甚至都预测「总有一天,机器人会赢得普利策奖」。

从新闻生产到读者阅读,中间会有多个环节,上面这些「机器人写作」案例都是在解决内容生产的问题,来提高新闻生产的效率、效率和实效性。但在用户的阅读体验方面,还是传统的静态阅读的方式——我们对着手机读一篇新闻和对着报纸在本质上是没有区别。而近期百度则借助自然语言处理技术带来了「交互新闻」,实现了更加智能和自然的内容组织及阅读体验。

Synced (101).jpg

首先,在内容组织方面,百度自然语言处理团队利用传统的语义分析技术,结合知识图谱、词向量、文本分类等技术,对每一篇新闻的内容、段落逻辑进行深度理解;再对同一话题下的不同新闻观点进行聚类以及关联度计算,提炼出新闻的核心内容及其相互之间的关系,提高用户阅读新闻获取信息的效率。

其次,在交互方面,团队结合机器人聊天的技术,在对话场景中,自然地向用户提供新闻内容。在用户了解完相关新闻后,为用户关联推荐深度问题,引导用户了解新闻更多相关信息。当用户主动提问时,通过解析用户的意图和需求,理解提问,从新闻知识中获取对应的回答关键点,再对新闻内容作加工提炼用来回答。

这两种结合起来创造一种全新的基于对话的新闻体验方式,与传统的新闻体验方式相比,它主要具有以下几个优势:

1)去中心化,传统方式是以新闻内容为中心,然后用户去「适应」——在众多内容中花时间借助于浏览和搜索去找到自己需要的内容,而现在这种方式则是在一个重新组织的内容库中,用户基于自己的需求迅速获得相关内容,大大提升了用户获取信息的效率。

2)更加自然的交互。在传统的新闻体验中,用户和内容是处于割裂状态,需要各种媒介来传递信息,比如说纸张和印刷。即便在互联网时代,各种内容产品也都需要有自己的用户界面,而对话是我们最自然、也是最高级的交互方式,如果可以通过这种方式来获取信息,那不同的内容提供商就不用再自己开发各自界面了,可以接入这类交互新闻的平台,同时用户可以更加自然和高效的获取信息。

3)个性化阅读。对于同一个话题,每个人所需要的内容和延伸阅读都是不一样的,也就是说,即便是通过机器学习的个性化推荐可以把某篇文章推送到一个特定群体,那这篇文章也无法让这所有人都满意,或者说无法达到一种最优的信息传递状态,这是从「内容本位」下的难题。解决这个问题的途径只能是让用户从自身的需求出发,借助于层层递进或者向外扩展的 query 从重新整理过的内容库里逐步获得自己所需要的内容,在这个过程中不会出现任何信息冗余,这才是最高程度的个性化阅读。

媒体领域出现这种趋势的原因在于相关技术已经达到了一定的成熟度,而且这种成熟度是和新闻媒体的要求很好的匹配在了一起。在卡斯韦尔的「结构化故事」系统中,所谓的「故事」完全不是个故事,而是一个信息网,我们可以像对待文案、信息图表或者其它表达形式一样去组装它,阅读它,就像我们摆弄音乐音符一样。任何一类信息——从法院报道到天气预报——都能够最终能放入到这个数据库中,这种系统的潜力是巨大的。

根据 Donald W Reynolds 的说法,人工智能系统在进行新闻创作时需要解决非常多的技术难题,包括自然语言处理中的自动摘要、文本分类等,还有知识库和知识发现(KDD)等相关技术,比如实体定义、关系抽取、问答系统等。简单来说,就是机器首先需要理解自然语言,然后通过知识管理弄明白新闻中各个要素(各类知识)之间的关系。而百度这次的交互新闻更是加上了自然交互,实现这些和背后的众多自然语言处理技术都密不可分。百度主要通过以下技术来解决这些问题。

首先,在语义表示方面。它是指将文本中蕴含的语义信息进行表示,表示成更简单、明确、易懂的形式。而 DNN 文本语义向量表示,将词语、短语、句子等文本转化为低维向量,转化成机器可计算的形式,方便衡量文本中的信息。Word Embedding 和深度学习的结合很好的解决了这个问题。

其次,在语义匹配方面。我们可以根据文本语义的相似性进行匹配、排序等,如 Query 和网页、Query 和广告、问题和答案等。SimNet 是一系列基于神经网络的机器学习模型,采取有监督学习的方式,采取 Pairwise Rank Loss 的学习策略。利用大规模有监督数据上训练(如,点击日志)进行训练。目前包含 BOW(Bag-of-Words)、CNN、RNN 多种神经网络模型。SimNet 语义匹配计算,基于神经网络模型,利用大规模有监督数据上训练(如,点击日志)进行训练,进而实现语义匹配。

第三,文档摘要。单文档摘要模块是从原始的新闻文档中提炼出最重要的信息来生成新闻的精简版本。本模块通过对新闻文档的类别、结构进行分析,以及特征的学习等方法实现自动为各类新闻提供精简摘要的功能,为用户提供最核心的信息。为满足展现、播报等不同需求,支持短摘要、微摘要、长摘要和播报摘要四种不同的摘要计算模型。

自然语言处理技术所有信息密集型处理过程的核心,也是今年以来谷歌、Facebook 和微软等科技巨头都最为重视的研究方向,在刚刚结束的语言学顶级会议 ACL 上,他们也都发表了众多重磅论文。谷歌开源了 SyntaxNet,将神经网络和搜索技术结合起来,在解决歧义问题上取得显著进展——能像训练有素的语言学家一样分析简单句法;Facebook 推出了文本理解引擎 DeepText,每秒能理解几千篇博文内容,语言种类多达 20 多种,准确度近似人类水平。

自然语言处理技术的成熟为内容的组织和交互提供了基础,而交互新闻这种产品形态的出现则是让我们看到了新闻 bot 的前景。

今年可以被称为 bot 元年,谷歌、Facebook 和微软都在积极开发自己的 bot 平台,希望创造一种全新的连接用户与服务的方式,来解决那些容易无聊的、重复乏味的以及纯体力消耗的工作,聊天机器人将为商品、服务和信息的无障碍获取提供保障。而新闻阅读就是其中一种。

诚然,目前你的自然语言处理技术离那种完全通过自然交互来极其准确的获取内容的目标还有些距离,但这至少让我们看到了改变的开始。《浅薄》中提到,互联网作为一种智力工具,在给我们带来便利的同时也在重塑着我们的思维方式。随之而来的问题是,互联网这种媒介传递的信息越多,我们想找到优质或者自己所需信息的难度也就越大。而这正是交互新闻的优势所在,它可以让大数据从负担变成便利,会重塑媒体的内容生产、分发和体验。

电影末尾 Samantha 在与男主角的告别中说到:「It's like I'm reading a book... and it's a book I deeply love. But I'm reading it slowly now. So the words are really far apart and the spaces between the words are almost infinite. I can still feel you... and the words of our story...」

「这就好像我在读一本挚爱之书。但这一次我要慢慢地读,细细地品味。所以这字词与文句的空白和间隙似乎便延展成为无限。我能感觉到你,以及我们在这字句之间的故事。」

一个用人工智能机器学习来实现信息重构的过程,就这样通过一种浪漫主义思维表达出来。从新闻机器人起始,这样动人的科幻未来可能已经不远了。

入门
暂无评论
暂无评论~
返回顶部