Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

让机器理解语言的魔法师——揭秘Facebook语言技术小组

前言:将照片翻译成语言、用户消息排序、虚拟助手和聊天机器人……Facebook 的「语言技术组」正在用人工智能改变 Facebook 用户与世界的交互方式。


Facebook 这个社交媒体巨头涉足人工智能很晚,但它有大约 50 人组成的「语言技术组(Language Tech Group)」,他们正计划革新我们使用 Facebook 的方式,并维护它作为世界上最大的社交网络的地位。

上个月,在 Facebook CEO 马克·扎克伯格的玻璃墙围起的会议室里,他坐在一个朴实的灰色沙发上进行了首次网络直播问答,人工智能的话题不可避免地被提起。

当被问及 Facebook 如何最好地造福残障人士时,扎克伯格说「对于 Facebook,最让我兴奋的一个技术领域就是人工智能了,」他睁大双眼,认真而紧张地盯着摄像头,「它正好契合了我刚才谈到的主题——如何将这个世界的机会开放给每个人?」


人工智能理所当然地在科技界引起了热议,因为它不但有潜力转变所有形式的数字服务,而且还有可能为人类面临的所有问题都带来突破,从战胜致命疾病到应对全球变暖。在今年早些时候的公司年度大会上,扎克伯格明确表示在 Facebook 为保持在社交媒体上和科技行业中的领先地位而制定的十年计划中,人工智能将是其中一大核心支柱。


目前,Facebook 使用人工智能的目标要么比较普通,要么就不那么重要:维持全球用户的使用活跃度和快乐感,和把 Facebook 的 Messenger 转变成驱动「聊天机器人(chatbot)」的会话平台,这是能为用户完成预定酒店或提供客户服务等任务的应用。负责搭建这些功能的就是该公司的语言技术组,该团队现有约 50 位成员,于两年半前组建,领头人是前微软元老和机器学习专家 Alan Packer。


「我们使用互联网和电子设备的方式正在发生改变,」 Packer说,「人们不会再坐在电脑键盘前面了。所有人都笃定手机之后会有更先进的电子产品出现,很有可能体积更小而且还是可穿戴的。」


Packer 的团队在过去的两年中都致力于解决与语言相关的人工智能基础难题,包括语音识别、自然语言理解和机器翻译,力图逆转局势赶超竞争对手。微软、谷歌和 IBM 等科技巨头都有好些年(甚至几十年)的研发语言理解和翻译工具的经验。而最近很多新玩家也加入了竞争,比如苹果的 Siri、亚马逊的 Alexa、微软的 Cortana、Google Now 等会话接口,它被看作是计算领域的下一个大事件。人工智能专家表示这项技术还处在初期阶段,而随着专门支持人工智能的算法和计算机系统的不断进步,目前的局势有利于 Facebook 缩小与领先者的差距。


卡内基梅隆大学的语言技术研究所(Language Technologies Institute)的主管 Alan Black 说:在语言技术方面「Facebook 由于最近刚起步,现在有点落后,但他们会赶上来的。」


语言技术组(Language Tech Group)的诞生是出于必要。两年多前,扎克伯格和他的公司意识到作为一家有着使用大量不同语言用户的社交平台,要想谋求长远发展,他们迫切地需要自己的翻译工具。直到去年年底,他们的翻译还要靠微软 Bing。但无论是 Bing 还是其它那些现成的开源翻译工具,在社交网络中都效果不佳。因为它们本来就不是用来翻译网络上的非正式用语和日常会话的。微软跟谷歌一样,至少刚开始训练翻译软件时用的是跨多种语言翻译的正式文档,比如联合国和欧盟的程序性文件、技术手册和书籍。但社交网络上充满着拼写错误、俚语、脏话和不断变化的方言,基于正式文档的翻译工具显然并不理想。


image.jpg

Alan Packe,Facebook 语言技术组领导者,这是一个致力于机器翻译、语音识别和会话理解的人工智能团队


Facebook 在 2013 年收购了语音对语音翻译(speech-to-speech translation)研发公司 Mobile Technologies 的前后开始组建语言技术组。该团队很快就投入对其第一个项目——翻译工具——的研发,到 2015 年 12 月,Facebook 用的翻译工具已经完全转变成自主开发的了。


41 岁的 Facebook CTO Mike Schroepfer 负责监督语言技术组和公司的其它人工智能方面的工作,他说:「如果你用我们的系统去翻译网页,它很可能翻译得很槽糕,但在我们关心的使用场景中它是真正最优的。」


翻译看起来似乎只是一个基础级的问题,但它对 Facebook 在全球的扩张至关重要,因为强大的翻译功能有利于消除朋友、家人和陌生人之前分享的障碍。三分之二 Facebook 用户用的不是同一种主要语言,而且大多数用户都不说英语。但用户在 Facebook 看到的大部分内容却是英文的。如果用户能阅读并理解一个法国堂兄发布的内容,或者能阅读到第一手的世界新闻,就能拉近用户的距离。


「Facebook 真正关心的只有很少一部分性能指标,它们都与影响力和参与程度有关,」 Packer 说,「不仅要用户在 Facebook 上花更多时间,还想知道有没有给他们带来好的感受?而翻译功能能实现这一点。」


现在 Facebook 每天都会处理覆盖 40 种语言的 20 亿条翻译,上周他们发布了一个名为「composer」的新功能,它能以用户喜欢的语言为他们显示朋友发的帖子。但该公司仍然想继续改进自动翻译并支持更多语言。 Schroepfer 预测更好的翻译功能会引发会话的激增并吸引到新用户。


「用母语讲话会让你延长互动时间并让对话更富表达力,」 Schroepfer 说,并补充道更好的翻译功能会促进更多样化和更有创造性的想法在 Facebook 上传播。「人们能在网上自然地跟任何人表达自己,这简直就是科幻小说中的场景,而我们现在就快要实现了。」

两年半之前,在想要更广泛的推动以及认真对待人工智能的情况下,Facebook 将 Packer 招募了进来。2013 年,该公司创建了 Facebook 人工智能研究中心(FAIR),该机构的人员数量现已超过了 60 位,而其领导者也是世界知名的深度学习专家,以及 55 岁的 Yann LeCun。后来到 2015 年秋季,Facebook 建立「应用机器学习(Applied Machine Learning)」实验室,该实验室现在已经超过有 100 位研究者和工程师。这个实验室的负责人是 Joaquin Candela,今年 39 岁。他们的研究重点是将人工智能灌注到 Facebook 产品中,而该团队的研究领域包括语言技术、核心机器学习(core machine learning)、计算摄影(computational photography)以及包括计算机视觉和图像识别在内的「感知」。Facebook 最新的人工智能团队是 Wit.ai,该团队是 Facebook 为了帮助M 应用的前端驱动而于去年收购的。该公司表示,Facebook 的所有人工智能工程师和研究者都在相互合作。


image-1.jpgFacebook CTO Mike Schroepfer 在去年的 F8 大会上做关于无人机和人工智能的主题演讲


「在基础研究上应该做多少与在工程上应该做多少,二者之间总是存在着紧张关系,」Candela 说,「我的哲学是必须两者都做。」


今年 48 岁的 Packer 是一个乐观又谦逊的天才,他戴着四四方方的黑色眼睛。他很高兴有机会能详细解释机器学习的「反馈回路」——在 Facebook 总部,他在身后的白板上写写画画。


当 Packer 还是俄勒冈州 Aloha 市的一个小男孩的时候,他就开始对计算感兴趣了。他的父母购买了一台 IBM 最早期的个人计算机,而他用这台计算机为自己的母亲创造了一个食谱存储工具。后来他进入华盛顿大学学习电气工程,然后又将主修专业换成了计算机科学,因为他更想要做编程而不是数学。当他意识到「人类不能扩展」后,他就进入了人工智能领域。


Packer 职业生涯的起点是作为英特尔一位安全问题(如内容监控和防垃圾邮件)方面的工程师,一干就是七年。然后他追寻自己的创业决心,进入了一家机器学习创业公司 RuleSpace 担任工程副总裁,该公司于 2002 年被微软公司收购。之后 Packer 又在这家软件巨头公司度过了 12 年。他担任过该公司的反恶意软件团队的管理者,然后又领导了 Bing 的「语言和意图团队(language and intent team)」,该团队为微软的个人助理 Cortana(小娜)开发后端以及核心技术。


开发了翻译技术之后,语言技术组在去年内相继开始建立 Facebook 的第一个语音识别和对话理解工具。目前,Facebook 仅有的语音识别工具是为无声视频广告和 Facebook 的 M 礼宾工具自动添加字幕,该工具可以转录短的语音备忘录。但是,随着消费者的设备和键盘越来越小、用户越来越青睐于消息和视频,Facebook 对语音接口的需求也会增长。


到目前为止,主流的语音接口都还很差强人意,而且在很多情况下也不为社会所接受。比如,在星巴克排队的时候对着 Facebook 说话很可能会被认为是粗鲁的行为。而即便语音接口还不完美,Packer 说键盘在社会交互中的使用频率会随时间而越来越低。Facebook 计划在未来五年内更深入地将语音识别整合到其主应用之中,并让用户可能能通过语音命令执行搜索或完成用户通常需要使用手指或鼠标才能完成的行为,比如发布一张群组照片、去除红眼或与虚拟助手交谈。


Facebook 的虚拟现实系统 Oculus Rift 是该公司另一款会因语音而成熟的产品。使用 Oculus 在丛林里探险时,使用键盘或控制器会降低真实感。语音工具可让用户轻松开始游戏并且与朋友一起虚拟地游玩。比如,当你说你想邀请「Amy」进入游戏时,Facebook 会知道你指的是你的好朋友 Amy Smith,而不是你上高中时遇见过的某个已经失去联系了的 Amy。随着时间的推移,Facebook 将变成连续的、总是在线的会话状态(session),能跟随用户通勤、工作、进入虚拟现实,甚至在家中作为助手帮助做检查天气、规划旅行或购买东西等日常事务。其愿景是:用户在一个 Facebook 服务上获得的交互可以帮助他们在另一款 Facebook 产品上获得个性化的体验。


语言技术组的第三个分支是会话理解(conversational understanding),这是目前 FAIR 的头等大事。文本理解是精确调节(curating)相关帖子、评论和搜索结果的关键。比如,当你在日本旅行时,如果你问哪里可以吃寿司,Facebook 可以很好地将你的帖子展示给曾经去过日本或很了解寿司的人。会话理解也可被用于向用户提供精心调配过的某个特定朋友或家人的生活的更新、时事或有趣的猫的动图。而且该技术也是聊天机器人——现在 Messenger 上已有 11,000 个 Bot——以及与个人助理对话的工具的关键。


「Bot 已经变得非常火爆,」Packer 说,并且他还指出文本会话和口语接口具有相同的底层技术。「想一下 Facebook, 我们每天会接收到百万条会话信息,你就能想到 Bot 技术的应用几乎是无限的。」


为了提高会话技术,Facebook 在其研究模型上应用了一系列的训练数据,其中包括用户的匿名帖子和会话,以及大型公共数据集。今年,FAIR 扩展了其训练数据,纳入了数百本儿童图书,其目标是创造出能够像人类一样猜测故事中的下一个句子的人工智能。

「现在的自动系统是让人痛苦的,」34 岁的 FAIR 自然语言研究员 Antoine Bordes 说,「你能清楚的感觉到你在和 Bot 对话(而非人)。」



Facebook 的礼宾助理 M 现已被湾区的超过 10,000 名用户使用,但背后仍然有很大一部分的人工协作。然而,其执行的发送星象、预订餐厅、订购童车、降低有线电视费或检索事实等范围很广的任务表明这些是 Facebook 计划在未来实现自动化的任务——那种不需要用户记住代码或指令的自动化。为了帮助实现这种可能,Facebook 创造了一个以文本为中心的理解引擎 DeepText,该引擎可每秒解读数千个帖子的含义和情绪。


「我们正尝试让 Facebook 更像是一个会话接口,而不是等着被动消费的东西。」Schroepfer 说,他描述了一种听起来像有一个数字私人管家一样的体验。「我们想做到最好,在你想要某个信息的瞬间你就能准确的得到该信息。你跟我们谈论你想要的东西越多,我们需要的猜测就越少,我们知道的也就越多。」


为 Facebook 开发人工智能同样也有挑战。Facebook 上各种各样的方言使理解整个网站上的 emoji 和标签的细微差别变得十分艰难,尤其是现在还没有一个主要的用来收集更多数据的语音接口。而且 Facebook 上大部分文本都仍然是「非结构化的(unstructured)」,这意味着其还未被机器解读或分类。然而,Facebook 的一些内部技术能让该公司利用其它公司所不具备的数据金矿。


「我们自己来开发这种技术的原因之一是我们知道你们人本身、所在的位置、以及感兴趣的事物,」Packer 说,「这让我们可以比利用开源工具或第三方软件做得更好。如果无法获取 Facebook 的数据,那就没人能做到那一点。」


预估 Facebook 人工智能的货币价值是很困难的,但 Schroepfer 提醒说即使是一些单个的功能也能带来很大的回报。该公司已经在使用人工智能的形式来驱动动态消息(news feed)了,其可以梳理排序数十亿份广告、文章和朋友帖子,然后将其中最相关的展示给用户。该公司也在使用人工智能来识别照片中的人脸。在今年的 F8 大会上,该公司展示了为患有视觉障碍的用户开发的「talking photos(会说话的照片)」功能,它能将照片翻译成文本或音频。


image-2.jpgJoaquin Candela 领导着 Facebook 的应用机器学习(Applied Machine Learning)团队,也就是语言技术组所在团队


这些技术得到的结果令人鼓舞。比如说,为动态消息中的无声视频广告提供自动字幕的功能将视频广告的观看次数提升了 40%,视频广告参与度(通过完整观看、点赞和评论等行为测量得到)也提高了 15%,而视频广告是 Facebook 最赚钱的产品之一。


Schroepfer 说:「我们已经(在人工智能上)看到了足够的成功,甚至这些小的案例也能为 Facebook 带来巨大的好处,我们非常激进地投资未来,这让我们感到非常兴奋。」


Facebook 在这场人工智能竞赛中能取得怎样的成绩还有待观察,但该公司显然已经下定决心向前了。Facebook 的成果由该公司内部共享的人工智能「脊梁」FBLearner Flow(重磅 | 幕后英雄:走进Facebook 有史以来最大的人工智能项目)驱动,其通过跨产品团队运行的方式让工程师们可以轻松获取该公司最好的模型以及同时运行数千个实验。该公司现在每天运行的人工智能实验次数是去年同期的 50 多倍,而且 Facebook 超过四分之一的工程师都会使用这一渠道。


Facebook 描述该公司具有自下而上的技术文化,这让工程师在团队之间频繁调动,并将产品团队和研究团队紧密连接了起来,从而帮助人工智能团队更快地运行。替代或重建十年之久的人工智能技术?Facebook 觉得毫无问题。


「对接上能帮助解决你问题的专家或技术真的非常容易,」Schroepfer 说,「这就是为什么说我们不会造出一大推最终没法使用的东西。」


Facebook 不会规定它该在人工智能上投资多少,但是它也不想落后。


「正是这项基础的赋能科技(enabling technology)将打破通信的障碍、时间障碍、或阻止人们做他们想做的事的事物,它将真正理解每一个人。」Schroepfer 说,他也指出人工智能某个领域的进步往往能帮助到一系列的行业,从医疗到汽车。「对于未来将会如何,我是相当乐观的。」

入门Facebook产业NLP应用
暂无评论
暂无评论~