微软收购NLP明星公司Maluuba,Bengio将成为微软顾问

2017 年 1 月 13 日,微软宣布收购加拿大初创公司 Maluuba。Maluuba 由加滑铁卢大学毕业生 Kaheer Suleman 和 Sam Pasupalak 所创,关注服务于通用人工智能的自然语言处理研究。在此次收购中,担任 Maluuba 顾问的 Yoshua Bengio 也同时与微软达成了协议,进而成为微软的顾问。目前该交易的金额尚未披露。



公司背景


加拿大滑铁卢大学(University of Waterloo)以计算机学科闻名,2011 年 8 月 18 日,学校在读研究生 Kaheer Suleman 发明了一款智能程序,取名 Maluuba。同年,他与几位同学创立了 Maluuba 公司,他们最初的想法是做一款智能语音旅行工具,用户可以通过语音搜寻航班。


2012 年 2 月,Maluuba 从三星风投获得 200 万美元种子轮投资。半年后,他们的第一款产品出现在公众视野中,这款程序能把用户的语音请求转化为有用的信息或行动。虽然不少媒体将之称为「Android 平台的 Siri」,但 Maluuba 的初衷却是要挑战 Siri,而后续发展也表明,Maluuba 的确比 Siri 更出色。


Maluuba 通过绑定第三方服务来实现语音助手功能。2012 年 11 月,公司对外发布了自然语音处理 API 接口,移动开发者可以在自己的应用中添加类似 Siri 的语音处理功能。2012 年 12 月份推出了语音购物功能,用户可以通过语音进行购物。在语音助手领域,Maluuba 的步伐比较快。


2013 年,随着越来越多消费类电子产品公司和设备制造商乐于将一些新技术融入自己产品,Maluuba 也加快了与智能手机、电视、自动驾驶汽车等公司的合作。比如,LG 旗舰 G 系列手机的 voicemate 应用就采用了 Maluuba 的技术。2013 年 2 月,Maluuba 正式宣布向 Windows Phone 平台迁移。Maluuba 的 Windows Phone 8 版本拥有 Android 版本的大部分功能,例如可以搜索餐馆、影院、新闻和企业(以及进行语音购物)、设置闹钟、提醒和会议安排、打电话、发短信和邮件、指示方向和天气,甚至还集成了 Outlook 日历。


Maluuba 最初愿景是想让机器拥有人类水平的理解力。人工智能面临的重大挑战之一就是那些缺乏大规模标记数据集的领域,或者难以对相关环境进行较好模拟的领域。语言就是一个很好例子。互联网上包含有无穷无尽的网页,但上面全都是文字,没有一个地方找得到以机器能够理解的形式所书写的关于这些文字意思的内容。因此,机器学会阅读将是人工智能在处理和理解人类语言进程中一个里程碑式事件,也是一个真正人工智能必须达到的标准。


不过,Maluuba 成立之初就认识到,深度强化学习的基础研究和技术成熟尚需时日。2014 年,时机趋于成熟。标志性事件就是 DeepMind 采用了深度学习技术的人工智能程序在无需监督的情况下,就可以掌握多种电子游戏。


2015 年 8 月,Maluuba 融资 900 万加元(A 轮)用于进一步推进深度学习研究。同年 12 月,Maluuba 在深度学习重镇——加拿大蒙特利尔开设了一个新的研发实验室(有 13 名深度学习研究人员,负责人是公司 CTO Kaheer Suleman)。Maluuba 关注机器学习中的两个细分研究领域:对话和机器理解。同时,像 Maluuba 也更关心研发解决通用问题的人工智能,对解决真实世界问题更感兴趣。他们相信自己能找出更好的人机交互方式,并与蒙特利尔大学教授、人工智能专家 Yoshua Bengio 和阿尔伯塔大学教授、强化学习专家 Richard Sutton 等展开合作。


目前,全世界已有超过 5000 万台移动电子设备(比如,智能手机、自动驾驶汽车等)采用了 Maluuba 的自然语言处理服务。


重要成果:EpiReader



2016 年 3 月,Maluuba 登上新闻头条。研究人员发布论文(http://arxiv.org/abs/1603.08884v1),介绍了他们最新的进展。论文描述了一个能够阅读几百个童话故事的算法。训练结束后,该算法可以正确地回答算法并不熟悉文本的多选题,准确率超过 70%。研究人员还在《哈利波特和魔法石》上进行测试,该算法能够以近似的准确率回答相关文本问题。这一成绩超过当时最好的神经网络方法 15%,也比当时最好的特征工程解决方案好 2%。Yoshua Bengio 说:「从数字上看,这是一次大的飞跃。」


4 月,Maluuba 将一段技术演示视频放上了 YouTube,视频中的人工智能机器人 Marcy 在阅读了第五季《权利的游戏》梗概后,马上领会了故事的复杂情节。好比对这部美剧一无所知的普通人在简单阅读维基百科剧情介绍后,立刻弄懂了整个故事。

技术演示表明,Maluuba 已经可以处理大批量的文字数据,并且能回答更加复杂困难的开放性问题了。在机器学习和人工智能领域,这是一个巨大的突破。Maluuba 的产品副总裁 Mohamed Musbah 表示:「人们在未来的几个月中会看到一些非常有趣的事情。」


2016 年 6 月 7 日,Maluuba 在 arXiv 上发表了一篇论文《Natural Language Comprehension with the EpiReader》(arXiv:1606.02270),介绍了一种全新的机器文本理解模型 EpiReader。


在之前机器之心的专访中,Maluuba 介绍说,EpiReader 采取两个步骤来确定问题答案。第一步 (Extractor), 我们使用了一个双向 GPU 逐字阅读故事和问题,接着采用一种类似 Pointer Network 中的 Attention 机制在故事中挑选出可能作为答案备选的单词。第二步 ( Reasoner ),这些备选答案被插入「完型填空」式的问题中,构成一些「假设」,接着卷积神经网络会将每个假设与故事中的每个句子加以比较,寻找文本蕴涵 ( Textual Entailment ) 关系。简单来说, 蕴涵是指,两个陈述具有很强的相关性。因此,最近似故事假设的蕴涵得分最高。最后,将蕴涵得分与第一步得到的分数相结合,给出每一个备选答案正确的概率。


最近,Maluuba 发布了一篇新的技术博客,介绍他们在通用人工智能上的研究(参阅《构建好奇的机器,Maluuba 的通用人工智能探索(附论文)》)。


与微软合作的原因:通用人工智能


Maluuba 在官方博客上解释道:


到目前为止,我们关注的领域是机器阅读理解,对话和理解以及通用(人类)智能,比如记忆、常识推理以及资讯搜寻行为。这些领域的早期研究成果加快了我们扩展团队的需求,显然,我们需要用重要资源来支持我们的团队以推进终极目标的实现。

微软非常契合我们的公司。微软大众化人工智能的雄心让这个星球上每个人和组织与人工智能技术使用方式从根本上保持一致。微软为我们提供了将我们的研究传递给百万个人用户和公司用户的机会,他们可以从真正智能机器的出现中受益良多。另外,微软庞大的技术资源——包括后端基础架构(如微软Azure和其完备的硬件基础设施)以及工程人员将帮助我们加速研究和提供市场解决方案的步伐。简言之,我们的新拍档能让我们更加快速的走向当初的愿景。


微软也表示,Maluuba 在深度学习和强化学习方面的专业知识将帮助我们解决问题和决策系统推进我们的人工智能民主化策略,并使其可以为每个人服务——所有消费者,企业和开发者。随着最近微软在语音识别和图像识别上使用深度学习技术的巨大成果,以及今天来自 Maluuba 成员的新力量,公司相信「更好的还在后面,我们将向机器阅读和写作发起新的进攻。」


此外,不久之前微软在其官方博客上开放了一个包含 10 万个问题和答案的数据集 MS MARCO。通过将数据集免费开放给领域内更多的研究者,微软希望能够推进机器阅读领域的突破性研究。这个开源数据集的负责人 Rangan Majumder 曾说,「为了实现人工通用智能的目标,我们首先需要机器能够像人类一样阅读和理解文档。这个数据集是向这个方向迈出的一步。」


微软的长期目标一直是通用人工智能,Maluuba 的研究能够助力微软实现这一宏伟目标。优势互补,微软收购 Maluuba 也就不足为奇了。


蒙特利尔的人工智能领域地位正在获得认可


这次收购表明,蒙特利尔在人工智能领域的重要地位最近正在逐渐被全球各大公司认可。在微软之前,谷歌曾在 2016 年 11 月宣布在蒙特利尔成立一个新的人工智能研究机构,并对该市的几所大学进行了投资。值得一提的是,谷歌在这一动作中试图拉拢的 Yoshua Bengio——Maluuba 的顾问也随着这次收购与微软产生了联系。在所有大公司都在争抢人工智能领域人才的环境中,微软的努力或许另有深意。


Maluuba 表示,「没有 Yoshua Bengio 教授(深度学习创始人之一)、Richard Sutton(最重要的强化学习先驱)以及蒙特利尔日益壮大的研究生态圈的巨大帮助,我们无法走到今天。特别是,Bengion 教授为我们的研究人员的研究工作提供了非常宝贵的常规咨询和指导。过去几年中,Bengio 教授也因为他的远见——将蒙特利尔打造成人工智能研究的核心而得到了特别认可。通过蒙特利尔大学和麦克吉尔大学的研究,这座城市已经发展成为世界上最大的深度学习学术中心;现在,这个区域大学中有大约 150 深度学习研究人员。加拿大的学院、公司以及创业公司生态系统正为人工智能领域带来巨大创新,证明加拿大,特别是蒙特利尔能够与硅谷试比高下。在这一新的篇章里,我们会继续积极地与蒙特利尔以及发表世界顶级人工智能研究的学术社区合作。」


成功的秘诀


前一段时间,在接受机器之心专访时,Maluuba 给其他人工智能创业者和研究人员给出的一些建议或许可以作为公司迈入今天这一新篇章的重要经验之一。


人工智能方面。我想说,此时创业正当时,也很让人兴奋,因为这里需要解决很多令人激动的问题,这个行业已经到了这样一个阶段:我们正处在解决这些问题的前沿,而且公司非常高兴支持真正的创业者来解决这些问题,无论是资金上还是策略能力上。现在成为这个领域的创业者,很让人激动。

但是,我想提醒需要注意的几点。

首先,区分事实和虚构。很多人工智能领域里的信息都过分夸张了,因为对现状缺乏基本了解,而且对人工智能持过于兴奋态度也源于人类本性。区分事实和虚构能帮助你真正理解自己所处的位置,帮助你准确定位所要解决的问题。

第二点就是挑选别人没有解决过的独特问题,然后试着如何用人工智能加以解决,看看自己解决的情况如何,和别人有什么不同。我认为几年后,这个领域的公司就要比拼:看谁能利用最先进的技术做出没有人想到新产品,解决别人没有解决的问题。


援引 T.S. Eliot 一句话作为本文的结束:「In our end is our beginning.」

入门微软产业收购创业公司MaluubaNLP机器阅读理解
暂无评论
暂无评论~