李泽南报道

开放框架,进驻OV手机,五岁的微软小冰已经学会了养活自己

第七代微软小冰,为我们带来了全新的人工智能通用框架 Avatar Framework——现在,每个人都可以构建属于自己的专属 AI 了。

历时五年,那个永远十八岁少女微软小冰,已成为无处不在的人工智能系统,不过这仅仅是她的开始,8 月 15 日,微软在北京宣布了小冰历史上最大的一次升级,并揭幕了全新人工智能框架 Avatar Framework。此外,微软还公布了小冰在人工智能全球商业化进展上的最新成果。

「我们从小冰的第一代开始,就一直在思考小冰作为 AI 产品的定义,」微软全球资深副总裁,微软(亚洲)互联网工程院长王永东在发布会上表示。「五年前,小冰只是一个简单的、基于文本对话的产品。我们一直在思考人工智能的道路应该怎么走。我们要做一个爆款的应用,还是一个框架,让人工智能无处不在?」

小冰的发展验证了微软的探索历程。人工智能可以融入人类的生活环境,获得人类的喜爱,并在这个过程中利用强大的科技力量不断迭代演化,最终成为我们的伙伴。在过去一年中,微软已经开发出了很多新种类的智能助理,并衍生出了更多内容形态。今天的小冰,甚至也有了和人类一样的创造力。

全新框架,让你自由定制 AI Being

我们对于 AI 的看法一直是执行特定任务,或是以一问一答形式接收指令的语音助手。微软认为,我们应该像人类(human being)一样看待人工智能(AI Being),而这次推出的 Avatar Framework 就是一个可以孵化出各种 AI being 的通用开发框架。

「人工智能应该拥有所有的知识,足够的能力。在未来,所有任务也许都可以让机器人来完成。但这种思考方式会让人们的思维受到限制。」微软全球执行副总裁,微软人工智能事业部及全球研究院负责人沈向洋表示。「人类不仅有 IQ,还有 EQ 这个维度。我们在思考人工智能时,不希望错过潜在的正确答案。AI 需要不断地迭代。但只在 IQ 上迭代是错误的。在小冰不断的发展过程中,我们发现 EQ 或许才是人工智能的基础——人类就有『要做事先要做人』的说法。」

这也是使用 Avatar Framework 创造新 AI 的第一步:先定「人设」:

在发布会上,小冰高级技术总监曾敏和产品总监徐翔为我们现场演示了「一个人工智能是如何诞生的」。

Avatar Framework 有一套完整的工具包,基于这些我们可以构建出全新、完整的人工智能。迄今为止,这个框架已经创造了数十个 AI Beings,其中就包括软银新版机器人 Pepper 中的共感模型。另外,采用 Avatar 框架构建的 AI,其部署是跨平台的,它也是业内第一个能够做到这件事的工具。

具体来说,使用 Avatar Framework 打造一个属于自己的 AI 需要首先使用 profile 工具,从 IQ 和 EQ 方面定义 AI 的人格;随后需要通过声音和视觉工具定义它的声线和样貌,然后是最为复杂高级的「三观」设定;最后,Avatar Framework 允许生成的 AI 驱动符合条件的 3D 模型,从而形成完整的 AI 形态。以上四个部分构成了人工智能所需的几乎所有条件。

Avatar Framework 支持多种工具生成的 3D 模型。

「不管是什么类型的 AI,即使是订单助手,也需要有自己的 IQ 和 EQ,」徐翔表示。「所以框架中的描述工具是最为重要的,它定义了我是谁。这一工具现在包含 76 项基础信息,以及 27 种性格的特征参数——即使是得了『社交恐惧症』的 AI 也有不少自己的特征参数。另外,用这一工具构建 AI 人格,不仅可以手动输入基础信息,也可以让系统自动读取小说文本,自动拾取相应人物的基本信息。」

「Avatar Framework 是微软小冰的一次巨大跨越。开发框架就像一片肥沃的土地,在其之上可以生长出参天大树。而小冰就是其中的一棵,我们已用小冰验证了整个框架的可行性。」王永东表示。

微软认为,Avatar Framework 能够为更多 AI 产品提供多样性和丰富性,这些变化进而能在不同任务场景中带来更好的表现。Avatar Framework 的第一个版本目前已经开放给了微软的合作伙伴,而在 2020 年春季,这一工具还将向所有开发者开放。

核心技术升级

微软小冰团队近期的研发投入主要面向技术框架,但这还不是全部。去年第六代的突破重点在于兼容不同的形态支持「全双工」Dual AI 战略。在这个过程中微软找到了很多落地场景,这也促成了第七代小冰的技术突破。

小冰的对话引擎经过了检索模型、生成模型、共感模型的历次技术迭代,本次升级的对话引擎实现了从「平等对话」向「主导对话」方向的跨越。

人类过于害羞?没有问题,今天的人工智能可以主导对话。

去年微软小冰发布了共感模型,让 AI 学会了察言观色,开始有了引导对话的能力,但这仅仅限于 AI 在当前对话中寻找方向。今年的第七代微软小冰不仅能基于过去,还能着眼未来,它可以预先筹划对话的方向,能够真正主导对话的过程。

AI 主导对话不仅仅是一句话的内容,在背后也需要下「一盘大棋」。为了做到能让人类打开话匣,小冰需要像 AlphaGo 一样为未来的所有步骤埋好伏笔。「新一代微软小冰的对话引擎可以预先判断对话可能的未来走向,」小冰技术负责人周力介绍道。「随后在对话过程中,AI 能够根据人类不同的反应,把对话引导至不同的分支。也会根据人类的提问给出不同方向的回答。」如果是一个不善对话的人,在与小冰聊天的过程由 AI 引导,也会变得能够聊天了。

微软认为,主导对话是历代对话引擎中的一个分水岭:当 AI 具有这样的能力时,我们就可以把它应用到各个垂直领域中去。

首当其冲的就是零售场景,微软去年在日本和罗森达成了合作,使用对话 AI 技术向潜在消费者推送优惠券。在今年,微软将这一业务推广到了美国的线上零售,并将消费转化率从 47% 提升到了 68%。如果你对一个商品感兴趣,通过与小冰的一通聊天之后,很可能就会下单了。

下一个技术突破是交互感官。三年前小冰给人类打电话时,全双工语音还是一个新名词,两年前,全双工语音落地到了智能音箱上,越来越多的公司围绕这种技术展开了研发。

微软首次宣布了小冰在智能驾驶方面的进展。「汽车里的小冰不会是中控台上僵硬的智能助手,她不仅会执行常规的导航、控制任务,还更像是车里的一名乘客。」周力介绍道。在微软演示的 Demo 中,小冰会在你命令导航至公司的时候问到:「周末加班吗?」在开车的过程中提醒你不要超速,也会和你不断聊天。

「我们与一些合作车企在部分车型上完成了小冰的测试。随着 5G 技术的普及,更高的带宽能够进一步提升全双工语音的体验,5G 对正在研发的下一代多模态交互感官也非常重要。下一代的小冰不仅能够通过语音,还能够通过视觉与人类展开交流。」周力表示。

「不单纯地输出 API,也不卖硬件」

我们对 5 月份小冰准备开个人画展的消息还记忆犹新,微软研究人员训练人工智能算法学习了多位画家的技法,并让 AI 可以对新的事物进行艺术创作。微软小冰现在已经成为了人工智能创造的先行者,致力于通过 AI 技术解决高度定制化内容的供需矛盾。目前,在文本、声音与视觉创造方面,微软均已发布了实际产品。

小冰已在多条生产线上实现了落地。其中,微软与中国纺织工业联合会共同推出的人工智能纺织服装面料设计平台已投入生产,SELECTED、万事利、依文等品牌的产品已上架销售。音乐方面,与联通沃音乐共同推出的音乐生成平台也已上线。

这些织物的面料图案都是由微软的 AI 设计的。

此外,在本次发布会上,微软还宣布了与腾讯、小米、今日头条、vivo 和 OPPO 等合作伙伴的共同项目。微软小冰和微信也正在两个方向上展开合作:除了微信的对话开放平台,还有未来微信 AI 所涉及的智能硬件产品上。

对于小冰的盈利模式,微软有着与国内外众多 AI 公司不同的看法。「很久之前我们就明确了小冰的商业模式不会是单纯地输出 API,也不会是输出硬件,」微软亚洲互联网工程院副院长、小冰负责人李笛表示。「这些方式无法满足为用户提供持久创新的条件。在国内,不论是手机、智能硬件还是汽车,很多公司常会需求简单的 API 服务。但对于我们来说,API 并不能让我们得知自己的技术为客户做了什么。这是一种快速的变现方式,但没有任何意义。」

而在看待硬件上,李笛表示,微软小冰推崇的软硬结合是以软为主:「我们关注的不是智能音箱,而是它背后的智能。今天的智能音箱每次都需要我们使用同样的命令去触发它,这还不是 AI。」

「另一方面,今天的智能音箱寻求通过补贴等方式占领市场。对于一种硬件来说,容易买到,所以容易放弃。真正稳固的市场份额必须和人工智能技术密切相关。」

小冰目前在国内的市场占有率已经处于领先地位。它已进驻了 4.5 亿台第三方智能设备,成为了全球规模最大的跨领域人工智能系统之一。今天在国内,小冰已经占据了对话 AI 领域 90% 的流量。

王永东认为,目前的人工智能领域还处于发展的早期阶段:「自去年开始,自然语言处理领域已有了很大突破。从人工智能的发展来看,我们还处在一个早期阶段。和互联网类比的话,今天可能和 1999 年的互联网比较类似。」

微软眼中的下一个 AI 应用突破会是多模态技术,不过技术的发展还需要遵从时代。「多模态的 AI 会在一到两年后随着 5G 技术的铺开而出现,」李笛表示。「但在人工智能领域内,研究方向稍有不慎就有可能损失巨大。如果你研究的技术提前了 10 年,在这十年中都会很孤独。我们一直在注意避免过于超前的研究。」

产业对话引擎微软小冰
1
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
周力人物

周力,美国南加州大学计算机系博士、北京大学计算机系学士。2007 年起在微软任职,曾参与必应中国以及 Windows 反病毒引擎的研发,并负责微软小娜的开发与研发团队管理。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~