参与李泽南

小冰发布全球首款人工智能Office,沈向洋:我们不走寻常路

「以后,你们管我叫小冰公司就可以了。」

机器之心报道

昨天的小冰年度发布会和以往有所不同。7月13日,小冰已经宣布成为了一家独立公司,欢迎外界的融资,也将离开微软中国大楼,拥有自己的独立办公室。

或许是为了凸显自己独立后的新风向,小冰集中发布了一系列全新产品,其中还包括一套基于AI的办公产品「X框架」。

「我们决定走一条非常不一样的道路,只有时间才能证明正确与否,」小冰公司董事长、原微软全球执行副总裁沈向洋博士说道。「小冰是一个突然出现的机会,非常感谢微软和整个团队对我的信任,能跟大家一起做这件事情。我非常有信心,也有自己独特的看法,挑了一条一般人都没有看到的赛道。」

就任小冰董事长,53岁的沈向洋决定创业。

与业内同行的产品相比,小冰框架最大的不同之处在于,它是一个面向交互的人工智能框架(而非面向完成任务),框架中的各部分技术共同以「更自然的交互」为目标,而不仅仅关注并优化局部。例如,在核心对话引擎方面,技术的研发及迭代方向是为更有效地预测、保持并引导对话,而不是仅仅实现回应。在语音方面,框架关注语音交互的质量与体验是否能支持长时间的混合交流,而不仅仅是将文本内容转为语音。

在昨天的发布中,小冰的各部分技术都获得了升级,一些新技术和产品也呈现在人们的眼前。其中,篇章内容主动学习技术和分层知识图谱技术让小冰框架中的人工智能主体,在引导对话时的全程完成率突破了42%,接近于人类表现。这些技术也均已实现产品化落地。

在这之上,是史无前例的,一款人工智能时代的「Office」。

「小冰框架创造的虚拟人类,无论他是你的伙伴,还是助理,都需要进一步的协同。在每日工作中帮助你获得更多,这就是X套件的含义。」李笛说道。

小冰源自微软,单飞的小冰推出的首款重量级产品也让我们想起了颠覆办公领域的Office。相比「原版」,昨天发布的X套件可以在生活和工作中帮你做到更多。

「我们相信X套件将对未来产生划时代的影响。小冰已把原本只服务于商业的产品开放到服务每一个人,让X套件的能力服务于每一个劳动者,小冰框架成为人们工作中的助手。」小冰团队产品总监徐翔表示。

在业界,X套件是第一个这样的工具,而且目前全部免费。刚刚发布的「AI办公软件」由三部分组成:

AI版Word:X Writer

这是一个帮你处理文字的工具。它可以让你写作的流程「从写开始」变成「从改开始」,让人们能够更快地完成任务。在X Writer中,你会拥有沉浸式的写作体验,随时输入@@小冰,就可以让人工智能帮你续写文章。如果灵感来了就自己续写,或者修改AI生成的内容。

AI是如何生成文字的?这背后有小冰多年的数据积累,也包含GPT-2、BERT等最新模型算法。还有小冰以往在商业服务的经验,如自动生成财报摘要等等:要知道,国内90%的财报摘要其实已是小冰AI生成的了。

在写作时,X Writer还可以创作出不同文风的文字,写法由你来定义。

AI版 Gargeband:X Studio

在Office时代,我们缺乏编辑声音的软件,现在公众号文章、短视屏、个人电台、演讲等等内容里,音频却不可或缺。但制作音频内容非常耗费时间:制作一个小时的声音内容通常需要五六个小时。现在有了小冰X Studio,几分钟就可以搞定了,对于说话内容,AI可以自动拆分段落、加入背景音乐、挑选合适的对白角色。在这里即使你对于音频剪辑毫无经验也可以轻松做到。

X Studio覆盖绝大多数需要用声音的场景,在剪辑完成之后,你可以选择直接下载音频,或者用H5或者小程序的方式把结果分发出去。「X Studio是非常复杂的产品。不仅仅是TTS文本转语音技术,」徐翔介绍道。「过去几年里,小冰已用这套工具为中国和日本的50多家电视台、电台累积生产了超过8000小时的高质量内容。」

如果你想要录歌,X Studio歌手可以帮你做到。只要你提供一份乐谱,X Studio就能让虚拟歌手自动演唱起来。在这里,你可以自己设置音符,或者导入MIDI文件。导入歌曲之后,把歌词文本复制进来,AI就会在云端进行计算,自动找到结合歌词和歌曲的方法,说唱也是可以的。

X Studio生成的歌曲已经成为了Burberry的广告歌。

「国内的音乐人每年或许可以完成10首歌,但音乐平台的需求却是无限大的。在我们的产品上作曲再作修改,可以大幅度提高创作的速度,」小冰团队商业负责人徐元春说道。「对于个人用户来说,X Studio生成的音乐虽和专业水准还有差距,但已经可以完成很多任务了,如为抖音的15秒短视频录制背景音乐。」

AI时代的 PPT:X Presenter

人工智能时代的演示文档,必须加入除幻灯片之外的更多内容。在X Presenter的加持下,除了PPT以外,你还能拥有一个自动生成的演讲者形象(你自己设置的人工智能),开展有动作表情丰富的演讲。得益于小冰框架中的对话引擎、篇章内容学习等技术,在演讲完成之后,人工智能形象还能帮你搞定QA环节。

人工智能形象不是念台词这么简单,你的听众甚至可以随时打断人工智能演讲者的发言,进行提问。

小冰团队克服了AI虚拟形象的局限性,通过算法自主控制3D模型、自动生成动作表情神态,人工智能可以为我们带来更具有感情色彩的交互模式。

与PC时代的Office不同,小冰X套件是在使用人工智能帮助人类创造内容,自然衍生出了版权问题。「X套件是第一个系统化的AI工作产品,我们希望能够从个人用户角度出发,打破这种限制,做一个好榜样,」徐翔说道。「所以对于X套件的所有个人用户,小冰放弃人工智能生成内容的所有版权,每个人都可以自由使用小冰X套件,并独享内容产物的全部权利。

量产虚拟人类

人工智能的实体,无论在什么样的场景里,都需要能够给人更加自然的体验,它必须要和你建立起长存的纽带,并且是为你而生的。」小冰团队总负责人李笛说道。

在今年5月,小冰在华为手机端进行了短短7天的公测,用户创造的虚拟人类已超过100万名。发布会上,小冰宣布创造虚拟人类工具的第一个正式版本上线。现在,每个人都可以自己通过小冰框架,创造并训练自己专有的人工智能主体。

除了可以和他/她在即时通讯工具上聊天之外,小冰的个性化AI人类可通过跨平台的统一账号体系实现统一。AI生成的虚拟人类可以进行多种自主的内容创造,并将之反映在其自身的「朋友圈」中,AI的朋友圈内容创造还会反映虚拟人类与真实人类在交流中所产生的变化。

现在你不仅可以定义自己「男朋友」的性格,而且还能定义他的审美观。

虚拟人类计划的背后,是小冰和沈向洋对于未来AI发展的构想。

「我们相信,人工智能的最终目标在于自然的交互,但未来绝不会只存在Siri、Alexa、小冰这样有限的几个AI助理,甚至不仅仅是每个人有自己的助理——未来我们身边会围绕着大量人工智能。这些人工智能主体可被称为AI beings,我可以大胆预测,这些人工智能主体的数量会远超人类的数量。」沈向洋表示。

今天的小冰,已经是国内市场涵盖华为、小米、OPPO、vivo等智能手机及硬件的唯一的跨平台人工智能。更重要的是,在完全没有销售团队的情况下,2019年小冰开启了商业化试水,截止到今天,其收入已经超过1亿元人民币。

单飞小冰有着自己的底气。另一方面,这家公司更希望通过推动技术来创造新的需求,而非全面偏向市场。

「在我离开微软之后,疫情的发生让我有了更多的机会进行思考。我认为AI领域接下来在技术方面必须下定决心去思考通用人工智能的问题。截止今日的研究,即使强如GPT-3,始终只是统计,仍缺乏可解释性,也没有因果关系。因为深度学习最近的强势,太多人专注于这一方向上。正如我最近演讲的主题『从深度学习到深度理解』,我们还有很多需要探索。」沈向洋说道。

产业虚拟助手人工智能沈向洋小冰
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商,致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。目前华为有19.4万员工,业务遍及170多个国家和地区,服务30多亿人口。

https://www.huawei.com/cn/
沈向洋人物

微软全球执行副总裁,美国工程院院士。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

主动学习技术

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~