本文为小冰公司技术副总裁曾敏于「重塑产业的AI科技」系列主题,「技术代际更迭」专场的分享内容节选。点击进入「机器之心Pro」,查看更多优质内容。
从AI小冰的迭代看AI技术的代际演进
曾敏表示,小冰是从2013年底,2014年初就开始研发的一款AI产品,最开始的时候,我们比较关注IOP对话系统相关部分。随着业务的迭代探索、创新,我们逐步探索了跟CV、speech相关的领域。所以整个小冰的迭代演化史,基本上也代表深度学习等AI相关的技术,在小冰整个生命周期里面的演化过程。
用小冰来举例,小冰公司重点关注Conversational AI领域。简单来讲,关于Conversation AI,主要有三个不同层次的划分:Task Completion、Information & Answers、General Conversation。现在市场上不管是技术还是产品,或多或少是这三层的一部分,或者其中的组合。
第一大类是Task Completion,像Siri ,国内的小爱同学,小度等都是比较有代表性的Conversational AI,也包括很多像IOT领域做各种各样的Task Completion的AI。Task Completion最主要的问题就是,它的整个Scalability 存在较大的瓶颈。比如上一位嘉宾孙总讲到的RPA 、IPA等相关的部分,针对每一个场景,我们需要定制化的部分还是挺多的,不管是从流程上,还是整个输入输出的定义上,可能每个场景都会不一样。
第二大类是偏Information & Answers ,它类似于做信息获取的环节,更多的是偏QA问答的这一类,Information & Answers 的主要瓶颈取决于整个KG,包括Index的limitation、逻辑推理的推演部分的可拓展性等。
第三大类是General Conversation,它也是小冰2014年开始做的就一直在攻坚的方向,它也是整个开放域对话的部分,它存在的瓶颈是整体的Context非常动态的变化,以及上下文记忆的部分。记忆部分可能不仅仅包括当前session的Memory,也包括可能昨天前天,甚至很长时间之前的AI跟用户之间的互动内容等。
从某种程度上看,小冰从最开始的General Conversation逐步把Task Conversation、Information& Answers等等囊括进来。小冰系统和其他系统的区别就是,整体上小冰可能会关注Long-range的conversation experience。小冰内部有一个指标叫做conversation per session ,大概的意思是用户在一个session里整体的对话长度。session指如果用户跟AI互动,用户的两个turn之间的这个时间超过30分钟,小冰会认为它是两个不同的session,如果用户和AI的对话长度小于30分钟的话,小冰会认为他们是同一个session。整体而言,小冰的conversation系统正是基于这个session建立的。
小冰的整个结构分为四层,最底层是Data Layer,包含小冰的知识库、Index、生成模型等,往上是它的引擎层。引擎主要包括QU、QA、FAQ、Chat Engine等,Workflow Dispatcher主要应用于开放域对话,它需要有节奏地去协调各个模块,扮演系统中控的角色,可以针对各种各样Emotion Scenarios 做出响应,最上层是各种各样的前端场景交互界面。
从2014年到2021年,在小冰的迭代过程中,小冰在今年九月份的发布会上推出第九代小冰,在每一代的迭代演化过程中,小冰不断在小冰的技术栈里面去叠加很多新的技术。在最开始在做的时候,行业里面很多的企业也同时在做,比如说像开放域对话部分,刚开始的时候,大家对它熟视无睹,会觉得开放域对话可能是一个非常无聊无意义的部分,甚至有可能把开放对话当作很多系统模块当中的一个很小的组成部分。
小冰则认为开放域对话的价值被大多数人给忽略了,不管是我们从最开始的检索模型,再到后边的生成模型,文本生成,小样本学习等。不管是国内外的Research、Production部分,其实都在逐渐的往开放域对话方向走,包括最近逐步兴起的元宇宙,虚拟人等概念。大家会发现开放式的对话,反倒成为一个非常重要的基建的部分。
再比如做多模态交互部分,小冰在2016年开始研发全双工对话系统,全双工好比两个人用电话打电话模式。AI跟用户在互动,不像之前单向模式,需要等AI给出响应才能给下一个输入,现在的全双工交互双向都能进行输入,并且双方能随时进行打断。
Google在2017年推出了全双工技术布局,而小冰在2016年开始做全双工技术,所以全双工,技术栈,上线产品的体验,小冰都是走在世界的前沿。此外,在2015年,业界做TTS的时候,普遍追求文本准确读出,咬字清晰的标准,而小冰则从虚拟人平台出发,不仅要让虚拟人吐字清楚、正确,还需要让AI以自然地声音说话。在真人真实交互过程中,可以表现出卡顿、停顿、说错话等。
对于小冰的工作及发展方向,曾敏表示,近期小冰正在研发Diversity方向。小冰认为,我们可能不仅仅追求真实自然的AI声音,因为未来的虚拟世界里将有大量的AI beings和真人去交互,在跟众多的AI beings交互过程中怎么才能体现出各自的记忆点,他们各自区分度其实有非常大的不同的挑战。
最近两年的研究的热点,即所谓的part of learning,研究人员通过构造各种各样的part,达到小样本学习,甚至零样本的学习状态,该种AI技术不需要研究人员过多地去关注下个任务应该做什么,而是把更多的精力放在我怎么样去构造好各种各样的基础模型部分,使整个模型的可拓展性,小样本学习能力等都会有极大的提升。
在虚拟人部分,小冰在做很多跟交互的部分,比如大家比较熟知的闲聊对话。事实上,小冰也在很多偏内容领域、偏虚拟人的领域做了大量的尝试,如我们新研发的XNR的Xiaoice Neural Rendering的技术也是其中之一。
「机器之心2021-2022年度AI趋势大咖说」是机器之心出品的跨年特别策划活动,围绕「驱动未来的AI技术」与「重塑产业的AI科技」两大主题举办了为期10天的线上分享及趋势圆桌,内容覆盖「技术升级」、「产业革新」等方向;洞察AI技术在「AI算法理论」、「ML模型架构」、「AI算法工程化」等方面的发展趋势,探讨「构建元宇宙基础设施的AI技术」和「通向可信人工智能的技术路径」等热点话题。