邵浩作者

聊天机器人:困境和破局

前言

作为人工智能时代的入口级产品,近年来,聊天机器人受到了大量的关注,也得到了快速的发展。但随着2018年Facebook关闭其虚拟助手M,亚马逊Echo也被爆出侵犯用户隐私的问题,再加上聊天机器人实际使用效果远低于大众预期,整个行业也逐步走向低迷。聊天机器人的困境到底在哪儿?在如今的技术条件和市场环境下,聊天机器人厂家如何进行突围?使用新技术,开辟新赛道,是否能解决问题?本文将详细梳理聊天机器人的现状及技术,指出其存在的问题,并讨论了未来可能的发展方向。本文共12965字。

困境

一、聊天机器人太傻了

我是一个聊天机器人的从业者,办公桌上和家里有各式各样的聊天机器人产品。和大多数用户的体验一样,对于一个刚刚到手的产品,最开始的感觉是新鲜兴奋,但当体验完功能之后,剩下的就是失望和无奈。然后,很可能就将其放在角落里再也不会打开,或者仅仅作为一个音箱,来播放音乐。

这就跟聊天机器人厂商的初衷背道而驰了。一边是厂商希望用户长久留存在产品上,一边是用户对产品的日均使用时间快速下降。那么为什么会出现这种情况?为什么大多数用户对于聊天机器人的满意度很低?

从人类的天性中,可以一窥端倪。天主教教义对人类的恶性分为七种。举例来说,人类是懒惰的,总是希望以最少的代价获取最大的利益。而由于技术的限制,和聊天机器人的对话经常会使得沟通成本增加。比如,语音识别率在实际场景中不可能达到100%,也就造成了在嘈杂环境中唤醒聊天机器人,许多时候是一个很不舒服的体验。相比而言,人类的耳朵对于“鸡尾酒会效应”却游刃有余。又比如,想让聊天机器人完成一项功能(订机票、查天气或播放一首特定风格的音乐),有时候必须通过非常明确的语言,进行多次沟通。相比而言,古代皇帝想做一件事情的时候,甚至不需要用到语言,只需一个眼神,太监就马上能意会到皇帝的目的。这里提到的还只是纯交互部分的问题,如果再出现网络延迟、敏感词和敏感话题、甚至还有一些稀奇古怪的bug,让聊天机器人答非所问,就会让人更加不满。

作为从业人员,我在使用这些产品的时候还是很宽容的,由于知道聊天机器人的软肋,就会尽可能的跟聊天机器人心平气和的对话。一次不行,我再试一次,这个指令不管用,我再换一种问法。但对于普通用户,可不会买账。我们看下如图1这个用户,冷不丁的半夜被聊天机器人的怪笑吓个半死。英文翻译过来的意思就是“躺在床上正要睡着了,突然某某某音箱中的虚拟助手向我发出很大声让人毛骨悚然的笑声...今晚我要被杀了”。这个时候,如果是我的话,除了把它从楼上扔下去摔个粉碎之外,好像也没有什么平复心情的办法了。图1. 用户对聊天机器人的吐槽 

再举一个例子,在分析用户使用数据的时候可以发现,排名靠前的功能主要有闲聊、问天气、播放音乐等。刚接触这个行业的时候,我曾认为,既然是被高频触发的功能,就证明这些是用户的“刚需”。只要对刚需功能做好优化,用户留存度和满意度自然会大幅提升。后来才慢慢体会到,有些时候,并不是用户真的最喜欢问天气和播放音乐,而是其他的功能体验感实在是差强人意,比较成熟的也就剩下天气和音乐了。这就牵扯到“七宗罪”中的又一个“罪”:贪婪。用户总是想得到更多,所以在刚拿到聊天机器人产品的时候,自然而然的会不断试探其边界,所以交互的内容也会天马行空,五花八门。但如果用户得到的都是负面反馈,随着期望的降低,问答范围也会缩小到一些成熟和稳定的功能上。就好像是新婚之夜,满怀期待掀开新娘的面纱,却发现等待着的是如花。

二、为什么要做聊天机器人

既然聊天机器人效果都做的不好,那为什么还有大量的公司一窝蜂涌入到这个市场?头部厂商不惜重金做补贴,甚至能做到人民币两位数的售价。尤其像儿童教育聊天机器人,虽然已成为血海市场,仍然还有很多公司前赴后继进入到这个赛道。

这还要从我们所处的时代说起。我是80后,很幸运经历了近40年技术爆发的4个时代,分别是PC时代、互联网时代、移动互联网时代和人工智能时代。而我们现在所处的人工智能时代,也正是AI技术发展历史上的第三次浪潮。

每一个时代都有其对应的入口级产品。在80到90年代,个人电脑是最主要的入口,其特点是“运算力改变生活”,个人电脑和Windows操作系统,成就了IBM微软两个硬件和软件的巨头。我至今还记得当时用一台486电脑和14寸的球面显示器,玩仙剑奇侠传的场景。而在随后到来的互联网时代,核心特点是“连接颠覆一切”,人们可以通过网络随时随地进行信息搜索和信息交互,同时也造就了谷歌这样一个伟大的公司。第三个时代是移动互联网时代,移动技术带来了两大变革,一是数据利用效率的提升,导致服务发生了变化,人们可以随时随地享受例如叫车、点餐等即时服务,二是交互方式的改变,智能手机(主要是触屏手机)成为了入口级设备,这个时代中最具有代表性的公司就是苹果,iPhone也成为了颠覆性的产品。

当人们跨越到人工智能时代,微软又提出对话即平台(Conversation As A Platform)的理念,并称之为一种交互方式的“回归”。之所以称之为“回归”,是因为从远古时代起,语言是人类最自然的交互方式。人们通过语言来打招呼、八卦、协同狩猎,也就拉近了群体中人与人之间的距离。以色列历史学家尤瓦尔·赫拉利的《人类简史》甚至把“八卦”提到了非常重要的位置,是人与动物、人与其他史前人类的关键区别。以前由于技术的限制,人们不得不通过键盘和鼠标与机器进行“对话”,而现在我们具备了“对话即平台”的条件,可以很好的实现这种最自然的交互方式,完成各种服务。因此,在人工智能时代,语音交互产品也自然而然成为了入口级产品,而聊天机器人就是一个最典型的体现。

因此,为了抢占这一“入口”,无论是技术巨头还是创业大军,都加入到了本就不宽的赛道中来,就如“千树万树梨花开”一样,出现了大量的聊天机器人产品。同时在B端和G端市场,为了显得自己的高大上,很多大企业和政府机构也都纷纷推出自己的智能问答系统。然而,好奇害死猫,“入口”害死人。现在的聊天机器人已经变成了血海市场,哀鸿遍野。技术的低门槛,产品的同质化,再加上头部厂商的补贴策略,大公司长期亏损,中小型公司的生存更为艰难。尤其是18年开始的“资本寒冬”,很多的聊天机器人公司要么关门,要么转型,这个我们暂时按下不表,后面还有更多讨论。

三、聊天机器人是什么

聊天机器人从字面上来讲,就是会聊天的机器人。但“会聊天”涵盖的范围太广了。人们总是希望给事物打上标签,给出定义。因此,对于聊天机器人而言,我们给出几类角度不同的分类。

首先,从用途和使用场景上看,聊天机器人可以简单分为功能类和娱乐类。所谓功能类,一般是为了解决某个特定的问题,比如说个人助理、音乐播放、儿童故事、网上购物等。而娱乐类,大多是为了陪伴用户闲聊。微软小娜(Cortana)和微软小冰,分别是功能类和娱乐类的典型代表。

其次,从生态系统上看,聊天机器人可以分为产品、框架和平台三类。我们在市场上所看到的,以及日常所使用的都称之为“产品”,包括纯软件形态和软硬件结合的品类,例如微软小冰,亚马逊Echo、iPhone上的Siri,公子小白、小米音箱等。除此之外,为了加速实际产品的研发,很多公司专门对外提供聊天机器人框架(Framework),以SDK或者SAAS服务的形态,供需求方来构建特定场景和领域的聊天机器人。典型代表包括支持Echo的Amazon Alexa,微软的Luis with Bot等。另外,一些纯软件形态的聊天机器人,需要承载其应用的“平台”(Platform),比如说微信、Facebook等。这样就构成了整个聊天机器人的生态体系。

最后,从交互方式上看,聊天机器人可以分为主动交互型和被动交互型两种,其中,被动交互型又包括闲聊型、任务型和问答型三类。我们接触到的绝大多数产品属于被动交互,即由用户发起对话,机器理解对话并作出相应的回应。主动交互可以更好的体现机器人和用户之间的对等关系,即由机器人主动发起,通过共享或推荐用户感兴趣的热点信息,和人类进行互动,但目前更多的是作为对传统交互方式的一种补充,并未得到大规模广泛应用。从被动交互的三种类型来看,闲聊型主要是进行客观话题讨论,或者用户对聊天机器人进行一些情感表达,微软小冰就具有很强的闲聊属性。而任务型是为了满足一个特定的任务或者目标,比如说利用Siri可以设定闹钟、预定餐馆等。对于问答型聊天机器人,需要解决用户对于事实型(Factoid)问答(如what、which、who、where和when)问题的回复,以及非事实型问答(如how和why)的回复。

用户在和聊天机器人交互的过程中,会夹杂各式各样的意图。举一个简单的例子,以下是一段对话:

```

Q: 你知道阿楠的电话号码么?

A: 知道

Q: 那你能告诉我他的号码么?

A: 可以

```

我们可以看到,这其实是一段无意义的废话。用户的意图是想要阿楠的电话号码(任务型对话),而聊天机器人的回复完全属于闲聊型对话。

四、理想和现实

从七十年前的原子弹,到五十年前的粒子对撞机,再到二十年前的基因编辑技术,技术的在近百年来有了突飞猛进的发展。而在人工智能如此火热的今天,为什么聊天机器人就做不好?这就需要先简单聊一下人工智能技术的现状。

文因互联的鲍捷老师曾给出一个人工智能三次热潮的曲线图(图2),人工智能至今经历了三次大的热潮。而这一轮人工智能热潮,是伴随着大数据深度学习的兴起。深度学习技术最早期的研究起始于上世纪六十年代的感知器,而直到最近的十年,随着软件和硬件的成熟,深度学习才取得了爆发式的进步,在多个领域例如图像识别,语音识别等都突破了人类最好的成绩。火热的人工智能带来了很多机会,也带来了很多问题。资本的大量涌入,使得市场上涌现了一大批AI初创公司,同时媒体的大肆宣扬,也使得大众的胃口和期望被吊的越来越高。普通的技术成果已无法吸引读者的关注,很多媒体就开始用夸张的标题和内容来吸引眼球,比如说“人类要被机器人取代”“重磅!机器开始威胁人类”等等。更不用说像Sophia这种伪AI的出现,使得人们觉得Sophia就是人工智能应该有的样子。而且,就好比AlphaGo并不能给人类端茶倒水一样,在一个特定领域的优秀表现,并不能代表AI技术无所不能。又例如,谷歌在2018年开发者大会上演示了一个预约理发店的聊天机器人,人们在大呼惊艳的同时,自然而然的觉得人工智能技术应该可以上天入地,做到任何事情,甚至取代人类。

图2. 人工智能三次热潮

这是技术从业者的悲剧。罗马从来都不是一天能够建成的,技术的突破也必然会经历一定时间的积累。很多时候,本来应该稳步推进的技术,却在落地之时,面临投资者和用户被吊的足够高的胃口,不得不去做一些虚假宣传。比如说:“我的产品可以完美解决鸡尾酒会效应”“订咖啡、购物、订票,我们的产品都可以帮你做到”等等。然后,就没有然后了。

因此,人工智能除了经典的三大主义(符号主义、连接主义、行为主义)之外,现在又多了第四个分类,叫做媒体主义。

回到深度学习技术的发展上来,AlphaGO都能打败人类最顶尖的棋手,拥有15亿参数GPT-2模型已经可以做到文本续写,为什么深度学习却没有真正解决聊天机器人的自然交互?且不说训练成本的问题,目前技术能够做到比较好的基本上都是单轮交互(也就是一问一答)、,在多轮交互上,除了在某些特定场景可以表现较好(如Google开发者大会上的理发店预约场景),在开放式聊天中往往会惨不忍睹(这一点我们下一节会详细讨论)。而单轮交互,在技术上最简单的解决方案,是写一大堆的句子,并使用基本的检索方法和规则来选取已经写好的答案来进行回复,甚至可以完全不用深度学习方法。所以才会出现仅通过堆语料就能创造出一个表现尚佳的聊天机器人

作为从业者,从技术的角度上来讲,聊天机器人的表现其实已经非常不错了。甚至在某一些特定场景下足以以假乱真了。我们经常会被一些广告营销电话骚扰,以前还都是真人在和我们沟通,而现在出现了大量的聊天机器人,他们不知疲倦,可以24小时*7天不间断工作,通过电话语音,甚至很多情况下我们都无法判断对方是不是机器人。这是因为,在特定场景下,对话可以跳转的状态一般都是有限的,可能产生的话题分支,比起围棋的可能性要少很多,因此,即便是穷举所有的可能性,也不是不可做到的事情。如果提前设置好对话策略,加上语音合成技术,完全可以以假乱真。

我们都知道,图灵测试由英国数学家阿兰·图灵于1950年发明,是指测试者在与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。进行多次测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。2014年6月,一个伪装成乌克兰13岁男孩的机器人尤金·古特曼,顺利的通过了图灵测试。其实,通过这个测试也用了一些小技巧,比如说“13岁男孩”,可以装作自己的思考能力不够成熟,同时,来自“乌克兰”可以有效掩盖其英文水平的不足。但严格意义上来说,通过图灵测试并不能代表机器已经具有自然对话的能力。曾看到过一篇关于图灵生平的文章,提到图灵在1952年被判犯有同性恋行为,并被迫接受化学阉割,两年后图灵自杀身亡。而图灵测试,其实就是反映了在上世纪50年代的英国,每一位同性恋男性必须通过的日常测试:你是否能伪装成一个异性恋者?根据图灵的看法,未来的计算机就像当时的同性恋者,计算机有没有意识并不重要,重要的是人类会怎么想。

即便是图灵测试,也可以看做是一个特定的“闭域”,在这个闭域中,聊天的状态是预先可以设计的,有很多的策略可以让对话在这个特定的闭域顺畅的进行下去。而很多聊天机器人厂商给自己挖的坑,是要做“开域”(也就是通用域)的聊天。在现有的技术条件下,这就相当于给自己的产品判了死刑。因为做通用域聊天,就等同于想要模拟人类真实的对话,这在目前是不可能完成的任务。具体缘由我们在下一节详细阐述。

五、人是如何聊天的

在人类的聊天中,一句话所包含的文字,所反应的内容仅仅是冰山一角。比如说“今天天气不错”,在早晨拥挤的电梯中和同事说,在秋游的过程中和驴友说,走在大街上的男女朋友之间说,在倾盆大雨中对同伴说,很可能代表完全不同的意思。在人类对话中需要考虑到的因素包括:说话者和听者的静态世界观、动态情绪、两者的关系,以及上下文和所处环境等,如图3。

图3. 人类聊天中的要素

静态世界观:人类在成长过程中会建立起自己的世界观,一般跟跟经历和记忆有关。比如说一个素食主义者可能会非常厌恶谈及红烧肉的话题,又比如提及粉笔划玻璃,会让一部分人很不舒服,但对另一部分人却没任何影响。同时,对话的过程中也会触发一些相关联想,比如提到情人节,会想到玫瑰花和巧克力,提到下雨天就会想到雨伞等。鲁迅在《而已集·小杂感》也曾写道“一见到短袖子,立刻想到白臂膊,立刻想到全裸体,(略),中国人的想像惟在这一层能够如此飞跃”。


动态情绪:表现在交互过程中的表情、动作、语气等。因为人类的交互过程通常需要接收多方面信息源,在不同语气、不同表情,所表达的含义有可能完全不同。比如说“我恨你”,在恋人间轻柔的对话中很可能代表“我真的很喜欢你”。

说话者和听者的关系:对话双方是敌人、家人、朋友还是恋人,话语中所表达的意思就会有所区别。就比如刚刚的例子“今天天气不错”,在分手多年的恋人见面时说,很可能就代表“你现在过得好么”。

上下文:相同的词语和句子,在不同的上下文中也会有不同的含义。“我洗头去了”用于微信和QQ聊天中,很可能就代表“我不想聊了,再见”的意思。

所处环境:在不同场景下,相同话语会触发不同的反馈。如果在厕所和人打招呼用“吃过了么”就会显得非常尴尬了。

而且,以上这些都不是独立因素,整合起来,才能真正反映一句话或者一个词所蕴含的意思。这就是人类语言的奇妙之处。同时,人类在交互过程中,并不是等对方说完一句话才进行信息处理,而是随着说出的每一个字,不断的进行脑补,在对方说完之前就很可能了解到其所有的信息。再进一步,人类有很强的纠错功能,在进行多轮交互的时候,能够根据对方的反馈,修正自己的理解,达到双方的信息同步。在回过头看开放域的聊天机器人,寄希望于从一句话的文本理解其含义,这本身就是很不靠谱的一件事情。

目前市场上大部分的聊天机器人,还仅是单通道的交互(语音或文本),离人类多模态交互的能力还相差甚远。哪怕仅仅是语音识别,在不同的噪音条件下也会产生不同的错误率,对于文本的理解就更加雪上加霜了。

六、技术及发展进度

在这一节,我们讨论下现有聊天机器人所涉及的技术,但不会牵扯到技术细节。

机器学习深度学习机器学习技术属于基础技术,比如说分类算法可以用于做用户的意图分类和情感分类;语言模型可以用于筛选语音识别后的句子是否通顺;聚类算法可以用于做用户的行为习惯分析等等。随着数据量越来越多,可以发挥深度学习的优势,更进一步提升聊天机器人的基础技术能力。

自然语言处理:是聊天机器人语义交互层面的核心技术。比如说检索技术可以选取语料库中最合适的回复,命名实体识别可以找出句子中的关键信息,如“播放李荣浩的李白”中,李白是指一首歌名。主体识别可以用于判断句子的主语,例如“我给你唱歌”和“给我唱歌”的主语是不同的。此外,还有句型判断、实体链接、词性标注、依存分析等各项技术,综合运用于对用户句子的解析。

数据库技术:通过数据库技术,我们可以在预先存储好的大规模语料库中,快速检索相近的句子,也可以对海量的用户交互数据进行存储并进一步分析。

知识图谱技术:是聊天机器人实现认知交互的关键技术之一,可以帮助聊天机器人进行记忆、联想和推理。关于知识图谱,我们放到本文的下半部分专门讨论。

声学技术:包括语音识别语音合成、声纹迁移、声纹识别以及歌声合成等,为聊天机器人提供了更加丰富的表现力。声学技术也牵扯到和芯片、硬件(例如麦克风阵列)的配合。

计算机视觉技术:通过计算机视觉技术,可以进行人脸识别、情绪识别,并可以进一步配合语音、语义技术对用户语句进行深度分析。

其他技术:很多聊天机器人产品具备硬件形态,包括虚拟形象,因此也需要芯片技术、硬件、全息技术、美术和设计的支持。

聊天机器人一定是一个技术整合的产物,在一个有很多串行模块的系统中,有个很重要的问题是错误传递。比如说有5个串行模块,每个模块的性能都是95%,最终的结果却只有77%。所以,在设计一个聊天机器人架构的时候也需要尽可能避免模块的串行化。同时,对于多轮交互架构,也需要有更加成熟的设计。

Gartner给出的最新技术成熟度的图,也反映了不同技术的发展现状。网上流传的一句话说到,当某个领域的代表性人物获得了图灵奖,也就代表了这个领域辉煌时代的结束。2019年3月27日,ACM宣布,深度学习的三位创造者Yoshua Bengio, Yann LeCun,以及Geoffrey Hinton共同获得了2019年的图灵奖。在曲线中,我们也看到深度学习处于曲线的最高峰,并且即将处于下降的趋势,也在一方面印证了随着大数据红利的消失,以深度学习为代表的感知智能也触碰到了天花板。图4. Gartner2018技术成熟度曲线

破局

一、产业现状

随着人工智能的第三次浪潮,涌现了一大批聊天机器人公司,其中有平台型公司,也有产品型公司。从业务角度上来看,主要分为三类:

2C公司:主要产出直接面向用户的产品,例如公子小白、小米音箱、天猫精灵、微软小冰等;有一些公司还做开放性框架,例如海知智能的如意、百度的UNIT等。当然,还有一些公司专门针对聊天机器人推出技能包业务,比如说故事技能、冷笑话技能、订票技能、大冒险游戏技能等。

2B公司:主要做各种场景的落地,比如说金融领域的智能监管系统、医疗领域的医疗问答助手和诊断助手、银行柜台的客服机器人、淘宝店家的智能客服等。有些时候,场景落地也是在跟风,例如各大银行的智能客服,有一个感觉是别人做了,我就一定要做,这样才显得在AI上的先进性。但实际效果,大家在体验之后也会有所判断。

2G公司:主要面向政府做政务类的知识库构建和问答业务。随着人工智能被写入政府工作报告,各级政府对于AI的落地应用都有比较高的需求。比如说政府服务大厅的引导型聊天机器人、一站式办事机器人;政府部门的智能搜索引擎和问答系统等。

在C端市场,产品是需要挑剔的用户买单的。正如本文上半部分所说,在目前的技术条件下,聊天机器人的使用感受远未达到用户的期望值,因此,很多2C公司在早期融资消耗完毕之后,产品也未得到用户的认可,从而不得不考虑业务的转型,走向2B和2G的赛道。但很清楚的一点是,转型之后,并不一定是技术好的公司就能接到单子,能否拿到项目,其中的因素也请各位自己体会。

另外,有一个很重要的误区在于高估了技术的作用。诚然,有一些非常优秀的学者,或者大公司出来的技术高管,利用自己的实力和拥有的核心算法,成功的进行了融资和快速发展,比如说第四范式、三角兽、竹间智能等公司。但大多数宣称自己拥有某一项垄断性技术的公司,都没有走到这一步。例如我前年曾经关注过的某创业团队,宣称自己的NLU技术世界领先,包括分词、词性标注、依存、命名实体识别等,在其官网上也很自信的提供NLU平台供用户试用,想要打造一个开放的聊天机器人平台。但现在再去看其发展,已经开始转向做B端的垂直场景业务了。另外还有一家公司,想用更深入的逻辑仿生技术打造机器人意识,然而其核心团队人员已经开始大量流失。

在目前的聊天机器人赛道上,很多成功的公司所使用的技术都不是自研发的,国内很知名的一家代工厂商,通过集成开放的API和SDK,也能够打造一款低价的儿童聊天机器人,并做了很多OEM的业务。而且随着Google、Facebook等巨头的技术不断开源,技术的门槛也越来越低,就算是拥有一个世界级领先的单点技术,也很有可能不会比用规则匹配和大规模语料库拼起来的产品效果更好。

当然,技术领先,在另一方面,也可以用于提升公司的形象,做更好的PR,从而获取更多的融资,吸引更优秀的人才。达到一个正循环之后,可以用足够多的资源将产品打造的更为优秀。

大家常说人工智能的三大要素,包括数据、算法和算力。而在聊天机器人的技术体系下,最关键的三个因素应该是人工、数据和算法。而在现阶段,人工是大于数据,更大于算法的。工程化才是一个产品成功的关键。

二、知识图谱能解决问题么

近两年来,随着AI热度的降低,无论是投资者还是从业者,都开始关注另一项技术-知识图谱知识图谱技术也是一个融合型技术,包括数据库自然语言处理、知识表示、机器学习等等。其最近的火爆程度,可以从国内知识图谱的旗舰会议(CCKS)的参会人数一窥端倪。CCKS全称是全国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic Computing)。CCKS2016成立之初只有500名参会者,这个数据到了2017年是600人,2018年是800人,而2019年杭州的会议,预计参会者将突破1000人。

作为从感知智能到认知智能跨越的重要基石之一,知识图谱被寄予了厚望。张钹院士也提到,“没有知识的AI不是真正的AI”。拿最新的GPT-2算法来看,即使其文章续写能力让人赞叹,也只是再次证明了足够大的神经网络配合足够多的训练数据,就能够产生强大的记忆能力。但逻辑和推理能力,仍然是无法从记忆能力中自然而然的出现的。学界和企业界都寄希望于知识图谱解决知识互连和推理的问题。那么什么是知识图谱?简单来说,就是把知识用图的形式组织起来。可能这样说还不够明白,我们举例子分别说下什么是知识,什么是图谱。

所谓知识,是信息的抽象,一个很著名的DIKW体系,由Rowley在2007年提出,如图5所示。从数据到信息到知识再到智慧,是一个不断凝练的过程。图5. DIKW体系举一个简单的例子来说,226.1厘米,229厘米,都是客观存在的孤立的数据。此时,数据不具有任何的意义,仅表达一个事实存在。而“姚明臂展226.1厘米”, “姚明身高229厘米”,是事实型的陈述,属于信息的范畴。对于知识而言,是在更高层面上的一种抽象和归纳,把姚明的身高、臂展,及姚明的其他属性整合起来,就得到了对于姚明的一个认知,也可以进一步了解姚明的身高是比普通人更高的。最后的智慧层面,Zeleny提到的智慧是指知道为什么(Know-why)[1],本文不对此进行深入论述。

图谱的英文是graph,直译过来就是“图”的意思。在图论(数学的一个研究分支)中,图(graph)表示一些事物(objects)与另一些事物之间相互连接的结构。一张图通常由一些结点(vertices或nodes)和连接这些结点的边(edge)组成。Sylvester在1878年首次提出了“图”这一名词[2]。如果我们把姚明相关的“知识”用“图谱”构建起来,就是图6所体现的内容。

图6. 姚明的基本信息知识图谱 

聊天机器人中使用知识图谱,我们的期望是能够解决很多复杂的推理问题,包括常识推理问题。比如说“鸡蛋放到篮子里,是鸡蛋大还是篮子大”,“ 苏大强的大儿子是谁”等等。从而使得聊天机器人的对话更加具有“智慧”,不仅能记忆,还能推理、联想和推荐,从感知层面真正跨越到认知层面。

愿望是美好的,但真正将知识图谱落地却鲜见成功案例。考虑到成本问题,知识图谱问答在聊天机器人中的应用还不够广泛。况且,一些需求方对知识图谱还存在不少误区。很多企业和政府机构在谈项目需求的时候,一上来就说,“我想用知识图谱技术,你们能不能把现在的知识库变成知识图谱?实现大数据的链接?”“你们做的问答是不是基于知识图谱的问答?”等等,其实,知识图谱问答能不能应用,要综合考量多方面因素,就拿知识的表示和存储来说,选用不同的数据库,需要用到不同的知识表示。RDF(数据的一种三元组表示形式)的数据表示可以选用Jena数据库,而图表示可以选用Neo4j图数据库。对不同来源的数据还需要进行大量的数据清洗和结构化,甚至还牵扯到纸质文档(例如医院的文本病历)的手工录入。结合业务来看,很多时候传统关系型数据库就能解决的问题,完全没必要用到大规模图数据库,否则很容易导致整个项目的成本高、效率低的问题。

Heiko Paulheim在其文章《How much is a Triple? Estimating the Cost of Knowledge Graph Creation》中,给出了几个典型的知识图谱的构建成本。其中,上世纪80年代开始的也是最早的知识图谱项目CYC,平均构建一条陈述句和断言的成本是5.71美元,而随着自然语言处理机器学习技术的进步,DBpedia构建每一条的成本降低到了1.85美分。即便如此,在真正工程化落地的时候,牵扯到多源数据的清洗整合,一个知识图谱项目的成本还是居高不下。

三、垂直领域的战略收缩

人工智能投资火爆的前几年,我们经常会看到估值十亿到几十亿的聊天机器人(或智能问答系统)公司。就像浑水沉淀后能看见底下的泥沙,随着资本的逐渐冷静,很多公司也进入了艰难的寒冬期。这没什么不好,真正优秀的公司,无论是技术和商业模式,都能够经得起考验。

聊天机器人公司,在战略收缩的时候,首先要做的是看清自己公司的核心竞争力。最近看了一本书叫做《失去的胜利》,里面提到了德国名将曼施坦因对二战初期波兰战役的回顾和评论。当德国已三面包围波兰西部的时候,波兰军队仍然把主力沿着边境部署,而不愿意放弃西部工业区,并收缩到维斯托拉河流域右线重点设防。甚至还寄希望以英法联军的支援,反攻至柏林。结果可想而知,幻想守住一切,反倒丢掉了一切。

大部分初创公司,应该是集中优势力量突破一个点,等待资本回暖。同时精耕细作一个细分领域,在大公司无暇顾及的垂直行业杀出一条血路。无论是后期被收购还是能够独立壮大,都是比较好的结果。切忌大而全,什么都想做,做自己擅长的才是最重要的。举例来说,一些公司利用硬件优势转型打造语音交互芯片,另外还有金融知识图谱公司从智能投顾转为智能监管,还有大批聊天机器人公司,从做纯软件的聊天机器人转为为B端客户提供智能客服解决方案。

而且,对于做平台这个事情,要单独提出来聊一聊。自然语言交互平台,没有大量的人员和资金支持,是无法实现的。由于没有办法进行工业级产出,导致了大量资本投入换来的只是Demo和论文,而不是实实在在的产品。因此,在细分领域做强做好,才是小公司的生存之道。

四、商业模式和产品的重要性

从技术到产品落地,还只是万里长征的第一步,产品在市场上真正被用户所接受,并能产生良性的流水和利润,这才是正常的商业模式。我们看下目前几个比较火热的聊天机器人产品。首先是儿童教育机器人,教育、医疗和金融是一直都很热的领域。自然而然的,很多产品都会冠以人工智能教育机器人的名号。但儿童教育聊天机器人真正能解决用户需求么?很明显不能。大多数家长还是报以尝鲜的心态,给孩子买一个玩具,并没有寄希望于让机器人起到“教育”的作用。但毕竟儿童市场是巨大的,中国有1.5亿3到12岁的儿童,每年的新生婴儿数量也达到了2000万。儿童教育机器人的出货量在近三年一直保持着100%的增长。因此,在这个市场上,影响用户购买的很重要的一个因素是价格,也就造成了目前整个行业利润的持续走低。随着更多厂商的加入,红海市场也逐渐变成了血海市场。另外一个典型的案例是老人陪聊机器人,这种机器人从商业模式上来看,我认为并不成立。首先,老人们对聊天机器人的接受程度不高,购买力也不强。其次,老人在对话过程中,由于对话速度、连贯性、方言等问题,使得聊天机器人的表现要更差。

最近网上讨论的很多的一个典型案例是夸夸机器人。其来源是“相互表扬小组”,这些活跃在QQ、微信、微博上的社群的目的,言简意赅又单刀直入:溜须拍马,相互夸奖。无论是高兴的事情例如考上了大学、获得了奖励,还是倒霉的事情例如被老板骂,烤糊了面包,在群里都可以得到天花乱坠的夸赞。而有公司还真的将夸夸机器人产品化,但结果是昙花一现,仅是蹭了一波热度,却没有持续的用户留存。其实,夸夸机器人在商业角度上是不成立的,没有一个可行的变现路径。三联生活周刊有个评论说到:“人们容易为快节奏的生活所累,更容易在各种新鲜事物面前短暂停留。所以人们也清醒地意识到:来自陌生人的鼓舞与表扬虽然温暖,但保质期却是极其有限与流于表层的”,因此付费求夸的事情也变得不切实际了。

再来看下2B的业务,真正成功的项目应该是给需求方带来成本的降低或收益的提升。比如说淘宝店家的客服机器人,一套系统的成本,如果能够低于将200位人工客服降低到100位所节省下来的成本,同时在获客效果上又有所提升,那就是一个成功的项目。况且,对于开发者而言,从单一项目逐步变为PAAS服务或SAAS服务,所带来的开发成本会显著降低,也就可以为规模化打下良好的基础。

刚刚聊了一些商业模式的问题,那么从产品形态上,有一句流行的话说的是“技术不够,产品来凑;产品不够,运营来凑”。既然聊天机器人受限于技术无法达到人类期望值,那么是否可以从产品设计的角度上,让用户不去关注技术表现本身,而是从其他维度对产品产生粘性?答案是肯定的。做产品的关键在于“高出用户期望值”,这显然对于AI产品是不友好的,因为用户期望值太高了,所以要在其他层面上去想办法。文章一开始提到,产品设计的一个原则应该贴合人类的七宗罪。我们曾经获取过一批来自不同聊天机器人脱敏后的用户聊天数据,其中包含了很多难等大雅之堂的语言。所以有一些成人用品公司开始用对话技术包装自己的产品,也算是一种成功的商业实践了。

当然,从正常的产品角度而言,如果一个聊天机器人产品的形象和使用感受,超越了聊天本身,给用户带来了不同的惊艳感,也可以算得上一种取长补短的方法。正如我们下一节要讨论的聊天机器人的更多形态,如果聊天机器人被人格化、IP化之后,用户也不会仅仅关注对话,而是会从更多的需求层面产生对产品的粘性。

五、多模态交互和虚拟生命

在技术不断进步的同时,聊天机器人也逐步迈向其下一代范式-虚拟生命。其核心在于模拟生命的主要特征,以多形态和多模态进行交互[3]。设想一下,如果你是蔡徐坤的粉丝,如果有一个聊天机器人具备蔡徐坤的形态和声音,并且可以进行交互,那是多么令人兴奋的一件事情。同时,在不同的性格和人设下,虚拟生命的交互体验也会变得更为丰富。

再进一步,除了IP化和人格化,多模态交互能力会进一步增强虚拟生命对用户的认知和表现力。虚拟生命能够通过麦克风阵列、摄像头听得到、看得见,使其能够综合感知用户意图。同时,利用知识图谱,虚拟生命能够和人以及周围环境进行“真实自然”的交流,包括规划、推理、联想、情感和学习能力,具有非常强的可用性和可交互性。再进一步,通过美术设计、动作捕捉、全息投影等技术,虚拟生命可以在不同设备、不同场景下展示不同的形象,除了自然语言交流,还可以进行舞蹈、唱歌等更多样的体现。

目前日本的Gatebox和国内的狗尾草智能科技,都提出了聊天机器人的虚拟生命形态。例如,狗尾草智能科技开发了世界上第一款结合了GAVE引擎(Gowild AI Virtual Engine)的虚拟生命产品-琥珀·虚颜(如图7),搭载HoloEra硬件平台及360°全息投影,创造一个有情感、可养成、可进化的虚拟存在,但这种存在又可以和周边世界进行多模态真实互动,并针对用户行为习惯形成不同的性格体系。同时,人物还可以换成二次元角色和真实的明星,进一步提升用户体验和粘性。图7. 虚拟生命产品-琥珀·虚颜

在这个新的赛道上,相信未来的聊天机器人以及虚拟生命,会以更好的形态和体验感呈现给我们。

六、革命尚未成功,同志仍需努力

在这个广阔的市场上,进步的空间还很大,挑战还有很多。但有挑战的事情才有意思,不是么?

作者简介:邵浩,狗尾草人工智能研究院院长,日本国立九州大学工学博士,上海静安区首批优秀人才。

参考文献

[1] Zeleny, Milan (1987). "Management Support Systems: Towards Integrated Knowledge Management". Human Systems Management. 7 (1): 59–70.

[2] J. J. Sylvester (1878) "On an application of the new atomic theory to the graphical representation of the invariants and covariants of binary quantics, — with three appendices," American Journal of Mathematics, Pure and Applied, 1 (1) : 64–90

[3] 邱楠,王昊奋,邵浩,张民 (2017),从聊天机器人到虚拟生命-人工智能技术的新机遇,中国人工智能学会通讯,7(11): 32-40

产业聊天机器人语音识别鸡尾酒会效应机器学习深度学习自然语言处理知识图谱数据库计算机视觉
3
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

相关技术
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

鸡尾酒会效应技术

鸡尾酒会效应(cocktail party effect)是指人的一种听力选择能力,在这种情况下,注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音。这种特殊的听力能力可能是由人类的语音生成系统,听觉系统,或高层次的感性和语言处理的特点所决定的。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

大数据技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

麦克风阵列技术

麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。 早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

感知器技术

感知器是Frank Rosenblatt在1957年就职于Cornell航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。 Frank Rosenblatt给出了相应的感知机学习算法,常用的有感知机学习、最小二乘法和梯度下降法。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

联想机构

联想集团是1984年中国科学院计算技术研究所投资20万元人民币,由11名科技人员创办,是中国的一家在信息产业内多元化发展的大型企业集团,和富有创新性的国际化的科技公司。 从1996年开始,联想电脑销量一直位居中国国内市场首位;2005年,联想集团收购IBM PC(Personal computer,个人电脑)事业部;2013年,联想电脑销售量升居世界第一,成为全球最大的PC生产厂商。2014年10月,联想集团宣布了该公司已经完成对摩托罗拉移动的收购。 作为全球电脑市场的领导企业,联想从事开发、制造并销售可靠的、安全易用的技术产品及优质专业的服务,帮助全球客户和合作伙伴取得成功。联想公司主要生产台式电脑、服务器、笔记本电脑、智能电视、打印机、掌上电脑、主板、手机、一体机电脑等商品。 自2014年4月1日起, 联想集团成立了四个新的、相对独立的业务集团,分别是PC业务集团、移动业务集团、企业级业务集团、云服务业务集团。2016年8月,全国工商联发布“2016中国民营企业500强”榜单,联想名列第四。 2018年12月,世界品牌实验室编制的《2018世界品牌500强》揭晓,排名第102。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

小米机构

小米是中国一家专注于智能硬件、智能家居以及软件开发的企业,于2010年4月6日成立,总部位于中国北京,截至2018年3月31日,员工人数近1.45万。 2010年8月及12月,小米发布了基于安卓系统深度定制的第三方固件MIUI及首款移动应用米聊。2011年8月16日,小米正式推出了其第一款硬件产品——小米手机(一代),开创了以互联网线上抢购高配置、低售价的智能手机销售模式。 通过旗下生态链品牌MIJIA(米家),小米的产品线从智能手机及耳机、移动电源等手机周边产品和音箱、手环等相关移动智能硬件,扩展到智能电视、机顶盒、路由器、空气净化器、电饭煲等家居消费产品。截至2018年3月底,小米已进入全球74个国家和地区的市场,并在其中15个市场智能手机出货量名列前五。 2012年,小米全资买入北京多看科技有限公司,进入电子书阅读领域。多看阅读是旗下网站,并有相应的App。2018年,业界传闻小米有计划生产电子阅读器。 2018年5月3日,小米正式向香港交易所提交IPO申请[6],于2018年7月9日以同股不同权的方式挂牌上市,并计划于7月23日纳入恒生综合指数。 2018年11月19日,美图公司与小米集团宣布达成战略合作伙伴关系,合作期限30年。

暂无评论
暂无评论~