Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

宇多田

专访蓦然认知:只有做得重一些,我们才能活下来

在各家公司都在谈技术壁垒,聊垂直场景的当下,蓦然认知 CEO 戴帅湘的观点很明确——公司建立的真正壁垒绝对不仅仅是技术,而不仅仅是某个垂直场景,而是这个场景背后的产业链条。

1 年后,戴帅湘仍然不看好音箱市场。

虽然想以「语音理解」确立行业优势的蓦然认知早在年初推出一个名叫 Mor 的人机对话引擎时,就意在对标 Alexa 这类语音助手;而硬件,也被戴帅湘看作是技术优势最直观最靠谱的展现形式。

然而音箱,却没有在他们当下考虑的接入产品范畴里。

或许作为一名曾在百度任职 9 年的 NLP 科学家,他完全有能力带领团队在短时间内搭建出一整个基于多轮对话的技术框架;

但作为一家创业公司的 CEO,他首先考虑的,是要为公司找到一条能够存活下来,而且活得长久的业务模式。换句话说,就是如何将技术优势转化为一门可行的生意。

「你看亚马逊做云计算,BAT 也做云计算;亚马逊做音箱,BAT 也做音箱。对于阿里他们来说,follow 就够了,一个是风险小,市场有被验证过,另一方面他们也有足够的资本和精力去 follow。」

「但是」,他声音拔高了一度,「对于小公司来说,选择去 follow 音箱这种新兴的,产业链条都不清晰的硬件市场,不是找死吗?你做 2B 的业务也要找一个存量相对较大的 B 呀。」

这种思路使蓦然认知做出了一个在面对「将自身技术接入哪类硬件」时的必然选择:

电视与汽车,是他们率先切入的存量市场。

「以我自己的性格,我不会选择一个从未被验证的市场。或许卖点是有,但音箱有明确的销售渠道,有清晰的产业链条吗?虽然现阶段它可能有教育市场的意义,但这个新兴产业相对较轻,且存在太多不确定性。」

他认为,「让公司活的长久」的第一个条件,就是不能首先切入较轻的市场。

「我们也可以给一个移动 app,譬如猫眼电影,做语音对话系统,但是他们的链条实在太短了;做 2B 生意,靠这种『轻量级改造』,能赚到什么钱呢?」

「我认为,只有做的重一些,才能活下来。」


当下语音市场的痛点,是他们口中的技术优势


在当下较为活跃的语音商业化尝试中,有一个较为尴尬的真相:

语音识别已经相对成熟了,各家都在吹嘘的 96%~98% 识别率在市场中其实已经比较普遍了。但是它的下一步骤——语义理解,也就是建立在自然语言理解(NLP)基础上的交互模型。

用更通俗的表述来说,市面上所有音箱都有能力将这些模拟音频信号进行数字化处理(语音识别),但接下来的关键一步——对转化成本文的信息进行分析,然后「读懂」这些信息,进而对你的指令进行正确反馈的能力,才是当下解决智能硬件普遍存在「智障问题」的技术痛点。

而蓦然认和所强调的「技术门槛」,就集中在这一个「点」上。

举个例子,你可以跟这个名叫 Mor 的人机对话系统(小蓦)进行多轮连续对话(一般是在 5 轮以上,不需唤醒词)。

譬如「我想听周杰伦的歌」,「要近期的(歌)」,「冷门的(歌)」,这三个基于首个问题建立的需求,可以连续向系统提出,不需要反复喊出唤醒词。

此外,在创建一套完整常识知识表达机制的基础上,蓦然认知构建的机器推理模型能够满足跨内容维度的多轮对话。譬如:

问:「小蓦,深圳天气怎么样?」

答:「深圳今天天气…」

问:「那给我定张去北京的机票」

答:「好的,从深圳到北京的机票有……」

某种程度上,如果把「语音识别」比作机器的识字能力,那么语义理解就是衡量它们「智商」的标准。

但是,技术优势仅仅是技术优势。

从产品设计角度来说,无论是单一的语音交互界面(VUI),还是纯粹的图形交互界面(GUI,视觉),蓦然认知都不认为是一个智能硬件应该具备的最好用户体验形式。

「从人性化的角度来讲,图形界面更擅长在交互的操纵感和隐私保护发挥作用,这些也会同时体现在信息量和浏览效应上面。因此,VUI 的崛起并不是说要替换原来的其他交互方式,而是两者建立一个融合、共生的关系。」

产品经理杨平的这个观点也是蓦然认知选择切入电视市场的一个支撑点——因为电视的画面形态,以及在某些场景下对语音交互的必然诉求,是实现「GUI+VUI」用户体验的绝佳场景。


在这次语音引擎 Mor2.0 发布会上,现场用户体验通过电视大屏买买买


然而,在为电视厂商做语音交互界面的过程中,他们发现,这种混合场景中的语音交互系统的设计难度比纯语音场景难了不止一个等次。

「无论是技术架构,还是产品体验,都不是两种场景简单的叠加,你需要模拟出一个用户在拿着遥控器或不拿遥控器,看着电视画面和不看电视画面场景中,任何可能性习惯动作。」

他举了个例子,很久之前一位经验还不是很成熟的产品经理在跟研发设计人员一起讨论如何为某品牌电视的遥控指令做成语音时,提了这样一个需求:

我想给电视增加一个『语音说关机』。

但马上这个提议就被 UI 设计师批评了,因为他只考虑到了能不能做成语音交互,而完全忽略了电视机的使用场景。

「在遥控器上面,关机键和语音键就挨着,你按语音键说一声「关机」,然后电视收到指令再关机;但是那个物理按键就在那里,按一下就结束了呀,这个过程不就是多此一举的事情吗?」

杨平反复强调,在给厂商设计语音交互系统的时候,不能纯粹为了语音而语音。有时候,可视化的点击操作会比语音快方便很多。

因此,从消费级用户的体验角度考虑,他认为硬件厂商需要的不是某一个听起来很黑科技的交互,而是一个「更加自然,用户方根本不用 care 到底是语音还是视觉的交互」。

从点到面,用语音技术切入全生产链

首先,蓦然认知是一个典型的 2B2C 公司。也就是说,他要考虑的是能够为 B 端硬件提供点什么。

既然手中掌握着具备一定技术门槛的语音交互技术,那么这家公司的业务模式就很好理解了,简而言之,就是:

  • 从点(NLP、知识图谱等技术)到面(完整语音解决方案),公司都能提供;


  • 从硬件生产链的某一环到这件产品的生命全周期,公司都要切入。

从第一点来看,这其实在语音创业公司中是一个并不少见的选择。而这样做的好处是,能够针对厂商的具体需求进行定制化语音改造。

换句话说,蓦然认知提供的「套餐」有大有小,他们把一套以语音交互技术为基础的界面化改造方案,分了好几层,完全取决于下游的客户需要什么。

  • 如果这家厂商很传统,一直专注于硬件制造,没有过多开发经验,可以把蓦然认知这套完整方案直接拿过去;此外,也可以直接使用他们刚刚发布的产品——语音交互和决策引擎 Mor2.0 的前端 SDK。
  • 如果你只需要知识图谱和 NLP 技术,那他们也可以提供一个开放性的技术架构。
  • 再或者你想做一些定制化开发,他们可以把这套 UI 给你的同时,再根据你的品牌特点做一些调整。

但需要注意的是,这套方案里的」技术提供方,只有「语义理解」这一块是蓦然认知自己做的,语音识别还有内容服务等方面都是接入的第三方厂商。

蓦然认知的技术 VP 张伟萌把这种资源整合与集成的方式比作是「集中力量击痛点」:

「技术上,我们做的只有语义这一块。其他包括语音识别,内容资源都是其他厂商提供的;其实语音方面我们完全可以做,但是我们觉得没必要,因为这方面各家识别率都很高了,也没有太多门槛了。

还有,在这个完整方案里,内容服务我们也可以为厂商对接,但厂商一般都是有自己的媒资。」



虽然 BAT 等技术巨头未必不能提供这些产品和服务,但杨平认为,在与客户对接时,创业公司具备的灵活性与高效率优势就会体现地淋漓尽致:

「大厂商或许有品牌优势,但是他们的开放平台是需要你去遵循他们平台设立的规定,完全不能给你的需求进行细节化调整,相对来说比较强势;还有就是,大平台的效率真的那么高吗?」

他拿风行举了一个例子。这种出身互联网的公司做电视,效率其实是更喜欢遵循自己互联网的快节奏的,但是他们之前对接的国内某语音巨头,就交互界面细节调整和时间方面出现了矛盾。

「他们跟这家语音厂商说,能否改一下我现在这个 UI?但这家厂商说了,你要改可以,那我整个行业里的全都得改,你得等。」

语音交互大公司的产品缺陷在他看来就是蓦然认知的优势。他们现在对接的诸多电视厂商,都明确表示希望自己的交互界面能够「被差异化」。

譬如跟暴风的合作,蓦然认知提供的服务就是比较隐藏性的。他们就是需要我们交互对话等核心技术跟他们自己这一套 UI 做整合,其他的东西都是自己做的,或者找别人做的。

而某日本著名电器厂商,做硬件或许非常强,但在软件上面还仍然是逐步壮大的一个过程。因此它需要蓦然认知提供一整套 UI 方案。

「我们可以明确说,没有一家下游硬件厂商不希望自己不一样的。

像风行这种出身互联网的公司,卖硬件更需要从软件方面寻找差异化;跟前者相比,那家日本厂商本来就在供应链和硬件上具备优势,他们可能需要全方位补足内容、技术上的差距。」

正是由于差异化,他才认为精明的硬件厂商们绝不会选择一家语音技术供应商,这也是蓦然认知切入市场的机会:

「所有厂商自己都是有想法的,现在 AI 技术公司都只能接入硬件厂商产品的一两个型号。SKU(单品型号)多的硬件公司可以去实现产品取证,可以利用各家提供的技术和服务去做实验,做对比;

而 SKU 少的厂商,那就很惨,可能只能去细分说我 43 寸用这家技术公司的,55 寸再用那个公司的。」


除了电视,汽车领域是蓦然认知当下最觊觎的一个庞大产业。

这个行业更长且复杂的生产链条,以及一辆汽车身上所必须的千百个零部件,都为太多技术厂商提供了进入市场的可能性。

但与普通消费级硬件公司不同,这个生命周期很长的重工业,是从供应链角度是管理的,譬如一级供应商与二级供应商,而不是单纯去区分软件和硬件。

因此,戴帅湘才针对自己的两个汽车客户(某国内著名 A 股上市汽车公司与某德系著名品牌,客户信息暂不透露)组建了独立且规模不小的项目团队:

「为了拿到这个采购订单,我们需要给他们很多渠道,前端后端都要做很多事情的。这需要做好准备,付出更多,做的更长。因此我们才成了他们的一级供应商,直接给他们的某个车型做系统。

此外,我们还在上海建了一个新的研发中心,会扩充到 40~50 人,专门为汽车客户进行定制化服务。」

戴帅湘在这里提到的「做的更长」,就是刚才我们总结的蓦然认知业务模式的第二个特点——从生产链某一环节切入,逐渐扩散至全链条。

也就是说,对于汽车厂商,车载交互系统只是一个适合的切入点,而「基于语音技术,提升效率的同时,提升卖点,降低企业的人力成本」,是蓦然认知设定的一个终极目标。

很显然,这个目标是一个全生命周期的投入。

「我们不是为了拿汽车项目而拿项目,而是为了更加深入了解他们的生产全链条。汽车链条太长了,我们钻研和分析了很长时间,是为了探寻语音交互到底可以为这个行业做到哪一步,而不是只停留在一些车载信息方面的常规使用场景中。」



当然,从目前来看,车厂普遍对待 AI 的态度虽然「积极」但是从产品改造层面则比较审慎。譬如大多只把一些车载语音交互系统交给第三方技术厂商去做。

但戴帅湘却希望把这些「零星的点」,慢慢扩散至汽车生产线上的全生命周期:

「举个例子,你做语音交互,往前想,是不是可以给汽车降噪,以及麦克风阵列方面做一些处理?

那往后扩,语音交互是否可以跟他们的 CRM 系统,客服系统以及生产管理制造系统联系在一起?

总之,就是最好帮他们把链条分析清楚,然后告诉他们,我真的能提升你的效率,提升你的价值。」


但与汽车厂商进行合作,或者取得他们的信任,并不是一件容易的事情。而让戴帅湘最头痛的事情,是车厂复杂的决策逻辑与超长的决策周期。

「其实更多是理念的问题,他们从调研,到分析,再到选谁,然后最终到方案确定,时间花的太长了。这可能是我们技术公司或者互联网公司很难想象的事情。」

他不希望解决方案的确定花费较长时间,因为除了惯有的思维方式,还要考虑到公司竞争力的问题。

等到一个系统真正做好,可能市面上就会有更好的技术或者厂商有了新的诉求,那时候如果不做任何准备,厂商就会另谋新欢。

「技术型公司对技术和产品迭代的诉求很高。你想想,你用了这么多人,在这么长时间里只做了一小部分事情,说不过去。

因此,通常来讲,为了提升做事效率,在他们提某种需求的时候,我们同时要想更多东西。如果这家车厂不要,我可以进行行业内外的拓展,推给其他汽车或硬件厂商。」

换句话说,车厂要做 5%,那么技术公司就要做出 80%。在下一步需求来之前,他们就要处于完成准备的状态。

因此,这也是蓦然认知想从车载往全生产链延伸的一个重要原因。

他认为,高明的技术商业化,一定是基于一个点迅速在行业上下游扩充。如果仅凭这项技术,你可能只有暂时的时间优势;但是过了 1 年,人家也能做到了,你要怎么办?

因此,在这个技术壁垒还能保持的「1 年」里,你要做出关键性选择:

「对很多公司来说,可能一个是选择快速铺用户,另一个就是把这个点做的更深更重一些,解决更大的问题。很明显,你看语音识别,某很有名的厂商虽然已经把自己语音技术撒到很多硬件上了,但现在,有实力纷纷表示要替换掉它。」

最终,戴帅湘带着团队选择了第二种形式——去某行业上下游扩充整套方案,与那些行业内已有技术进行整合并串联起来。

在各家公司都在谈技术壁垒,聊垂直场景的当下,他的观点很明确——公司建立的真正壁垒绝对不仅仅是技术,而不仅仅是某个垂直场景,而是这个场景背后的产业链条。

「其实 AI 创业到了现在这个阶段,已经非常残酷了,不是说你跑得快就能行。

我们选择了『做的更重』这条路,其实有利有弊吧,因为你的各方面投入会比较大,将来万一觉得这方面不对想转型,难度也很大。」

「怎么说呢,」他没有把自己当下做的事情说得太满,

「我不敢说自己眼光有多准,把链条做的更长更重,是我们成立之初就设立的目标,当前的做的事,只是从没有偏离过公司目标而已。」

产业蓦然认知语音交互
暂无评论
暂无评论~