语音识别是发展未来人工智能的重要组成部分之一,是达到人机交互目的第一步。自20世纪50年代开始发展至今,语音识别技术主流算法模型已经经历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络阶段。目前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音识别准确率可高达98%以上。
近日,Deepgram宣布完成B轮融资,总额达到7200万美元。投资机构包括阿尔肯资本、贝莱德、老虎环球、Wing VC、花旗风险投资、SAP.io、InQTel、Nvidia和Y Combinator等。这也是智能语音公司筹集的最大一轮B轮融资。
Deepgram是一个由AI驱动的自动语音识别(ASR)平台,重建了整个语音处理堆栈,抛弃了传统的数据处理管道,隐马尔可夫模型和启发式技术,以进行端到端的深度学习。Deepgram提供了一个经济实惠、高度准确且可扩展的语音解决方案,典型客户是希望取代呼叫中心人工工作的大型企业,以及希望将语音融入其产品中的软件公司。
“作为一家基础人工智能公司,我们将利用这笔资金扩大研究和工程团队,以定义人工智能语音理解的未来。”Deepgram首席执行官兼联合创始人Scott Stephenson表示。
1、理解企业数据的“暗物质”
“语音是企业数据的暗物质。我离开粒子物理学是为了解决一个更大、更实际的问题:将黑暗数据转化为人类和计算机都能理解的东西。”Deepgram首席执行官兼联合创始人Scott Stephenson说。
Deepgram于2015年成立于加利福尼亚山景城。两名创始人分别是密歇根大学物理系研究员Noah Shutty与其导师Scott Stephenson。Scott Stephenson曾参与加利福尼亚大学戴维斯分校主持的大型地下氙探测器设计,探测器用于搜寻暗物质,他还曾参与该大学主持的另一双相液体氙气探测器开发项目。
Deepgram的想法诞生于地下两英里的地方。当时,Scott Stephenson还是一个研究暗物质形成的博士生。在不做研究的时间里,他和Noah Shutty全天候不间歇地录制着生活中的音频。然而,当两人试图返回去寻找那些音频文件中的关键对话时,却发现只留下了无数个小时的沉默和背景噪音,内容几乎无法筛选。
“我们很快意识到,没有一种工具可以让我们处理记录并确定有价值的时间戳,便开始使用AI技术来查找隐藏在大型音频数据集中的关键时刻。”这也是Deepgram要解决的问题是:从企业庞大的语音数据库中快速准确搜索目标文本或录音片断。
至今,语音数据对大多数企业来说仍然是一个黑暗的价值池。使用语音技术的三大挑战在于准确性、成本和转录速度。
对于语音技术,准确性差会导致理解力差。音频质量差、背景噪音、口音、方言和工作相关行话可能会导致准确性差。未经训练无法处理这些场景的语音模型。训练针对特定音频类型、语言、口音和环境量身定制的定制模型的能力提高了准确率。这也是为什么深度学习在提供有意义的语音体验方面比以往任何时候都更加重要。
Deepgram的所有模型都是从零开始训练,可处理的文件类型众多,包括电话、播客、会议录音和录像。Deepgram平台会对语音进行处理,存储在“深度表征索引”中,该索引的分组标准为音节、而非单词。
因此,用户能够用发音搜索单词;多数情况下,即便用户拼错,也不会影响Deepgram正常识别。Deepgram的模型可以识别麦克风噪声、背景噪声、音频编码、传输协议、口音、价(即能量)、情绪、对话主题、说话速度、产品名称和语言等各项信息。
此外,应用程序编程接口集成使开发人员能够将语音识别添加到他们的应用程序中,而无需进行重大修改。“开发人员可以将API嵌入到他们的软件中,从而实现无缝集成,”首席运营官Shadi Baqleh说,“例如,你可以对着软件应用程序上的麦克风讲话,文本会在不到一秒的时间内出现在用户的屏幕上。”
Deepgram将其服务宣传为市场上最快、最准确的服务,能够在不到三分之一秒的时间内识别和转录语音,在最佳条件下的准确率高达98%。
“一个大型呼叫中心可以在不到10小时的时间内转录10,000小时的日常电话,以找到可能流失的客户、他们可以追加销售的客户或有问题的产品。”Shadi Baqleh介绍,Deepgram的转录速度在所有语言中都是相同的。
2、语音技术不断增长的价值
不少观点认为,随着所有关于聊天机器人、社交和越来越多的视频渠道、文本和视觉通信的对话,语音正在成为联络中心的过时方式。但根据最近的行业研究,情况似乎并非如此。
随着组织从客户参与和体验中寻求更深入的见解,语音尤其是语音技术的作用不断增强。“客户在遇到最棘手的问题时会打电话,因为这仍然是一种比打字更快的沟通方式。最关键的是,电话传达了客户的挫败感,这对于衡量整体客户满意度非常重要。”
此外,还有许多垂直行业,例如医疗保健和金融服务行业,越来越多地将语音技术整合到他们的日常运营中。这些行业的员工日程安排很忙,使用语音技术可以减少花在行政任务和一般提问上的时间,从而为他们的日常工作增加宝贵的时间。
事实上,语音仍然是客户和员工互动的基础。这方面的一个重要案例是呼叫中心。呼叫中心包含宝贵的客户交互信息,并且有多种技术解决方案允许呼叫中心正确、可操作地使用其数据。语音识别技术就是其中之一。
“目前,语音技术很少用于培训联络中心座席:主要用于聆听特定的合规性问题、质量保证或协议确认。要查看的音频可能来自临时客户或经理的投诉。但这种方法忽略了更大的市场模式、问题和客户群的需求,这些可以为所有联络中心座席增加价值。”Shadi Baqleh说。
在Deepgram看来,呼叫中心语音技术可以改善客户体验的个性化。比如转录和分析所有客户电话,以找到可以在全球范围内解决的更大的产品或服务问题,并将其添加到座席培训中,从而缩短解决问题的时间。
目前,呼叫中心中心仍然主要被视为成本中心。“但是,如果您可以为您的代理商提供更好的工具来减少客户流失并增加追加销售或附加服务,那么,呼叫中心中心将成为收入增长中心。”
Scott Stephenson对呼叫中心的一项建议是,不要忽视通过语音数据提供给他们的大量有价值的非结构化数据。
从历史上看,呼叫中心对其客户呼叫数据采取“存储后忘记”的方法,将有价值的客户洞察遗忘在数据库中。相反,呼叫中心可以利用有价值的非结构化数据来提取关键术语并挖掘有价值的客户见解,以更好地为客户服务并改善客户体验:而不是让数据不做任何分析。
自推出以来,Deepgram已经转录了超过1万亿个单词。“我们知道还有数以万亿计的数据等待着从噪音中提取出来,并以前所未有的准确性和上下文维度来理解。”展望未来,Scott Stephenson预计,将看到更多企业将预算分配给支持语音的体验——包括面向员工和面向客户的体验。与此同时,软件提供商将积极资助与语音相关的产品开发,以突破噪音并努力成为客户体验(CX)技术领域的下一个大玩家。