Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

作者张倩

怎么把AI变成生产力?钉钉:这题我会

「xx,今天开会你来做一下会议记录。」

听到这句话,瞬间精神了有没有?

对于每一个打工人来说,做会议记录几乎都是「加班」一样的存在。这意味着你在整个会议中都要全神贯注,但即使这样也难以保证全记下来,可能下班之后还要听录音进行补充,毕竟这场会议的可回溯性高低几乎都取决于你的记录质量。
 
马上就 2022 了,为什么我们还在这种简单的事情上耽误时间?让 AI 帮忙记录不香吗?
 
答案当然是「香」,尤其是将 AI 嵌入常用的办公平台之后。

想象一下,在一场线上会议结束之后,你可以立即收到一张卡片形式的信息。

打开这张卡片,你惊喜地发现整场会议已经被全部录制了下来,视频旁边就是完整的文字记录。视频播到哪儿,哪儿的文字就会高亮显示。点击任意文字,视频和音频也会跳到对应的位置,音、画、字三方同步,连进度条都不用自己拖动,是不是很方便?

这就是钉钉在今年的「2021 未来组织大会」上正式发布的新功能——钉钉闪记,它是钉钉会议协作新产品「钉闪会」的一部分。

钉钉闪记有很多非常实用的小功能,比如自动翻译、自动生成会议关键词、文字检索、筛选发言人、上传视频转文字加字幕等。

对话的自动翻译相信很多人都在钉钉聊天框中体验过。这个功能给人的第一感觉就是:翻得很快啊。字刚打进输入框,翻译结果就出来了,而且还可以设置「接收消息实时翻译」,连翻译按钮都不需要自己点,难怪很多人将其纳入钉钉的「真香」系列。有了前面的成功经验,钉钉这次把自动翻译添加到了会议场景,支持 11 种外语,不知道可以拯救多少外语听力一般但还要经常跟国际客户开会的同学。

自动生成会议关键词、文字检索和筛选发言人在节省时间方面非常有用,尤其是在会议时间比较长的时候。毕竟工作那么忙,谁也没时间把每个会议记录都通读一遍。钉钉总裁叶军还表示,闪记下一步还将尝试智能提取段落大意、自动提取会议行动点等功能,进一步帮大家节省时间。

将上传的视频转成文字并加上字幕是一个让人有点意外的小功能,因为它的作用可不仅局限于开会,平时做个内部培训视频、产品 demo 都能用得到,你甚至能靠它当个 up 主,这真是妥妥的新生产力工具了。

值得一提的是,钉钉副总裁、协同平台业务负责人傅徐军在发布会上透露,从立项到开发再到上线,钉钉闪记只用了大概两个月的时间,而且后续还将扩展到线下场景。

为什么一个产品的上线可以如此之快?傅徐军解释说,「闪记是钉钉和阿里巴巴达摩院合作开发的新产品,我们看到的多国语言翻译以及语音转文字能力都是来源于达摩院强大的技术支持。」

以闪记用到的语音识别为例。我们刚才提到,钉钉闪记的语音转文字结果是「立即」可出的,这区别于一些需要等待的语音转写产品。后者利用的往往是离线系统,在准确率方面比较有优势,但缺点也很明显,就是延迟较高。因此,近年来,延迟较低的在线系统受到越来越多的关注,但准确率始终不及离线系统。为了综合二者的优势,在降低延迟的同时提高准确率,阿里达摩院与钉钉技术团队采用了新一代流式和离线端到端一体化模型方案(UNIVERSAL ASR),它可以同时支持闪记的实时转写和录制音频转写,识别率媲美纯离线端到端模型,但延迟大大降低。

UNIVERSAL ASR 架构概览。图源:https://arxiv.org/pdf/2010.14099.pdf

此外,闪记还首次上线了新一代端到端热词定制技术,在端到端模型中加入了为额外文本进行建模的 Contextual LSTM 模块,使得模型具备了对特定文本进行纠偏增强的能力。与传统热词技术相比,该技术的热词丢失率下降了 60%,显著提升了定制场景的热词识别效果,且可设置热词数达到上千个。

再比如说声纹识别,技术人员针对会议场景的多角色分离任务,提出了多项核心算法创新技术。


首先,他们将只基于频域信息的传统声纹模型扩展到了频域和时空信息的三维说话人识别模型。通过有效建模空间信号信息 + 声纹神经网络,系统在多人会议中的性能大幅度提升,尤其是对说话人的起始时间的追踪、定位等能力。

图源:https://arxiv.org/pdf/2107.09321.pdf


其次,针对长期困扰说话人识别研究者的短时文本无关任务,研究人员也做出了显著的优化。他们提出了一种基于 contrastive loss 的孪生网络结构 Phonetically-aware Coupled Network (PacNet),有效地同时建模声学信息和内容信息,可以有效减少短语音时文本内容对声纹识别带来的干扰,从而大幅度提升一场会议中短片段识别的准确率。


第三,针对强噪环境(如多人同时说话、电脑音频背景噪声等)下的说话人识别技术,技术人员提出了一种新的算法——CAM(针对声纹识别的 Context-Aware Masking)。该算法受到照相机聚焦技术的启发,可以在嘈杂的环境中「虚化」过滤掉背景噪声,突出需要识别的目标说话人的声音,从而在强噪环境下大幅度提升了识别的准确率。


最后,在角色区分的关键技术模块中,技术人员实现了基于 Global-Local 信息的算法思路,将传统聚类算法与端到端 diarization 有效结合,从而更准确地识别出会议中讲话人数、说话人变更点以及重叠语音。


在企业人工智能服务方向,钉钉其实是一个特别的样板。

首先,钉钉内并没有特别执着于精深的前沿 AI 技术,几乎很难找到 AI 领域的最新突破,反而大多数是业界已经相对成熟的技术。

但为什么要从 AI 角度看钉钉?因为这个平台上确实有很多 AI 技术的落地,例如 AI 翻译、语音速记、实时字幕、对话机器人、多模态等等,在语音 AI、视觉 AI、决策智能以及智能计算很多方面都有涉及。

这与钉钉的定位有关,它是用户每天都在使用的端,不允许不稳定因素,但它又有 AI 发展所欠缺的落地场景。

可以说,钉钉真正擅长的是为这些成熟的技术找到应用方向,做到 AI 技术的产品化,把 AI 变成每个普通人触手可及的生产力工具。

例如,在教育场景中,钉钉发布了「教师版钉钉」,上面有数学智能批改、语文朗读练习、英语口语评测等功能,用简单的 AI 帮老师节省了大量时间。

图源:https://edu.sina.com.cn/l/2021-01-14/doc-ikftssan6101246.shtml

再比如,在工厂里,钉钉内的群聊机器人与制造业的生产系统集成,将生产车间出现的问题及时推送到群、人的聊天里。如果故障工单在一定时间内没有解决,钉钉机器人会将信息发送给更高一层负责人,这样层层推送,责任到人,大大提升了工厂的生产效率与解决问题的速率,让员工少跑腿。

透过钉钉这个界面我们看到:AI,即使是现阶段的 AI(弱人工智能),在提升人类生产力方面也蕴涵着巨大的潜力,只要你找对方向。

为什么钉钉如此看重用 AI 提升生产力?在钉钉总裁叶军看来,钉钉这类新生产力工具是企业数字化转型的有力支撑,可以帮助企业走向「两个数字化」——组织数字化和业务数字化,并通过两个数字化的相互融合和促进,实现组织内人财物事、产供销研、组织上下游生态产业链等场景环节的全链路数字化。

其中,组织数字化首先关注的是员工的数字化能力,让每一个员工拥有一套称手的新生产力工具,这也是钉闪会等协同产品的最终使命。

而阿里达摩院提供的 AI 技术能力为这一愿景提供了有力保障。

除了开放自身能力之外,钉钉也承担了阿里巴巴科技能力的开放窗口这一重要角色。通过钉钉这一用户界面,用户可以按需调用阿里云、达摩院的各类技术组件、云产品和资源,其中就包括各项 AI 能力。

可以预见的是,在不断迭代的 AI 能力的支持下,钉钉将解锁越来越多的场景,让 AI 走进各行各业,走入田间地头,真正成为新生产力工具,而不是空中楼阁。这是幸事。
产业钉钉阿里巴巴
1
暂无评论
暂无评论~