近日,在VoxSRC 2021国际说话人识别大赛的第四赛道说话人日志任务中(公开刷榜阶段),明略科技AI语音团队,以5.05%的说话人日志错误率,拔得头筹。据悉,该成绩为截止目前的最优结果,明略科技说话人识别技术位列世界前茅。
The VoxCeleb Speaker Recognition Challenge (VoxSRC)是由英国牛津大学、韩国NAVER公司、美国斯坦福国际研究院语音技术与研究实验室和麻省理工学院林肯实验室组织联合举行的国际说话人识别竞赛。今年的赛事竞争激烈,参与的全球知名研究机构和企业包括约翰霍普金斯大学、昆山杜克大学、西北工业大学、腾讯、字节跳动、国音智能、三星、华为、搜狗等。
说话人日志技术,也叫说话人分隔与聚类,主要目的是从一个连续的多人说话的语音中,区分音频中不同说话人的片段,即解决“whospokewhen”的问题,从而提供不同说话人时间片段信息,该项技术是多说话人语音识别的关键基础技术。
说话人日志技术有重要的应用价值,例如,结合语音识别技术,在会议录音、电话客服等多说话人的场景中,提高会议纪要、客服内容质检分析的效率。未来,随着说话人日志技术的不断发展,场景应用会更加广泛。
明略科技致力于持续探索AI技术与行业场景的深度融合,目前,在AI质检、基于知识图谱的多模态检索与问答、会话智能等方面,积累了成功的应用案例。