研究人员开发能从录像中读取唇语的 AI
早在 2016 年,来自 Google 和牛津大学的研究人员就详细介绍了从视频中读取嘴唇的 AI 和机器学习算法,该系统可以以 46.8%的准确度注释视频录像,优于专业的人读机的 12.4%准确度。但是,即使是最先进的系统也难以克服唇部运动的歧义,从而阻止其性能超过基于音频的语音识别。为了追求更好的性能,浙江大学阿里巴巴分校和史蒂文斯理工学院的研究人员设计了一种方法,称为「按语言说话」(LIBS),该方法使用从语音识别器中提取的特征作为补充线索。他们说,它在两个基准上都保持着行业领先的准确性,在字符错误率上以 7.66%和 2.75%的幅度领先于基准。(venturebeat)