谷歌 AI 新博文,「SpecAugment:全新自动语音识别数据增强方法」
谷歌 AI 今日更新技术博客,介绍语音识别新技术。在其最近名为「SpecAugment:一种用于自动语音识别的简单数据增强方法」的论文中,谷歌 AI 采用全新的方法来增强音频数据,将其视为视觉问题而非音频问题。其不是像传统上那样增加输入音频波形,SpecAugment 是直接将增强策略应用于音频频谱图(即,波形的图像表示)。该方法简单,计算成本低廉,并且不需要额外的数据。它在提高 ASR 网络性能方面也相当地有效,在 ASR 任务 LibriSpeech 960h 和 Switchboard 300h 上展示了最佳的性能。