李飞飞句子级嵌入模型
在论文《Audio-Linguistic Embeddings for Spoken Sentences》中,作者提出了语音句子嵌入,它可以捕获声学和语言内容。现有工作大多是在字符、音素或单词级别上运行,本文方法则通过在句子级别建模语音来学习长期依赖性。作为音频语言多任务学习问题,本文的编码器 - 解码器模型同时从音频重建声学和自然语言特征。研究发现,口语句子嵌入在语音识别和情感识别任务上优于音素和词级基线。该论文的嵌入可以更好地模拟高级声学概念,同时保留语言内容。这项工作表明通用、多模态句子嵌入对口语理解的可行性。