利用视频生成双耳音频 : Facebook提出2.5D视觉声音
双耳音频为听者提供了 3D 音效,使其拥有丰富的场景感知体验。然而,双耳录音却很难实现,需要具备专业知识和设备。在论文《2.5D Visual Sound》中, Facebook 的研究者提出利用视频将普通单耳音频转换成双耳音频。主要理念在于,视觉框架揭示了重要的空间线索,与之伴随的单耳音频明显缺乏这些线索,但这些线索与视觉框架紧密相关。他们设计了一个深度卷积神经网络,通过注入关于目标和场景配置的视觉信息,学习将单耳声道解码成双耳声道,并将输出的结果命名为 2.5D 视觉声音。此外,他们还展示了该网络学习到的自监督表征有利于视听资源的分离。