行业内参

AI Daily

AI Daily 快讯 · 2019/01/04

利用视频生成双耳音频 : Facebook提出2.5D视觉声音

双耳音频为听者提供了 3D 音效，使其拥有丰富的场景感知体验。然而，双耳录音却很难实现，需要具备专业知识和设备。在论文《2.5D Visual Sound》中， Facebook 的研究者提出利用视频将普通单耳音频转换成双耳音频。主要理念在于，视觉框架揭示了重要的空间线索，与之伴随的单耳音频明显缺乏这些线索，但这些线索与视觉框架紧密相关。他们设计了一个深度卷积神经网络，通过注入关于目标和场景配置的视觉信息，学习将单耳声道解码成双耳声道，并将输出的结果命名为 2.5D 视觉声音。此外，他们还展示了该网络学习到的自监督表征有利于视听资源的分离。

PM 4:17vision.cs.%20utexas.edu

登录后评论

暂无评论~

登录

文章库