谷歌新博客:利用 Fréchet 距离进行视听质量测量
获得用于评估生成模型的鲁棒指标对于评估(和取得)音频和视频理解领域的进展至关重要,但是目前尚不存在此类指标。来自谷歌人工智能实验室的研究团队在名为「Fréchet 音频距离:用于评估音乐增强算法的度量标准」以及「迈向精确的视频生成模型:新的度量标准和挑战」研究中介绍了两个这样的度量标准:Fréchet 音频距离(FAD)以及 Fréchet 视频距离(FVD)。研究人员利用成对的 10k 视频和 69k 音频剪辑成对比较记录了大规模的人类评估,这些评估证明了其指标与人类感知之间的高度相关性。FréchetVideo Distance 和 FréchetAudio Distance 的源代码目前已在 GitHub 发布:(FVD) bit.ly/32Ea32Z; (FAD) bit.ly/2odiYtg