如果明天 YouTube 上的热门主播不再是真人……

撰文 | 彭君韬(Tony) 张震

最近,一个名为「TJWei」的人在 YouTube 上传了一段视频。在这段近四分钟的视频中,我们可以看到,两个人无论是说话还是动作都是同步进行的。二者看起来都是真人,不过令人意想不到的是,其中一个人像是由人工智能算法实时生成的。

这一段视频获得了很多人工智能领域专业人士的关注,甚至生成对抗网络教父 Ian Goodfellow 也转发了这条视频。与此同时,微博用户就此事也展开了热议,大家纷纷猜测这一新技术将对 YouTube 主播产生什么样的影响。目前,这个视频分享网站上的一些知名主播,比如 Ryan Higa 和 PewDiePie,年收入近 1500 万美元。

这段视频的背后是一种名为 CycleGAN 的人工智能技术。它是一种新型的 GAN,能够在不使用双份训练数据的情况下,学习如何把一个图像的特征转换到另外一张图像上。在过去,要实现图像到图像的转换,需要依靠两份相互对应的图像。这种专门的数据集编译起来困难程度较大,获取数据的成本也很高。

论文《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》首次提出了 CycleGAN 的概念。这篇论文由加州大学伯克利分校的四名博士生撰写而成。该团队使用 CycleGAN 创造了一个两步转换法,先将原始图像的特征转换到目标图像上,然后再返回到原始图像。这种新型的 GAN 在各种图像到图像的转换中取得了很好的效果,包括马到斑马的物体转换、莫奈和梵高绘画风格的转换以及风景的季节转换等。

受到 CycleGAN 的启发,研发人员正探索这一技术在不同领域中的应用,如人脸交换视频等。该技术的开发者 TJWei 已将这一技术开源,并分享在 Github 上。在 GAN 等无监督学习模型的助力下,人工智能无需依靠很大的数据集,也能生成很多这种类型的视频。不过,在短期内,YouTube 主播想要让这种形式的视频成为主流还不太现实,因为视频输出需要差异化。此外,这种技术还有将虚拟实体推入「恐怖谷」的风险,看起来比较瘆人,有点让人毛骨悚然。

目前来看,PewDiePie 的视频内容还算安全,不会受到人工智能的威胁。

入门YouTubeCycleGAN应用风格迁移产业视频
1