深度学习拯救濒危语言

当我最终按下生成的音频文件的播放键,听到受过训练的深度学习神经网络试图生成某种濒危语言中从未被说过的句子时,房间里生出一种尖锐的存在感。最后一个能流利说这种语言的人在 2003 年便去世了。当爱迪生发明了留声机,很快便产生了将其主要用于聆听逝者的声音,而非用于播放音乐的构想。记录在留声机上的声音被认为没有实体,是空间中的灵魂。仔细聆听声音时,最初我只能听到静态噪声,但其内部的各种光谱形状和脉冲标志着它们确实存在。我想,当它奏出第一段幽灵般的人声录音时,一定很像爱迪生。

7032199-music-wallpaper.jpg


最近人工智能和机器学习领域取得了巨大突破。短短几年内,它发现了从自动驾驶汽车和医学影像处理到自动翻译算法(包括语音识别和自然语言处理)的各种新颖的用途。目前谷歌、Facebook、苹果、亚马逊、微软和百度等公司为了在该领域聘用最优秀的人才,正在全球各大学的计算机科学系进行争夺战。


推动这场革命的技术之一便是深度学习和深度神经网络。简而言之,计算的形式便是由大脑与其数十亿的神经元并行工作,根据其周围环境来阐释和行动。形成神经网络旧观点的因素同时也造就这一次复出的是最近大数据的可用性——在网络的训练过程中使用的大数据集,以及现代 GPU 芯片组中并行处理的速度。


作为一名对语言和计算领域都十分感兴趣的艺术家及电子音乐家,我在 2016 年秋发表了一篇关于 Google 科学家已经转向音频领域来尝试改善人工语音 [1] 的文章。激发我的想象力的并非他们在使计算机语音听起来更加自然这个方面的成功,而是在音乐材料和其他声音方面技术的怪异的副产品。我需要亲自做出尝试,大胆地在谷歌的一个云基础的计算引擎上安装必要软件来运行测试。我的第一个实验利用水生昆虫田野记录集及我自己的音乐来观察它是否可以学习去「发出」像我的音乐项目 phonophani 或 alog 轨道一样的「声音」(这很可能会让我失业!)。


水生昆虫:点击阅读原文在原文中听取


Phonophani 音乐:点击阅读原文在原文中听取


与之前的技术相比,真正巨大的进步在于训练的模型是逐个样本水平的,所以对于算法来说,训练的声音无所谓是工厂警报器,水昆虫还是钢琴。神经网络是一个黑盒子,很难想象其内部实际上如何运作。它是自主学习的,不存在关于如何复制发送过来的声音的指令。若不与严格标记的材料相关联,那么它仅会胡言乱语,像是在说方言。或在使用音乐材料的情况下,它听起来会有点口吃,断断续续蹦出乐章。使用音乐与深度学习的一个巨大的挑战是大数据集的可获得。十年来,在计算机视觉研究中,有标记的视觉材料大型数据库很容易获得,这使得多种神经深度梦境项目的惊人视觉艺术成为可能(灵感来自 2015 年 Google 的初始项目 [2])。但在音乐和声音领域,大数据集正为此进行第一次组装 [3]。


我将实验又转回到语言方面。它是否能为一种濒危语言训练一个深度学习网络呢?在之前的艺术项目中,我广泛使用了濒危或已消失的语言(即濒危语言 [4])。每十天便会有一种语言消失,所以按照这个速率,几代之内世界上大约 6000 种语言中便会有一半消失。濒危语言的概念是一种非常复杂的机制,为了维持语言的生存,其在普通家庭及在家庭世代间的使用是至关重要的。一种语言能够为其后代保存下来吗?还是只能存在于社会的活跃使用中?语言能否脱离人们的文化、知识和身份?在使用萨米族语言(挪威北部、瑞典、芬兰和俄罗斯的土著群体)的家庭中,有一些语言已然灭绝或仅有少数的古老语言保存下来,但他们正在努力使其中几种语言复活。


通过与研究萨米人语言的弗莱堡研究小组联系,我得到了来自俄罗斯西北部已消失的一种语言 Akkala Sámi 存留最后的记录材料。该语言最后的使用者之一 Piotr 讲述了一个故事并唱了一首歌。如果我使用这类材料来训练一个深度学习模型来讲这种「失落」语言,将会怎么样呢?它能让我们再次听到这种语言,就像它还存在于世上一样吗?它能做出和已经存在的记录材料不同的声音吗?它能够赋予一种语言「复活」的虚幻感觉吗?


用于训练的原始故事(摘录):点击阅读原文在原文中听取


学习过程的三个阶段 [5]:点击阅读原文在原文中听取


从艺术的优势点来看,这个实验中是否保留了说话者的含义、知识或正确的语法等并不重要,我只关心声音、材料内容或介质本身。一些神秘的生成文件(uncanniest generated files)几乎是没有声音的,其中仅仅产生介于呼吸和单词之间的细微声音。当神经网络自身内转时,这种咿呀,或称「梦呓」,是突出纯语音元素的一个极佳方法。它还能明白对于一种语言来说,什么是独一无二的特质;因此如果一门语言消失了,那么对于问题可能的答案也就消失了。


最后,我不会标榜我实验的成功。它们只是一个想法的基本草图,充其量是概念的证明。在我对音乐材料的实验中,我感兴趣的并非音乐结果的质量,而是在没有人类意识制定计划或程序的情况下产生的声音中的外部存在感或差异性(otherness)感觉。我认为这是我经历过的任何「深度」艺术经验的核心部分,有一些奇异而未知的方法或秘密的自主算法在乐曲内起作用,使它万分迷人。简而言之,这个作品变成了一个角色——一张你面前的面孔,但不一定是人类的面孔。


用图灵测试测量一个像我创造的那样一个人工智能。在我的例子中可以使用略微修改的版本——艺术类图灵测试。在初始测试中,人类受试者要辨别他或她是否被机器愚弄以决定它是否有人类意识。对于这样简单的测试,有很多可以反对的地方,但我认为其最大的缺点在于,它在根本上是以人类为中心的方法。为什么人类可以判定什么是智能?如果我们在任何时候都在这种「强烈」的意义上满足人工智能的某种形式,那么它会被赋予总差异性(total otherness)的特征,也不是以任何一种能与我们的思考方式相媲美的方式;它将像有多个深度学习层的黑盒子,在那里我们将永远不能将它的多维结构可视化。与动物能否像我们一样思考或感觉的问题类似,整个智力问题在范围上会变得太过狭窄。重要的是我们的自然反应和情绪。


最终生成版本:点击阅读原文在原文中听取


这便是本文章发表之前实验的进展——在云基础的 CPU 服务器上对 Akkala Sámi 进行一个半月 24 小时深度学习的结果。我感觉最近几日发生了什么,仿佛声音合成口吃的频率变小了——相较 Schwitters 的「Ursonate」来说更加娴熟,也许它的愤怒和喊叫也变少了?还是说这些都是我的心理作用?判断什么时候该停止是最大的挑战之一:再多学一小时就好……再改变一次代码,重新试一次就好……我的实验最主要的弱点便是源材料数量有限,我需要访问一个更大的语言类数据语料库来得到进展。这强调了档案在未来会愈发重要,世界也会更加「以数据为中心」。人工智能如何改变以同质性和破坏多样性为特征的世界?它能否寻得使世界保持独特与奇异的新方法,通过使其存在于我们周围来保存过去?


为了推进这个想法,我的实验的下一个逻辑步骤是与语言学家和计算机科学家合作。但我运用有限的专业技术知识能够运行这类实验,这仍旧能成为一个范例 [6]。当快速 GPU 处理器的价格下降至消费者水平时,该技术将变得更加平民化。人工智能如何协助艺术的创作?它会成为一种新形式的后人类艺术吗?而更大的问题是:深度学习对艺术与文化、创造力、社会研究和人文科学来说意味着什么。这个未来将由我与许许多多其他人士在今后的发现和参与中塑造。


[1] https://deepmind.com/blog/wavenet-generative-model-raw-audio/

[2] https://research.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html

[3] http://motherboard.vice.com/read/big-datas-unexplored-frontier-recorded-music

[4] 请参阅网址: http://sommer.alog.net/pages/48 和 http://sommer.alog.net/pages/29

[5] 欲了解更多实例,请参阅网址: https://soundcloud.com/user-614303604/sets/deep-learning-dead-languages

[6] 关于我的实验中通过使用开源 wavenet 做出的实现,请参阅 https://github.com/ibab/tensorflow-wavenet

产业深度学习文体娱乐产业科学
暂无评论
暂无评论~