行了! 学会「看电影」的AI, 你能让编剧别再抛给我们雷剧、烂剧、不知所云剧吗?

编译 | 王宇欣 高静宜 

来源 | McKinsey & Company

科幻电影《Sunspring》首次亮相于 2016 年的伦敦科幻电影节上。

这部电影描述了一个人类普遍失业的反乌托邦世界,吸引了大批粉丝的关注。一位观众是这么评价电影的:有趣但却又很奇怪。

不过,这部电影最出彩的地方其实在于它的创作方式:这是一部完全由人工智能编剧的电影。

看到这里,你可能会发出惊叹,也许会猜想,没准机器将会代替人类成为讲故事的人,就像满街跑的自动驾驶汽车那样。

不过,如果我们再仔细看看《Sunspring》这部短片的话,你可能就会产生一些疑问。例如,影片中的一个角色莫名其妙地咳出了一个眼球。也有评论家指出,影片的对话听起来就像「一系列随机并且毫无关联的语句」。

事实上,尽管技术在不断进步,也仍然需要人类编剧在键盘前兢兢业业地撰写剧本。既然如此,让我们畅想一个不那么极端的情景:也许机器可以和人类一起工作,共同提升剧本的可读性?

那么,如何在丰富的视频媒介中开展这种合作形式呢?

与往常一样,编剧会创造一个兼具巧妙转折与现实对话的剧本,而人工智能则会提供一些见解,这些见解可以确定故事情节对观众的情感吸力,从而帮助编剧进一步提升作品的质量。举个例子,人工智能可以识别并确定哪种背景音乐或是视觉画面可以让观众内心充满希望。与此同时,这种突破性的技术可能会给编剧带来压力,促使他们在观众对电影永无止境的需求下茁壮成长。

近日,麻省理工大学媒体实验室针对人与机器在构建视频故事方面的合作潜力展开了研究和调查。团队想知道,机器是否可以辨别出视频故事中共通的情感,例如那些典型的角色命运的跌宕起伏,包括在艰难时期的奋斗、战胜困难、失宠亦或是战胜邪恶势力。如果可以,那么讲故事的人可以使用这些信息来预测观众的反应吗?这些问题是任何从事视频内容生产的人都要深刻考量的,上至电影工作室的执行人员,下至 YouTube 上的主播,均是如此。

 情感轨迹:故事的骨干

在进行研究之前,先看一看什么是情感轨迹。

无论是森达克、斯皮尔伯格,还是普鲁斯特和皮克斯,这些杰出的故事讲述者都会极富技巧地激发、引导观众的情感。通过对观众情感脉动的解读,他们对自己的故事进行调整,并在关键时刻挑起观众喜悦、悲伤或者愤怒等情绪。

不过,即便是最好的故事讲述者有时也会出产不理想的结果,比如一些莎士比亚的戏剧就让观众毫无兴趣或者无法与观众建立情感连接。(《辛白林》这部剧就没有太多的粉丝。)

那么,是什么造成了这种结果呢?

从理论上看,一个故事的情感轨迹走势能够在很大程度上解释它广受赞誉或是被打入冷宫的原因。

情感轨迹的说法并不新鲜,每一个讲故事的大师都对这个概念很熟悉,其中有些人也会试图找出一些通用的模式。事实上,可以参考 Kurt Vonnegut 对「轨迹」的解释。Kurt Vonnegut 认为,最受欢迎的情感轨迹是《灰姑娘》中的模式。

在故事开始的时候,主角身处困境,接下来命运变得起伏。在灰姑娘的例子中,先是出现救星,然后出现一系列麻烦。不过,无论中间发生过什么事情,灰姑娘式的故事都会有美满的结局——王子和公主从此过上了幸福的生活。

有证据表明,一个故事的情感轨迹可以影响观众的参与度,例如,有些观众会在社交媒体上对该影片进行评论或者向朋友夸赞这部影片。

在宾夕法尼亚大学的一项研究中,研究人员查看了纽约时报的文章,试图找到哪种类型文章的出版传播范围最广。他们发现,读者通常会分享能够引发强烈情感反应的故事,特别是那些鼓励积极情感的故事。根据逻辑推理,电影观众的响应方式也会是如此。

让机器作为电观众:麻省理工团队的实验

一些研究人员已经使用机器来识别故事中的情感轨迹。佛蒙特大学开发出了一种方法,用计算机扫描文字视频脚本或者书籍的内容从而构建出情感轨迹。

麻省理工大学的团队则决定更进一步,研究人员开发了一种机器学习模型,该模型依赖于深度神经网络,用于「观看」电影、电视剧或是线上特写的片段,并在几秒内评估其内容所包含的积极或是消极的情感。

这些模型考虑了视频的所有方面,不仅仅是情节、任务和对话,还包括了细微的触动,比如汽车追逐场景中对人脸的特写或者音乐片段的着重描述。当全方位考量每一帧内容时,故事的情感轨迹就出现了。

在这个过程中,机器可以查看未标记的视频,并基于视频所有的音频和视觉元素为故事创建情感弧。这是前所未闻的。

想想著名 3D 电影《飞屋环游记》的开场片段。这部电影聚焦在一个脾气暴躁的老年人 Carl Fredricksen 身上,他的妻子 Ellie 去世后,他决定用数千个气球带自己的房子飞往南美。为了让这部电影的大部分时间都体现在 Carl 的冒险上,编剧们需要想出一个快速交代复杂背景故事的方法,也就是电影的开场片段的诉求。这个片段基本是沉默的,而当 Carl 的生活场景展现在屏幕上时,情感轨迹就出现了。

你可以在下图 1 中看到电影的镜头组合,X 轴是时间,以分钟为单位,Y 轴是视觉带来的心理效价,或者理解为图像在特定时间引起观看者产生积极或者消极情绪的程度。这个程度由机器打分,分数越高,产生的积极情绪越多。为了方便分析,团队也用机器对电影的音频和视频建立了相似的图像。不过,重点仍是在视觉图像上,这也是团队后来分析情感投入的重点方向。


 图 1

视觉的心理效价由 0 到 1 这个尺度进行衡量,但是并非每个电影都有跨越整个区间的图像,重点在于相对心理效价,指的是某一场景与影片其他场景比较究竟呈现了多大积极或消极效应,以及情感轨迹的整体形态。

与电影类似,《飞屋环游记》开场片段也包含了一系列的情绪变化,并不存在一个明显的向上或者向下的轨迹。比如,其中的最高峰出现在 Carl 还是一个快乐孩童的时候,但是随后不久,也就是 Ellie 在半夜吓了他一跳时,出现了一个巨大的下滑。机器的负面反应则体现出了 Carl 的恐慌。稍后也出现了一些波峰,例如新婚燕尔的 Carl 夫妇准备要个孩子时,或者年老的 Carl 夫妇互相拥抱时。接近尾声 Carl 在 Ellie 去世后独自回家的片段中,效价则直线下降。

麻省理工大学团队的机器学习模型已经查看了数千个视频,并为每个视频构建了情感轨迹。为了衡量这些轨迹的准确性,团队要求志愿者用不同的情感标签对电影的片段进行标注。此外,志愿者必须要确定是哪些视频元素(比如对话、音乐或者图像)引起了自己的反应,然后团队会使用这些反馈回来的意见改进模型。

寻找通性:相似的情感轨迹

从视频分析中筛选出数据后,团队开发出了一种将故事分成不同类型轨迹的方法,换句话说,就是具有相同情感轨迹的视频。这种方法将一种名为 K-medoids 的聚类技术与动态时间偏差相结合,所谓动态时间偏差是检测两个速度不同的视频序列相似性的过程。

团队尝试在两个独立的数据集中寻找情感轨迹的类型,其中一个含有 500 多部好莱坞电影,另一个则包括将近 1500 个 Vimeo 上的短片。

视觉心理效价的初步分析表明,大多数故事都能被分成数目较小的组别,这与冯内格特和其他一些故事讲述者猜想的一样。下图 2 显示了 Vimeo 数据集中视频被分成的 5 个不同的情感轨迹类型。例如,对于用黄线标识的类型来说,视频的早期就会出现负面情绪的激增,在随后的片段中则会有持续的积极情绪出现。(所有的电影在最初和临近结尾时的打分都较低,这受到机器打分系统的影响。)


图 2

让计算机成为带有魔法的水晶球:预测观众的参与度

掌握故事的情感轨迹非常有趣,但是了解如何使用这些结论更为重要。

一个故事的情感轨迹或者故事所属的轨迹种类是否会影响观众对视频的反应?具有某一确定类型情感轨迹的故事是否可以刺激产生更多的观众参与度?

团队试图通过分析 Vimeo 短片数据集的视觉数据来回答这些问题,并针对可能影响每一个故事在线反应(比如视频长度或者上传日期)的各种元数据,使用了回归模型来考虑轨迹特征。之所以选择在分析讨论中着重关注视觉轨迹是因为比起音频来说,这些视觉轨迹与视频内容的连接更加紧密,并且可以把轨迹组合起来提出一些分析上的挑战。

团队的目标是预测视频在 Twitter 和其他社交媒体上收到的评论数量。在大多数情况下,大量的评论意味着广泛的观众参与度,尽管其中可能包含一些负面的内容。例如《鸳鸯绑匪》和《伊斯达》这类电影在网上炸开了锅,也会产生大量的在线评论,尽管都不是什么好话。

在针对 Vimeo 的分析中,利用视觉轨迹确实可以预测观众的参与度,并且一些特定类型的电影确实会产生更多的观影评论。团队进行了很多次分析,每一次都会使用不同的类型以确保不会忽视任何趋势。

可以看到,其中一个呈现兴衰模式的类型很突出,在图 2 中以红线标识。人物在取得了早期的成功和幸福之后,效价呈现稳步的下降趋势。在所有的故事类型中,这个类型有着最消极的结局。这些故事有着消极结局,但是会给观众留下了深刻的印象。

对 Vimeo 视频的一些其他分析也显示出了类似的结果。在图 3 中,有两种故事类型可以比其他类型吸引更多的评论。临近结尾的弧线大幅上涨表明,这些故事都以积极的情绪爆发作为影片的高潮。主要区别在于左侧图中的故事在大结局之前涉及了更多从负面到正面的情绪摆动。与那些以消极情绪结尾的影片相比,来自这两类型的故事有可能收到更多的评论。这个结果也许与宾夕法尼亚大学的发现相反,正面的情绪造就了最大的观众参与度。


图3

团队阅读了所有 Vimeo 短片的评论,并对其所表达的情绪类型划分了等级进行了评分,然后运行程序测量这些评论的长短。这一分析证实,刚刚描述的三种故事类型更可能产生更长、感情更激烈的评论。这些评论并不是那种简单的「不错」,而是类似「超级棒.... 特别强大.... 像大铁球一样直击你的内心」这种评论。同样惊人的是,这些评论并不会关注特定的视觉图像,而是关注视频整体的情感感染力,或是故事随时间变化的演进方式。

这些建议并不是要给编剧们一个模板或是框架,就像要求乔治奥威尔为了振奋人心而在 1984 年强行制造一个快乐结尾那样。但是,它们可以激励编剧客观地看待他们的内容,编辑视频从而提升观众的参与度,例如,在关键点播放新的音乐或者不同的图像,以及对情节、对话和角色进行调整。随着编剧们认识到人工智能的价值以及这些工具普及度的提升,人们创作视频故事的方式会发生巨大的变化。

与此同时,导演也可以把捕捉到的动作整合到自己的作品中,作家可以与机器合作,用人工智能技术来打磨情节、提升故事的感染力。

产业人工智能电影机器学习