Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

预测过去?DeepMind用AI复原古希腊铭文,登Nature封面

深度神经网络(DNN)修复受损的古希腊铭文,DeepMind 探索 AI 与古文字学的融合。

人类文字的诞生标志着历史的曙光,对于我们了解过去的文明和今天生活的世界至关重要。例如,2500 多年前,古希腊人开始在石头、陶器和金属上书写,记录下了包括租约、法律、日历、神谕在内的所有内容,从而令后人详细了解地中海地区。遗憾的是,这种记录是不完整的。

几个世纪以来,许多遗留下来的铭文已被损坏或从原来的位置移走。同时,放射性碳测年法等现代测年技术不能用于这些材料,导致解释铭文变得困难且耗时。

DeepMind 一直探索如何利用 AI 修复古老的语言。2019 年 10 月,DeepMind 联合牛津大学共同打造了 AI 工具 Pythia,它可以通过训练神经网络来修复古希腊铭文中缺失的字符或单词。

今日,在最新一期 Nature 封面文章中,DeepMind 联合威尼斯大学人类学系、牛津大学经典学院的研究者,探索利用机器学习来帮助历史学家更好地解释这些铭文,从而让人们更深入地了解古代历史,并释放 AI 和历史学家之间合作的潜力。

他们提出了首个可以恢复受损铭文缺失文本、识别原始位置并帮助确定创建日期的深度神经网络 —— Ithaca,它是以荷马史诗《奥德赛》中的希腊伊萨卡岛命名,在之前的 Pythia 工具上构建并进行了扩展。

图片



  • 论文地址:https://www.nature.com/articles/s41586-022-04448-z

  • GitHub 地址:https://github.com/deepmind/ithaca


研究结果表明,当单独使用时,Ithaca 在恢复受损铭文文本方面的准确率达到了 62%。相比之下,参与的历史学家的准确率为 25%,不过他们使用 Ithaca 可以将这一数字提升到 72%。

同时,Ithaca 在识别铭文原始位置方面的准确率达到了 71%,鉴定它们的年代只与真实日期范围相差不到 30 年。历史学家已经使用 Ithaca 重新评估了希腊历史上的重要时期。

此外,为了让广大研究人员、教育工作者、博物馆职员及其他人使用他们的研究成果,DeepMind 与谷歌云、谷歌艺术与文化合作推出了 Ithaca 的免费交互版本。并且,DeepMind 还开源了代码、预训练模型和交互 Colab 笔记本。

图片


Ithaca 交互版本:https://ithaca.deepmind.com/

下图 1 中修复的铭文(IG I3 4B)记录了一项关于雅典卫城(Acropolis of Athens)的法令,日期为公元前 485/4 年。

图片


下图 2 为 Ithaca 的架构。文本受损部分用符号「-」表示,并人为损坏了字符图片。提供输入后,Ithaca 恢复了文本,并识别出文本编写的时间和地点。

图片


研究者相信,这只是 Ithaca 这类工具应用的开始。他们目前正在研究针对其他古语言训练的 Ithaca 版本,历史学家也已经可以在当前架构中使用他们的数据集来研究其他古书写系统,比如阿卡德语、古埃及世俗体、希伯来语和玛雅语言。

Ithaca

该研究使用机器学习进行铭文识别,他们提出了 Ithaca,这是一种经过训练的深度神经网络架构,可以同时执行文本恢复、地理归因和时间归因任务。

Ithaca 是在最大的希腊铭文数字数据集上训练完成,该数据集由帕卡德人文学院 (PHI)提供,这是一个非营利基金会,成立于 1987 年,该机构旨在为基础研究创建工具人文学。通常来讲,自然语言处理模型使用单词进行训练,它们在句子中出现的顺序以及单词之间的关系可以提供额外的上下文和含义。然而 Ithaca 的铭文损坏严重,丢失了大部分文本块。为了确保模型有效,该研究使用单词和单个字符作为输入。模型核心为稀疏自注意力机制,用来并行计算这两个输入(单词和单个字符)。

图片

图 3:Ithaca 的输出

为了最大限度地发挥 Ithaca 作为研究工具的价值,该研究还创建了许多视觉辅助工具,以确保 Ithaca 的研究结果易于被历史学家解读:

  • 恢复假设:Ithaca 为文本修复任务生成几个预测假设,供历史学家利用自身专业知识进行选择;

  • 地理归属:Ithaca 通过为历史学家提供所有可能预测的概率分布来显示其不确定性,而不仅仅是单个输出。因此,Ithaca 返回代表其确定性水平的 84 个不同古代区域的概率。可以在地图上将这些结果可视化,以阐明古代世界可能存在的潜在地理联系;

  • 时间归属:当需要确定一篇文献的年代时,Ithaca 会产生从公元前 800 年到公元 800 年预测日期分布,这可以使历史学家了解模型对特定日期范围的可信度,提供有价值的历史见解;

  • 显着图:为了将结果传达给历史学家,Ithaca 使用计算机视觉中常用的一种技术来识别哪些输入序列对预测的贡献最大,输出以不同颜色强度突出 Ithaca 预测缺失文本、地点和日期的单词。


图片


数据集与模型

为了训练 Ithaca,该研究开发了一个 pipeline 来检索未处理的 PHI 数据集,该数据集由 178,551 个铭文转录文本组成。每个 PHI 铭文都被分配了一个唯一的数字 ID,并标有与写作地点和时间相关的元数据。PHI 共列出了 84 个古代区域,而年代信息以多种格式记录,从历史时代到精确的年份间隔,用多种语言编写。PHI 数据集在经过处理和过滤后,该研究得到新数据集 I.PHI,据了解这是最大的机器可操作铭文多任务数据集,包含 78,608 个铭文。

由于部分铭文文字丢失,该研究将字符和单词作为输入,用特殊符号 [unk] 表示损坏、丢失或未知的单词。接下来,为了实现大规模处理,Ithaca 的主干是基于 transformer 的神经网络架构,它使用注意力机制来衡量输入的不同部分(如字符、单词)对模型决策的影响过程。通过将输入字符和单词表示与它们的顺序位置信息连接起来,注意力机制得到输入文本的每个部分的位置。

Ithaca 的主干由堆叠的 transformer 块组成:每个块输出一系列处理后的表示,其长度等于输入字符的数量,每个块的输出成为下一个块的输入。主干的最终输出被传递给三个不同的任务头,分别处理恢复、地理归属和时间归属。每个头都由一个浅层前馈神经网络组成,专门针对每个任务进行训练。在图 2 所示的例子中,恢复头预测了三个丢失的字符;地理归属头将铭文分为 84 个区域,并且按时间顺序的归属头将其追溯到公元前 800 年至公元 800 年之间。

图片

该短语的前三个字符被隐藏,Ithaca 提出了修复建议,同时,Ithaca 还预测了铭文的地区和日期。

评估

如下表 所示,对于恢复任务,Ithaca 始终优于竞争方法,获得 26.3% 的 CER 和 61.8% 的 top 1 准确率。具体来说,与人类专家相比,Ithaca 实现了 2.2 倍(即更好)的 CER,而与 Pythia 相比,Ithaca 的 top 20 预测实现了 1.5 倍的性能提升,准确率为 78.3%。

值得注意的是,将历史学家与 Ithaca 组合时,借助 Ithaca 辅助的人类专家的 CER 为 18.3%,top 1 准确率为 71.7%,与原始人类专家 CER 和 top 1 相比,提高了 3.2 倍和 2.8 倍。

关于区域归属,Ithaca 的 top 1 预测准确率为 70.8%,top 3 的预测准确率为 82.1%。最后,对于时间归属,从真实日期间隔到人类基线预测的平均时间是 144.4 年,中位数是 94.5 年,但 Ithaca 中位距离仅为 30 年。

图片

原文链接:https://deepmind.com/blog/article/Predicting-the-past-with-Ithaca
理论DeepMind
1
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~