张玮玮作者东北大学硕士单位情绪识别研究方向

进化材料基因:机器学习如何推动下一代新材料的发现

本文主要来源于 Annual reviews 最新发表材料领域的 2020 年度综述 [1]。机器学习利用化学和材料数据正在改变材料发现和设计领域,但要充分利用机器学习算法、工具和方法仍需要大量工作。在这里,本文回顾了该领域迄今为止的成就,主要关注三个方面:

1)学会观察(机器学习如何表示用于人工智能模型生产的材料数据);2)学会评估(一旦材料数据被正确地表示出来,它们如何可以被用来构建强大的模型);3)学会搜索(一旦具备能够在数据的基础上估计材料的属性的能力,我们就可以利用这种能力建立强大的和创造性的搜索策略)。

一、学会观察

机器学习应用到分子领域上,首先需要特定方法来表示分子并且适合于算法的输入或生成。分子表示形式通常是张量的数字或字符串的字符,并且已经有研究证明选择合适的分子表示往往比学习算法的选择有更大的影响。

分子表示通常为手工制作的一维描述符集合,每个描述符都是单一的汇总统计(例如,原子数、键数、分子量、实验或计算性质),或者更系统的分子结构表示法。

为了有效地捕获材料信息,一个关键的要求是遵守已知的控制分子种类的物理原理。正确表征分子和材料必须遵循以下原则:

1. 分子表示必须与输入中提供的原子的顺序保持不变。2. 分子表示必须与输入中提供的键的顺序保持不变。3. 分子表示必须不受输入中标记原子对的顺序的影响。一般来说,任何使用这些原则的表示法的学习算法都将具有区分物理上无意义的差异的变分灵活性。

1.1 传统分子指纹表示

二维表示法编码一个分子图,该分子图由原子的恒等式以及连接这些原子的键合所确定。由于没有坐标编码,二维表示法对平移和旋转是隐式不变的,因此剩下的对称考虑就是原子和键的顺序。

常用的表示方法有:simplified molecular input line entry system(SMILES), International Chemical Identifier(InChI),the Molecular Access System(MAACS),extended connectivity fingerprints(ECFP)。

SMILES 与 InChI 都是用少量字符表示结构信息的重要方法。SMILES 是通过遍历和记录重原子在分子图的修改版本中出现的,其中环被破坏了,原子的断裂键被标注。相比之下,InChI 只是分子式、连通性、结合氢、电荷、立体化学和同位素的分层说明,并不是不变的原子索引的排列。

SMILES 由于其基于字符的本质,它可以使用适合于自然语言处理的建模技术,相应地,它经在深度学习中找到了大规模的用法,特别是用于新分子物种的生成。

另一种表示方法是使用二进制向量,也称为化学指纹。许多这样的编码已经被开发成一种根据特定子组的存在或不存在来搜索分子数据库的方法。MAACS 密钥是一个 166 维的二进制向量,其中每个元素或密钥对应于某些分子特征,比如某个特定官能团的存在。

ECFP 属于 circular fingerprints,该族构成了最广泛使用的基于张力的拓扑表示之一。在构建 ECFP 表示时,在特定截止半径内通过每个原子的路径数将针对每个原子进行编码,并通过哈希表对结果进行压缩,以符合预定义的长度。与由 MAACS 键指定的预定分子特征相比,ECFP可以系统地表征每个原子。

由于 ECFP 中存在哈希和 MAACS 密钥捕获的固定数量的分子特征,两者都不能构成一个完整的表示,从而不能对其编码的分子图进行完全重构。这与 SMILES 和 InChI 形成了对比,因此它们更适合于回归和分类问题

虽然分子图的编码对于旋转和平移是隐式不变的(因为不存在自由度),但如果试图获取完整的原子坐标时,情况就不一样了。因此,考虑如何实现对称不变性以寻找更表达的三维分子表示是一个关键问题。

Parrinello 通过一些径向和角对称函数编码分子内的原子。另一个早期的三维分子表示法是由 von Lilienfeld 研究小组发展起来的,受到了分子哈密顿量的启发,称为库仑矩阵,这是一个矩阵表示,其中非对角元素对应于原子对之间的库仑核排斥项,而对角元素编码原子电荷。

这种设计的一个缺点是缺乏置换不变性。为了克服这一缺点,并提高机器学习方法用于从头计算数据的准确性,von Lilienfeld 小组进行了进一步的工作,从而产生了一系列表示:

1)键,角度,机器学习表示;2)FFLA晶体表示;3)London and Axilrod-Teller-Muto光谱;4)分子炼金术的径向角分布以及距离、角度和二面角的直方图。

1.2 基于神经网络的分子指纹表示

另一个常用的分子表示方法是使用深度神经网络学习。从某种意义上说,这把发现的任务交给了算法本身,尽管代价是把研究人员推向寻找有效网络架构的问题。

Duvenaud 等人 [2] 引入了编码分子图的神经指纹。Duvenaud 等人受到 ECFP 工作原理的启发,采用了之前用于从原始图像中逐步提取高阶结构来学习图像表示的卷积神经网络架构,最后通过从原始图结构中逐步提取高阶结构来学习分子表示。Kearnes 等人 [3] 对这一最初的工作进行了补充,他们增加了更复杂的处理置换不变性的方法,并在消息传递框架内进一步推广[4]。

Behler & Parrinello 在其神经网络电位 ANI 中扩展了 Parrinello 对称函数,以构建单原子原子环境向量作为分子表示,从而更丰富地嵌入局部原子信息 [5]。另一种方法被称为张量场网络,它对点云表示 [6] 进行操作,并进行封闭模拟深度张量网络是在原子间距离矩阵与原子恒等式向量相结合的基础上运行的。神经指纹是通过尝试解决一个特定的推理任务而产生的。这样,最终的指纹表达了适合于解决推理问题的分子信息。

多任务学习,即一次性学习多种化学性质,允许生成更一般的可迁移指纹。强迫一个指纹表达适合于多个化学任务的信息通常可以提高单个子任务的性能 [7]。任何一种神经指纹结构都可以与多任务学习相结合,因此可以研究如何选择互补任务来控制指纹内表达的信息 [8]。

二、学会评估

材料设计和发现的关键是确定结构/组成(structure/composition)、性能(properties)、合成/加工(synthesis/processing)和性能( performance)这四种材料元素之间的相互关系,而这四种材料元素通常用 Flemings’s  tetrahedron 来描述,这四种元素在材料界以 QSPRs 或 PSP 命名,并且一直是材料设计的核心。

QSPRs 的高维、复杂性质创造了一个巨大的搜索空间,机器学习的使用使其有效地增强导航和线性/非线性映射方法,以更低的计算成本找到或设计新材料。机器学习在 QSPR 模型的开发上有广泛的应用,当基于物理的模型不存在或者当我们需要在材料建模中连接不同的时间尺度或长度尺度时,它特别有用。

在实验室中观察到的材料性能与在模拟世界中观察到的材料性能之间的差异只能通过理论、计算和实验之间的密切相互作用来解决。材料发现不仅是新材料的发现,而且是对现有材料的改进。因此,机器学习能够提供通过 QSPR 估计任务提高材料发现和开发速度的能力。下面会简要讨论一些学习晶体结构、微观结构和材料特性的任务。

材料性质预测从确定其化学成分和晶体结构开始。在 20 世纪 80 年代早期,有大量关于使用材料描述符的讨论。例如,Zunger‘s 早期利用赝势轨道半径绘制结构分离图(即分离不同结构类型的稳定性图)有助于预测已知 ab 型二元化合物的稳定晶体结构。

这种用于结构识别的分类方法已经扩展到基于数据挖掘的 QSPR 映射 [9],最近,类似的概念也被应用到深度神经网络方法中。因此,两个经典描述符相关晶体稳定和综合性,Pauling 电负性和 Shannon 离子半径被用作构造深层神经网络预测密度泛函理论(DFT)形成的能量[10]。

材料的微观结构等观察对象不仅与材料的性能有关,而且与材料的合成后加工过程有关,微观结构-性能空间的映射是一项复杂的任务。因此,确定所需材料性能的定制或最佳微观结构仍然是逆向设计的主要挑战。

最近,McCue 等人 [11] 对已发表的纳米孔金电子显微图像使用数据挖掘辅助自动图像分析来探索 PSP 之间的关系。为了识别关键的微观结构表征,Wodo 和他的同事 [12] 开发了一种通过将微观结构处理为图形的紧凑微观结构性能映射的替代方法。

根据 Agrawal 及其同事最近的研究 [13],深度神经网络(如生成对抗网络(GANs)可以学习潜变量和微观结构之间的映射,从而通过优化潜变量获得具有目标材料性能的最佳微观结构。

化学技术的最新进展,包括用于绘制化学图像的x射线光电子能谱,用于识别晶界类型的电子背散射衍射,以及用于研究复合中心分布的阴极发光,产生了大量与材料微观结构相关的复杂数据。此外,当微观结构响应与外部环境(如应力)相联系时,图像数据的复杂性变得更为重要。为了处理复杂的形态和晶体数据(如晶粒体积、晶粒形状和晶粒的形态和空间排列方向分布),材料界很多研究通过机器学习计算来识别或开发 QSPRs。

其中值得注意的是,一种基于深度神经网络的方法在高分辨率电子显微镜方面应用广泛。借助神经网络,例如,从扫描透射电子显微镜数据可以识别晶格中原子的位置和类型的原子物种实时检测和分类的缺陷 [14]。训练卷积神经网络(CNNs)在高分辨率透射电子显微镜下对原子结构进行分类。

Kalinin 和他的同事 [15] 利用深度神经网络进行实时相位分析(即相位形成和演化映射)的有效性,从而自动识别来自电子和扫描探测显微镜的原子分辨图像中的对称类。

除了作为检测结构特征的工具,这种深度学习算法还可以应用于旨在增强测量的鲁棒性的自动高分辨率电子显微镜校准。例如,Xu &LeBeau [16] 展示了如何从 CNN 自动分析的位置平均收敛束电子衍射图中提取电子显微镜参数

自动化以及自主的材料发现和设计过程对于加速结果和最小化人为错误是至关重要的,最近在这一领域有许多活动。好的例子包括自动分子和合金设计,自动理论计算,如从头算计算,以及具有主动学习的全自动机器学习潜力。

机器人现在被用于自主组装范德瓦尔斯超晶格等材料。原子尺度的自主制造(即原子制造过程)是通过像 CNN 这样的深度学习来实现的。在这里,深度学习被用来识别表面特征来精确地绘制原子结构。

Aspuru-Guzik 及其同事指出,在材料发现过程中实现智能自动化的当务之急是将自主合成规划、自动化学合成和自主实验作为一个闭环工作流进行集成。

2.1 数据的重要性

机器学习的能力本质上与数据集的质量有关。不幸的是,材料和化学领域经常使用数量有限的数据库或小型数据集。与由理论计算或模拟创建的材料数据库相比,包含合成程序历史或加工条件的实验数据库仍然太少。克服有限数据问题的一种方法是通过使用大量数据训练的模型来进行有限数据的新任务的迁移学习

例如,迁移学习在微观结构重建领域变得越来越流行。这主要是因为该研究的目标是在原始结构非常有限的信息下构建统计上等价的微结构。

迁移学习的一个局限是,它需要一个非常训练有素的模型来应用于特定的目标任务。其他克服有限数据问题的方法包括元学习神经网络图灵机、贝叶斯框架、快速代理机器学习模型和受维度分析和尺度律约束的机器学习模型。

此外,来自不同来源的异构数据集或分散数据在材料和化学领域很常见。虽然数据库或分散的数据集的集成有利于更好地理解 QSPRs,但可能会错过重要的特性。最近的一篇论文提出了一种方法,即先对来自不同来源的数据进行单独建模,然后再采用堆叠的方法集成机器学习的多模型层和预测层在一起 [17]。

类似地,不同的学习算法的组合(例如,机器学习与进化算法的组合)是可行的。使用集成神经网络迁移学习对于解决异构数据和质量问题是有用的。处理异构数据库或稀缺数据的另一种方法是同时进行多任务学习,如确定独立筛选和稀疏运算符,它可以同时识别代表多个目标属性的关键描述符 [18]。

2.2 机器学习算法在材料设计中的应用

材料设计研究者在关键任务中广泛使用机器学习,如关联、预测和优化设计参数,以精确控制过程,实现目标性能。在材料建模、模拟、合成和表征中增加参数数量的同时,也给材料设计者提供了额外的设计选择(例如,设计者可以选择或组合参数来针对特定的特性),但同时也带来了维数问题。

为了有效地解决这个问题,材料设计师经常使用高维可视化技术。这些技术不仅提供了低维的视觉表示,而且阐明了变量之间的关系。Suh 等人 [19] 演示了各种可视化技术对高通量实验生成的 n 维数据的作用。他们向高吞吐量实验社区介绍了几种技术,包括并行坐标、径向可视化映射、热图和字形图。

最近,Rickman [20] 使用平行坐标创建了材料属性图表,显示了不同材料类之间的属性相关性。利用降维算法在低维空间中对高维数据集的结构进行识别和可视化。传统的基于最小二乘损失的谱分解算法的一个例子是主成分分析

主成分分析是一种线性降维方法,它通过寻找数据中方差最大的方向,尽可能多地保留原来的高维数据结构。这种方法是处理各种类型材料数据的主要降维技术,如粉末 x 射线衍射模式[21]。尽管大多数 QSPRs 是非线性表达的,但试图非线性地捕获高维数据结构,如关注特征之间局部距离的流形学习,在材料问题上是相当罕见的。

QSPRs 的流形学习的一个很好的例子是利用扩散图方法结合层次聚类来学习在铜铟镓二烯化太阳能电池中制备铝掺杂 ZnO 层的最优薄膜工艺条件 [22]。最近,类似类型的流形学习,如 t 分布随机邻居嵌入(t-SNE)算法,在以非线性方式获得低维表示方面变得越来越普遍。

t-SNE 算法在识别高维数据的全局结构的同时,注重保持高维数据的局部距离。例如,Zakutayev 等人 [23] 演示了 t-SNE 算法对高通量实验材料数据库中最常见成分的可视化能力。

材料设计中的深度学习的目标是自动识别 QSPRs 中输入和输出之间的复杂关系,使其在计算上比传统学习算法更高效。例如,CrystalGAN 是一种基于 GAN 的结构,通过使用现有的二进制信息自动生成化学稳定的晶体结构,如新的三元晶体结构 [24]。

Agrawal 和他的同事提出了一个叫做 ElemNet 的深层神经网络模型。该模型以化合物的元素组成作为输入,捕捉元素之间的物理和化学相互作用,并预测材料的性质,如化合物的生成焓[25]。类似地,深度学习架构 SchNet 允许人们执行各种量子化学任务,如分子或材料的性质预测、势能表面和力场 [26]。

三、学会搜

通过使用数据驱动技术来精确处理建模过程和属性的能力是强大的和可扩展的,当我们建立一个模型,却从不更新它时,这个模型就会被某个特定时间点的知识和相关偏见所冻结,从那一刻起,它就开始变得陈旧。

材料发现越来越被视为一个主动学习问题,随着新信息的流入,模型不断更新。这本身就提出了一个有趣的挑战:如何确保以这种方式构建的模型本身不会因用于确定收集哪些数据的方法而产生偏差?在机器学习的世界里,这被称为探索-利用交换。

收集数据的纯粹探索性方法(有时称为多样性驱动方法)将通过考虑尽可能广泛的数据点来构建最普遍适用的模型。虽然这个过程不太容易产生偏差,但结果模型在任何特定情况下通常都不太具有预测性。

纯粹利用模型构建的方法将产生一个对于特定用例非常好的模型,但不能很好地适应其他数据,而不仅仅是用于训练它的数据。显然,关键是平衡这两个极端,建立一个有效的材料搜索管道。在这里,介绍看一下两类进化学习方法,深度强化学习和贝叶斯优化。

3.1 贝叶斯优化

贝叶斯优化的关键在于,优化算法既考虑了模型的预测,也考虑了预测中的不确定性。这种探索和开发的结合是通过采集功能进行编码的,采集功能通常依赖于改进,通常表述为:

给定已经观察到的一组数据,通过最大化采集函数找到下一个要采集的数据点。最常用的习得功能是预期改善(EI):

在得到该数据点后,贝叶斯模型被重新修改以包含新的数据,然后重复这个循环,直到用户耗尽预算或者获取函数变为零(表明取样数据没有优势)(图2)。

贝叶斯优化搜索的问题,尤其在概念上适合化学,因为它有效地模拟假设的科学发现过程,测试,观察,评估。或许正因为如此,贝叶斯优化已经被广泛应用于各个领域,其黑盒子特性和与科学方法在概念上的相似性促进了其在科学界的应用。

3.2 强化学习

强化学习人工智能的一个子领域,它的目标是学习如何做出决策,在一段时间内使回报最大化。在强化学习范式中,智能体学习如何通过与环境的交互来最大化这种奖励。与贝叶斯优化相比,强化学习更适合被视为控制过程的学习,而不是严格地对其进行优化。

强化学习的目标是为任何给定状态选择最适合的行为,因此有必要对这些行为进行排序,并分配相应的价值。为了实现这一点,状态-动作对被映射到 Q 函数预期产生的值。Q 函数的输入是智能体的状态 (s) 和行为 (A),并将它们映射到可能的奖励。这可以通过 Bellman 方程来计算:

强化学习是这样一个过程:智能体通过一系列的状态-动作对,观察结果的奖励,调整 Q 函数的预测以适应这些奖励,直到它准确地预测出智能体所采取的最佳路径。

3.3 生成模型

生成模型不是预测已知输入(材料)的行为,而是生成被预测具有强大属性的新材料。最流行的生成方法是变分自编码器(VAEs)和 GANs ,其中前者在分子和材料科学领域有更多的应用。

VAEs 是一种神经网络,经过训练后可以重现输入,但它分为两部分:第一部分是一个编码器,它接受基表示并学习有效的神经指纹,以及第二部分是解码器,它可以学习如何从神经指纹中重建分子。神经指纹所跨越的空间称为潜在空间。经过训练后,利用解码器对潜在空间进行随机采样(或搜索),可以生成新的分子。

GANs 在网络的基础上运行,这些网络又分为两个组件。GANs 没有经过训练来重现分子的编码器和解码器,而是通过一个生成器和鉴别器来操作。后者接收来自生成器的输出以及实际分子训练来区分这两种,前者得到一个初始矢量,扮演的角色是潜在的空间和训练有素的产生输出混淆鉴别器。

一旦经过训练,生成器就可以代替 VAE 解码器来生成新的分子种类,不过与 VAE 不同的是,将分子映射到其表示的逆变换是不可能的。虽然纯 GANs 在材料生成方面应用不多,但已有一些例子,而且 VAEs 和 GANs 的组合也有一些应用。

四、展望

随着机器学习辅助材料研究和开发领域的迅速发展,材料和化学界认识到,更多的综合努力将在推进材料发现和设计过程中发挥重要作用。由于缺乏使用复杂模式在数据集或数据库之间交换数据的健壮方法或标准协议,使得数据集成和共享变得困难。

使用更标准化的方法,如分类查询语言、基于 xml 的数据模式(如纳米聚合物纳米复合模式)或机器可读格式和开放协作框架,将有助于减少数据共享问题并促进识别 QSARs。

参考文献

[1] Suh C, Fare C, Warren J A, et al. Evolving the Materials Genome: How Machine Learning Is Fueling the Next Generation of Materials Discovery[J]. Annual Review of Materials Research, 2020, 50.

[2]Duvenaud D K, Maclaurin D, Iparraguirre J, et al. Convolutional networks on graphs for learning molecular fingerprints[C]//Advances in neural information processing systems. 2015: 2224-2232.

[3]Kearnes S, McCloskey K, Berndl M, et al. Molecular graph convolutions: moving beyond fingerprints[J]. Journal of computer-aided molecular design, 2016, 30(8): 595-608.

[4]Gilmer J, Schoenholz S S, Riley P F, et al. Neural message passing for quantum chemistry[J]. arXiv preprint arXiv:1704.01212, 2017.

[5]Behler J, Parrinello M. Generalized neural-network representation of high-dimensional potential-energy surfaces[J]. Physical review letters, 2007, 98(14): 146401.

[6]Schütt K T, Arbabzadah F, Chmiela S, et al. Quantum-chemical insights from deep tensor neural networks[J]. Nature communications, 2017, 8(1): 1-8.

[7]Ramsundar B, Kearnes S, Riley P, et al. Massively multitask networks for drug discovery[J]. arXiv preprint arXiv:1502.02072, 2015.

[8]Fare C J A, Turcani L, Pyzer-Knapp E O. Powerful, transferable representations for molecules through intelligent task selection in deep multitask networks[J]. Physical Chemistry Chemical Physics, 2020.

[9]Suh C, Rajan K. Invited review: data mining and informatics for crystal chemistry: establishing measurement techniques for mapping structure–property relationships[J]. Materials Science and Technology, 2009, 25(4): 466-471.

[10]Ye W, Chen C, Wang Z, et al. Deep neural networks for accurate predictions of crystal stability[J]. Nature communications, 2018, 9(1): 1-6.

[11]McCue I, Stuckner J, Murayama M, et al. Gaining new insights into nanoporous gold by mining and analysis of published images[J]. Scientific reports, 2018, 8(1): 1-11.

[12]Du P, Zebrowski A, Zola J, et al. Microstructure design using graphs[J]. npj Computational Materials, 2018, 4(1): 1-7.

[13]Yang Z, Li X, Catherine Brinson L, et al. Microstructural materials design via deep adversarial learning methodology[J]. Journal of Mechanical Design, 2018, 140(11).

[14]Ziatdinov M, Dyck O, Maksov A, et al. Deep learning of atomically resolved scanning transmission electron microscopy images: chemical identification and tracking local transformations[J]. ACS nano, 2017, 11(12): 12742-12752.

[15]Madsen J, Liu P, Kling J, et al. A deep learning approach to identify local structures in atomic‐resolution transmission electron microscopy images[J]. Advanced Theory and Simulations, 2018, 1(8): 1800037.

[16]Xu W, LeBeau J M. A deep convolutional neural network to analyze position averaged convergent beam electron diffraction patterns[J]. Ultramicroscopy, 2018, 188: 59-69.

[17]Kauwe S K, Welker T, Sparks T D. Extracting knowledge from DFT: experimental band gap predictions through ensemble learning[J]. Integrating Materials and Manufacturing Innovation, 2020: 1-8.

[18]Ouyang R, Ahmetcik E, Carbogno C, et al. Simultaneous learning of several materials properties from incomplete databases with multi-task SISSO[J]. Journal of Physics: Materials, 2019, 2(2): 024002.

[19]Suh C, Sieg S C, Heying M J, et al. Visualization of high-dimensional combinatorial catalysis data[J]. Journal of combinatorial chemistry, 2009, 11(3): 385-392.

[20]Rickman J M. Data analytics and parallel-coordinate materials property charts[J]. npj Computational Materials, 2018, 4(1): 1-8.

[21]Mueller T, Kusne A G, Ramprasad R. Machine learning in materials science: Recent progress and emerging applications[J]. Reviews in Computational Chemistry, 2016, 29: 186-273.

[22]Suh C, Biagioni D, Glynn S, et al. Exploring high-dimensional data space: identifying optimal process conditions in photovoltaics[C]//2011 37th IEEE Photovoltaic Specialists Conference. IEEE, 2011: 000762-000767.

[23]Tabor D P, Roch L M, Saikin S K, et al. Accelerating the discovery of materials for clean energy in the era of smart automation[J]. Nature Reviews Materials, 2018, 3(5): 5-20.

[24]Nouira A, Sokolovska N, Crivello J C. Crystalgan: learning to discover crystallographic structures with generative adversarial networks[J]. arXiv preprint arXiv:1810.11203, 2018.

[25]Jha D, Ward L, Paul A, et al. Elemnet: Deep learning the chemistry of materials from only elemental composition[J]. Scientific reports, 2018, 8(1): 1-13.

[26]Schütt K T, Sauceda H E, Kindermans P J, et al. SchNet–A deep learning architecture for molecules and materials[J]. The Journal of Chemical Physics, 2018, 148(24): 241722.

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论机器学习
相关数据
哈密顿人物

William Rowan Hamilton爵士MRIA(1805年8月4日 - 1865年9月2日)是一位爱尔兰数学家,他为经典力学、光学和代数做出了重要贡献。 虽然哈密顿不是物理学家(他认为自己是一个纯粹的数学家)他的工作对物理学起着至关重要的作用,特别是他对牛顿力学的重新定义,现在称为哈密顿力学。 这项工作已被证明是对电磁学等经典场论的现代研究以及量子力学发展的核心。 在纯数学中,他最出名的是四元数的发明者。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

贝叶斯模型技术

贝叶斯模型基于贝叶斯定理,即:P(A|B)=P(B|A)*P(A)/P(B)。经典的贝叶斯模型包括朴素贝叶斯、贝叶斯网络和动态贝叶斯网络(DBN);它们主要用于基于给定条件查找事件的概率。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

图灵机技术

图灵机,又称确定型图灵机,是英国数学家艾伦·图灵于1936年提出的一种抽象计算模型,其更抽象的意义为一种数学逻辑机,可以看作等价于任何有限逻辑数学过程的终极强大逻辑机器。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

查询语言技术

查询语言泛指向数据库或信息系统查询的各种编程语言。 查询语言必须要能表达所有关系代数所能表达的查询,这样才被称为关系完整的。

张量网络技术

简单来说,张量网络是通过收缩连接的可数的张量集合。“张量网络方法”是指整个相关领域的工具,在现代量子信息科学、凝聚态物理学、数学和计算机科学中经常使用。

流形学习技术

流形学习(manifold learning)是机器学习、模式识别中的一种方法,在维数约简方面具有广泛的应用。它的主要思想是将高维的数据映射到低维,使该低维的数据能够反映原高维数据的某些本质结构特征。流形学习的前提是有一种假设,即某些高维数据,实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中,揭示其本质。

层次聚类技术

层次聚类通过对数据集在不同层次进行划分,从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合(agglomerative)策略,也可采用“自顶向下”的分拆(divisive)策略。“自底而上”的算法开始时把每一个原始数据看作一个单一的聚类簇,然后不断聚合小的聚类簇成为大的聚类。“自顶向下”的算法开始把所有数据看作一个聚类,通过不断分割大的聚类直到每一个单一的数据都被划分。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

主成分分析技术

在多元统计分析中,主成分分析(Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

主动学习技术

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

多任务学习技术

张量场技术

在数学,物理和工程上,张量场(tensor field)是一个的非常一般化的几何变量的概念。它被用在微分几何和流形的理论中,在代数几何中,在广义相对论中,在材料的应力和应变的分析中,和在物理科学和工程的无数应用中。它是向量场的想法的一般化,而向量场可以视为“从点到点变化的向量”。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

数据集成技术

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

会搜机构
暂无评论
暂无评论~