Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

从古代矿物到新材料:使用图神经网络模型进行熔融温度预测

编辑 | 萝卜皮

在常压下,如果你施加足够的热量,大多数东西都会融化,就像炎热夏日的冰淇淋一样。

了解准确的熔化温度对于构建任何高性能材料都至关重要。飞机上的桥梁、燃气轮机、喷气发动机和隔热罩的建造和安全取决于对材料性能极限的了解。材料通常采用熔融或液态合成或加工,因此了解熔融对于制造新材料至关重要。

然而,高温材料的熔化温度,通常难以快速测量或计算;在 200,000 种已知无机化合物中,只有不到 10% 的熔点是已知的。

在这里,亚利桑那州立大学(Arizona State University)的研究人员采用机器学习方法通过建立从化学式到熔化温度的快速准确映射来填补这一空白。

他们建立了一个机器学习模型,在包含 10,000 种化合物的数据库上进行训练,可以在几分之一秒内预测熔解温度。该模型在线公开,具有神经网络和残差神经网络架构。

该模型将促进涉及广泛领域熔化温度的大规模数据分析,包括耐火材料的发现、新型提取冶金工艺的设计、地质时期矿物形成和演化的建模以及系外行星结构的预测。

该研究以「Melting temperature prediction using a graph neural network model: From ancient minerals to new materials」为题,于 2022 年 8 月 31 日发布在《PNAS》。

熔点在各种学科中发挥着重要作用。高性能耐火材料的应用范围,从燃气轮机到高超音速飞行器的隔热罩。在这种情况下,高熔点与理想的机械性能(例如,高温材料强度以及良好的抗烧蚀和抗蠕变性)相关。在地质学和行星科学中,除了揭示系外行星的结构外,对矿物熔点的了解还有助于深入了解它们的形成和演化。

在这些示例中,研究对象的熔点往往很高,这使它们的实验测量变得相当复杂(由于密封和校准问题)。对于矿物,这些问题是复杂的,但事实上许多新物种是从小颗粒中鉴定出来的,因此数量有限。复杂的相平衡和不一致的熔化导致进一步的并发症。因此,在 200,000 多种具有已知晶体结构的无机物质中,只有不到 10% 的熔融温度是已知的。

鉴于这些限制,自然会转向计算方法。不幸的是,熔化温度的计算和预测也是一个昂贵且复杂的过程,因为它涉及对大量配置进行采样。

已经设计了许多有效的方法来从计算中捕获熔化温度。使用经验势相对便宜,但它取决于此类势的可用性和可靠性。为每种新材料构建新的经典原子间势既复杂又耗时,更不用说准确性方面的可靠性问题了。

将固体加热至熔化的单相小尺寸「Z 法」旨在解决这个问题,但存在有据可查的实际和概念问题。或者,可以通过自由能方法计算熔化温度,该方法定位固体和液体的自由能曲线的交点;这种方法需要高精度的液相自由能计算,因为两条曲线以非常浅的角度交叉,因此小的自由能偏移将导致熔融温度的大误差。不幸的是,所有的液态自由能计算方法,例如热力学积分法、粒子插入法和两相热力学法,都是昂贵且具有挑战性的。

在早期的工作中,亚利桑那州立大学的研究人员提出了准确且相对更有效的小尺寸共存方法,并开发了具有悬停界面的超小尺寸共存固体和液体(SLUSCHI)包以自动化计算过程。他们已经利用这种方法计算了数百种材料的熔化温度,代价是每种化合物需要几天的计算时间。尽管取得了这些进展,但这些努力仍然未能提供对熔点景观的全面了解。

图示:用于 ML 熔化温度预测的 GNN 模型的架构。(来源:论文)

为了克服这些限制,亚利桑那州立大学的 Qijun Hong、Alexandra Navrotsky、Sergey Ushakov 以及布朗大学的 Axel van de Walle 组成的团队,转向使用机器学习(ML)方法,该方法越来越多地用于预测材料特性和缺失的热力学数据。该团队建立了一个 ML 模型来预测熔解温度,最终目标是集成 DFT 和 ML,它们在速度和准确性方面相得益彰。ML 模型使研究人员能够以每种材料大约几毫秒的速度快速估计熔化温度,而 DFT 计算以更高的成本提供了稳健性和准确性,每种材料大约需要几天的计算。

也就是说新方法允许以毫秒为单位计算任何化合物或化学式输入的熔化温度。

图示:A 模型训练期间的 rmse;B 测试数据集中的预测与实际熔化温度。(来源:论文)

研究人员为了给 ML 程序提供训练数据,首先通过网络爬虫建立了一个熔化温度数据库。熔化温度、DFT 熔化温度计算均包含在数据库中。他们目前的熔点数据库包含 9,375 种材料,其中 982 种化合物是熔点高于 2,000 K 的高熔点材料。该数据库由材料的化学成分(即元素和浓度)或等效化学式及其相应的熔化温度组成。

为了说明软件工具的实用性,研究人员使用这种方法探索了两条研究方向:(i)预测 4828 种矿物的熔化温度,(ii)预测熔化温度高于 3,500 K 的新材料成分。

该模型是基于使用 bootstrap 重新洗牌训练和测试数据集的 30 个 GNN 模型的集成模型,进一步减少了过拟合

图示:机器学习来自 RRUFF 数据集的矿物的熔化温度。(来源:论文)

「我们采用机器学习方法通过建立从化学式到熔化温度的快速准确映射来填补这一空白。」Qijun Hong 说。

「我们开发的模型将促进涉及广泛领域熔化温度的大规模数据分析。其中包括新的高温材料的发现、新型采掘冶金工艺的设计、矿物形成的建模、地球随地质时间的演变以及系外行星结构的预测。」

对于矿物项目,Hong 的团队能够预测熔化温度并将其与地球历史上已知的主要地质时期相关联。这些人工智能获得的熔化温度适用于大约 45 亿年前地球形成以来制造的矿物。最古老的矿物直接来自于 45 亿年前地球形成之前的恒星或星际和太阳星云凝聚体。这些是最难熔的,熔化温度约为 2600 F。

「地球历史期间形成的矿物熔化温度的逐渐整体下降被两个异常所打断,使用 2.5 或 5 亿年前的分箱,这些异常在平均和中等熔化温度中明显明显。」Navrotsky 说。

地球早期历史上的第一个异常现象是由于重大流星撞击的可怕和动态时间引起的剧烈的温度飙升,包括可能的月球形成。

Navrotsky 说:「37.5 亿年前的峰值与提议的后期重型轰炸时间有关,这完全是根据月球样本的年代测定来假设的,目前还存在争议。」

图示:三元碳化物的组成元素。(来源:论文)

该团队还注意到大约 17.5 亿年前矿物的熔化温度大幅下降。

「17.5亿年前的下降与已知的大量含水(含水)矿物的首次出现有关,并与休伦冰期有关,这是最长的冰河时代,被认为是地球第一次完全被冰覆盖 。」

通过他们的机器学习程序训练成功地复制地球早期历史中的矿物熔化,接下来,该团队将注意力转向寻找具有极高熔化温度的新材料。数十种新材料已被识别并通过计算预测具有超过 5,000 华氏度(3000 开尔文)的极高熔化温度,超过太阳表面温度的一半。

该团队使他们的模型足够简单和可靠,因此任何用户都可以仅根据其化学式在几秒钟内获得任何化合物的熔化温度。

「要使用该模型,用户需要访问网页并输入感兴趣材料的化学成分。」Hong 说,「该模型将以秒为单位的预测熔化温度以及数据库中最近邻居(即最相似的材料)的实际熔化温度做出响应。因此,该模型不仅可以用作预测模型,还可以用作熔化温度手册。」

模型地址:https://faculty.engineering.asu.edu/hong/melting-temperature-predictor/

论文链接:https://www.pnas.org/doi/abs/10.1073/pnas.2209630119

相关报道:https://phys.org/news/2022-08-ancient-minerals-materials-temperature-graph.html

理论神经网络
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

暂无评论
暂无评论~