Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部机器之心报道

张东晓院士:科学机器学习中的知识嵌入与知识发现

1 月 11 日,在机器之心 AI 科技年会上,讲席教授、美国国家工程院院士、东方理工高等研究院常务副院长张东晓教授发表主题演讲《科学机器学习中的知识嵌入与知识发现》,在演讲中,他简要介绍了数据驱动模型的前沿技术,之后重点介绍了理论指导的数据驱动模型 —— 知识嵌入,以及数据驱动的模型挖掘 —— 知识发现。张院士指出,机器学习算法可以有效解决具有复杂非线性映射关系的问题;通过引入行业知识,可以有效提升机器学习模型的效果。将知识的嵌入和知识的发现结合起来,形成一个闭环,可以大大提高人工智能解决实际问题的能力。


图片

以下为张东晓在机器之心 AI 科技年会上的演讲内容,机器之心进行了不改变原意的编辑、整理:

图片

非常高兴有机会参加机器之心线上 AI 科技年会,并和大家分享我们最近的一些思考。今天我分享的内容包括三部分,第一部分是数据驱动模型;第二部分是理论指导的数据驱动模型,即知识嵌入;第三部分是数据驱动的模型挖掘,即知识发现。

一、数据驱动模型


图片

首先,大家非常清楚模型驱动的方法,经过一个模型得到一个输出。我们学编程的时候,无论是复杂的算法还是简单的算法,都是在构建一个模型,这样有一个输入就会有一个输出。当然,这个算法可以是确定的,也可以是随机的。

图片

另一方面是数据驱动的模式。这种模式我们还不清楚其输入和输出之间的映射关系,但是我们有数据。如果我们利用数据,经过学习,可以建立输入和输出之间的映射关系。当然了,这映射关系可能是个黑箱子,它不一定是一个显示的表达式。但是如果有了映射关系,我们就会有一个新的输入,从而得到一个新的输出。这就是现在这一代机器学习的核心数据驱动方法。

图片

我们要解决问题到底是数据驱动还是模型驱动?这是一个值得思考的问题

首先来看一下数据驱动的一些例子,比如大家熟悉的大数据分析数据科学机器学习等等。在数据和模型的天平中,这里是侧重于数据的,通过数据来寻找映射关系。

图片

下面举几个例子,比如可再生能源的发电量的预测问题。如果我们有辐照量、温度、湿度、风速、昼夜的情况,以及历史的光伏发电量数据,就可以根据这些数据建立一种映射关系。基于此映射关系和天气预报数据,我们就能预测第二天光伏的发电量。风电也是一样。

映射关系可以通过各种方法来建立,比如支持向量机卷积神经网络或者循环神经网络等等。它的核心就是寻找多元输入变量和目标变量之间的复杂映射关系,从而构建它预测的模型。

图片

这是一个集中式光伏电站的发电量预测案例,拥有刚才提到的那些信息。我们可以经过处理以后,建立映射关系并对未来做预测。最终隔天预报的准确率可以达到 97% 。

图片

当然了,风电也是一样。因为风力发电的历史发电量和历史的风速数据之间也有很好的相关性。所以,如果能够建立它们之间的映射关系,就可以对发电量做预测。

图片

数据驱动模型在许多问题中得到了很好的效果,但是对很多应用来讲,数据是不容易获得的。比如对于地下资源勘探与开发重要的侧井曲线,打一口井进行测量可能要好几千万人民币;再比如,做一组吸附解析的实验要花很长的时间。很难获得足够的数据基于数据驱动方法对此类问题建模。

大家都知道,大模型需要大数据、大算力,比较有名的 GPT-3,有 96 层,有 1 万多个隐层维度,有接近 1750 亿个参数。要训练这样一个模型,需要的费用是非常高的,需要的数据量也非常大。

图片

另外数据驱动的模型的指标往往有局限性,比如常使用的 MSE(均方误差),它是对误差的一个平均度量。它对误差的物理过程是没有区分的,比如一个系统无论是熵增还是熵减,对于 MSE 来讲都是一样的,虽然熵增与熵减对于一个物理系统来讲非常不一样。基于数据平均意义上的指标往往会忽略物理过程,比如我们一只脚踏在冰上,一只脚踏在火上,平均温度可能很舒服,但是实际情况并非如此。而 MSE 则只会关注这种数据上的平均结果。因此,在实际使用中,MSE 等数据驱动指标往往是有局限性的。

图片

另外一方面,因为我们建立的很多模型是缺乏常识的,它没有人类世界的各种知识,这样很容易被攻击。比如在对抗样本的问题中,图片本来是一个熊猫,加上一点轻微的噪音以后,可能机器会认为它是一个长臂猿。再比如这种阿拉伯数字,对人类来讲,稍微加点噪音进去,我们仍然会认为是 8 或者 9;但机器可能不认为,因为很多时候它没有常识。

图片

既然数据驱动存在问题,那么可否像早期的人工智能一样基于知识建模呢?然而对很多复杂的问题,很难完全基于知识来构建模型。这也是现在基于数据驱动的人工智能模型被广泛推广的一个原因。

图片

对很多行业来讲,比如能源,对于模型的鲁棒性和可解释性要求很高,同时数据的采集费时且成本高,而且这个系统极其复杂,存在大量高维非线性的映射关系。这些特点导致纯粹的数据驱动或者知识驱动模型无法达到令人满意的效果。针对此问题,我们希望通过灵活利用能源行业多年积累的知识,构建知识与数据双驱动模型,提升模型精度和鲁棒性,降低数据需求。

这里我们提出一个智慧能源概念,它是基于领域的知识,利用观测的数据,使用人工智能的方法,所构建的一个技术体系。

图片

领域知识和数据驱动的融合包含两个方面,一个是知识的嵌入,也就是如何构建具有物理常识的 AI 模型。通过在 AI 模型中嵌入领域知识,可以一方面借助机器学习的强拟合能力来描述变量之间高维复杂的映射关系,提高模型的准确率。同时,利用行业的先验知识保证预测结果符合物理机理,不违反常识。这就是知识嵌入在机器学习中的作用。

另外一方面是利用科学机器学习发现知识,也就是知识发现。知识发现是利用深度学习来探索物理原理,从观测数据或实验数据中直接挖掘控制方程,推进人类认知的前沿。知识嵌入和知识发现可以形成一个闭环,实现知识和数据的融合。

后面第二部分我会重点来讲知识嵌入,也就是如何构建具有物理常识的 AI 模型。第三部分来讲知识发现,如何利用人工智能来发现新的知识,比如物理原理、控制方程,第一性原理等等。有了这样的一个闭环以后,很多问题比如仿真模拟,反问题,可解释性等等,都能够有很好的解决。

二、理论指导的数据驱动模型(知识嵌入)

图片

我们看看第二部分的知识嵌入。在这个过程中,既有数据,也有模型,它是两个方法之间的一个平衡。我们要兼顾二者,实现在数据驱动建模的全流程中嵌入知识。

图片

知识嵌入的目的是通过在数据驱动模型中引入物理知识,构建物理上合理,数学上准确,计算上稳定高效的机器学习模型。所以,我们要考虑的核心问题主要有,复杂形式控制方程的嵌入,控制方程以外通用知识的嵌入,不规则物理场的知识嵌入,以及损失函数中正则项权重的自动调整策略等等。

图片

在建模过程的多个环节都可以进行知识嵌入,比如在数据预处理环节,可以嵌入物理约束和人类的领域知识和先验经验。这与特征工程和数据归一化往往相关。还有在模型结构设计环节,也可以基于领域知识调整模型的网络结构或者拓扑结构。再有也可以在模型的优化调整环节嵌入领域知识,比如在学习过程中通过惩罚和激励来嵌入知识,其中最简单的方法是构建特殊设计的损失函数。我们举几个例子。

图片

第一个例子是电力系统中电力负荷的预测。这项工作中的知识嵌入主要体现在数据的预处理方面和模型的反馈更新方面,其中数据预处理方面我们引入了一种电力负荷比值分解的方法来嵌入知识,在反馈更新环节利用一种自研的 EnLSTM 模型来优化,这种模型采用领域算法改进了优化过程。

图片

在数据预处理方面,我们把电力负荷数据分解成一个大的趋势和局部扰动,大的趋势反映了预测区域的内在模式,比如能源结构和人口结构等,是根据历史数据和专家经验来确定的。局部扰动则是系统受到天气等外驱力影响下所产生的变化,通过数据驱动模型来预测。最终,将大的趋势和小的扰动结合起来。此外,我们还采用了一种负荷比值转化的方式,以实现数据的平稳化。比值的周期是根据物理过程确定的。这个方法我就不具体展开了,大家如果感兴趣可以看我们 2021 年发表的论文 TgDLF。

图片

这个方法在北京的 12 个区进行了试验验证,基于 3 年多的真实小时级别数据,利用部分区的数据训练模型,对另外的区进行预测。比如右侧是对丰台区的电力负荷的预测结果。图中一共有 1362 天的预测结果,其中五个局部被放大展示,黑色线是真实测量值,红色线是预测值,灰色的是可信区间。大家看这个效果还是非常好的,准确率可以稳定达到 90% 以上。需要说明的是,我们在模型的训练中并没有利用丰台的数据,而仅仅使用了周边的区进行训练。

图片

另外在模型的效果评估阶段也可以嵌入知识。比如在风力发电问题中,我们将概率分布所蕴含的信息作为约束,嵌入到数据驱动模型中,从而借助先验的概率密度函数拓展优化损失函数

图片

大家知道在风力发电中,风机的发电功率和风速有很大关系。由于实际工况复杂,所以该曲线并非一个一对一的映射,而是需要用描述风速和发电功率之间关系的概率分布函数来表征。如果我们有历史的数据,就可以从历史数据中得到先验的风功率曲线,然后通过改造损失函数,将其嵌入到模型的训练过程中。通过这种方法建立的人工智能模型不仅具有数据驱动的优势,还能保证输出结果符合先验的概率分布。 

图片

这是预测的结果,实际的结果还是非常好的。

图片

在有噪音的情况下,嵌入了先验的概率密度分布函数的模型的效果比纯数据驱动模型的效果要好很多。这说明通过嵌入领域知识,可以有效提升模型的抗噪能力和鲁棒性。

图片

然后我们介绍一下在模型效果评估方面嵌入领域知识的方法,这方面的例子比较充分,主要是基于改进损失函数的方法将控制方程作为约束嵌入到人工智能的模型中。

图片

在模型的训练过程中,一方面可以利用数据驱动模型基于大量的数据进行学习,另外一方面我们还有控制方程、物理规律、工程理论,专家经验等先验信息。如果我们能够将这些先验信息嵌入数据驱动模型中,我们就不仅可以拟合数据,同时也保证模型输出结果遵循物理的准则和工程的理论,这样的模型就有更好的泛化能力。

图片

我们举个例子,比如我们有观测数据、控制方程、边界条件、初始条件,也有工程控制的准则,还有专家经验。这些因素都可以转化为损失函数中的不同正则项,进而约束模型的输出结果。通过这种方式构造的损失函数具有多个正则项,每项之前都有个系数。为什么要需要系数?因为实际上各个项对应的物理意义是不一样的,量纲也往往不一样。这种情况下是不能简单粗暴地把它们加在一起的。所以这些权重非常重要,这也是为什么有的人用这样的框架解决了很多问题,发现很好用,但有的人解决其它问题的时候,发现无效。那是因为这个过程不是一个简单直接的累加,权重的设计和调整非常重要。如果做得好,这种嵌入知识的方法是可以模提高模型的预测能力的,也有很强的泛化能力。

这个系数在学习过程中可能是变化的。比如在数据充足时,在内插问题中可能数据对应的正则项的权重就很大。如果数据量不足,或者数据不准确,或者在外推的情况下,控制方程的作用就非常重要了。但是,方程的作用也不是孤立的。如果给了个方程,实际上如同给了一个轨迹,一个很复杂的轨迹,而且是满天飘的不确定的。我们还必须有边界条件或者初始条件,才能把方程限定在一个正确的轨道上面。如果没有这些边界条件,初始条件,那么这个轨迹便是飘飘忽不定的。

我们举个例子说明知识的重要性。如果我们有个模型要预测深圳这两天的温度,你说今天大概会有多少度?如果你说零下 10℃,在全国来讲,大家可能不会觉得什么样,但这在深圳是从来不会出现的温度。专家告诉你说,深圳的历史气温最低的是零点几度,都甚至没有到零下的温度。这种情况下,如果给模型增加专家经验,就会非常有帮助。

图片

下面我们通过一系列的例子说明这个问题。比如地下水流动的问题,假设我们有最开始一段时间的数据,但是在后面改变了边界条件,即情景发生了很大变化,且没有后面一段时间的观测数据,那么常规的数据驱动模型是无法解决的。但是如果知道边界条件和控制方程,结合最开始时间的数据,就可以进行预测,且实际效果很好,如图中的对比结果。由于流场的条件已经改变了,所以开始一段时间的观测数据的数据分布已经与后一段时间不一致了,但是两段时间的数据都是受到同样的控制方程约束的,因此,如果直接用数据驱动模型预测,就会有较大误差。但是如果加入领域知识,比如控制方程和边界条件,就会有效提升模型的精度。在这个问题中,控制方程和边界条件起了很大的作用。

图片

有这样的一个框架以后能做什么?可以构建替代模型或数字孪生,并利用神经网络推断过程耗时少的优势。因为只要模型训练好了,如果有新的情景出现,或者有新的模型参数进来,就可以直接用这个模型来做预测,不需要重新进行耗时的数值模拟。这对需要大量反复求解的问题来讲,是非常有帮助的。比如不确定性量化,反问题的求解,优化设计等等,都会有很大的帮助。

图片

比如有个新的场景进来,这个方法很快可以做预测,并且具有不错的精度。

图片

这个方法在不确定性量化问题中具有优势。常规的方法,比如蒙特卡罗方法,处理不确定性量化时需要生成多个实现,所以需要很长的时间解不同实现中的方程。但是如果用这种替代模型,因为神经网络的预测速度很快,基本上每个情景直接可以条件反射一般地生成结果,就可以非常高效地实现不确定性量化

图片

刚才的例子是点对点的求解问题,实际结合卷积神经网络来做图像问题。通过引入控制方程,也可以达到很好的效果。因为时间关系,我就不详细说了。

图片

此外,也可以扩展到油水油气的问题。因为这是个两相流问题,所以约束的条件就会比较复杂。这种情况下,实际上它也是可以起到很好的效果的。 

图片

刚才介绍的是软约束,实际上我们也可以用硬约束来嵌入领域知识。 

图片

图片

硬约束的劣势是数学上比较复杂,优势是可以保证模型在局部严格满足物理机理。刚才的软约束是保证预测结果在统计意义下满足控制方程或者其他物理机理,硬约束则是保证模型在局部严格满足物理机理,这样实际上它效果是可以更好的。如果大家感兴趣,可以参考我们发表的 Hard constraint projection (HCP) 模型。但是时间关系我就不细说了。

图片

此外,在实际嵌入知识的过程中,是存在大量的难点的。尤其是当嵌入一些复杂方程的时候,比如具有分式结构或者复合函数的方程,难以直接利用神经网络的自动微分机制求梯度,因此也难以直接嵌入到人工智能模型中。此外,如前面介绍的,损失函数中各项之间的权重的确定也不是简单的问题。这方面我们最近开发了一个自动化的知识嵌入框架和工具包,叫做 AutoKE。如果大家感兴趣可以看一下我们在 IEEE Transactions on Artificial Intelligence 上发表的文章。

图片

小结一下,知识嵌入可以让模型的准确性得以提高,有更好的可解释性,更强的鲁棒性。

三、数据驱动的模型挖掘(知识发现)

图片

第三部分是知识驱动的模型挖掘,即知识发现。比如我们如何利用机器学习的方法从数据中直接挖掘模型,即从数据到模型。

图片

我们原来的控制方程都是怎么来的?比如万有引力定律是怎么来的?第谷花了近 40 年的时间来观察火星的轨迹,得到了大量的数据。开普勒又花了十几年的时间,运用这些数据来研究行星运动的轨迹规律,最后得到行星运行的三大定律。实际上他分析的过程中,受到像椭圆形啤酒桶的这种形状的启发,最后发现行星应该是符合一个椭圆的运动规律。在这个基础上,实际上又过了几十年以后,牛顿才进行了理论的延伸和公式的推导,得到万有引力定律。 

图片

那么,我们可不可以用人工智能深度学习的方法,大大的加快这一过程呢?也就是刚才提到在数据中直接挖掘新的知识。

图片

比如我们有这样一些离散的局部数据,利用这些局部数据,可不可以把它的内在规律、控制方程找出来?大家说这大概不可能,但实际上简单的定律,比如欧姆定律,都是从实验数据中得到的。当然这些关系可能比较简单,在实际问题中,潜在的关系可能存在于高维空间里面,会比较复杂一些。

图片

但是深度学习正好有强映射关系的能力。如果能做这件事情,那么机器学习就不再是一个黑箱了。它具有可解释性,特别是找到的控制方程,那是最简洁的知识,是知识最显性的一个表达。

图片

这种情况下怎么做?实际上是比如我们有数据,就可以得到它的梯度和各阶导数。理论上系统中可能存在许多项,但是实际的方程是稀疏的,它只有其中的几项,其他的项的系数都是 0,所以那些项是不存在的。

这样问题就转化成,像这样一个系统中,如何找到稀疏的向量,而且它的系数也能同时找出来。实际上就解决这个问题。说起来很简单,但是利用稀疏回归做这个事情,做起来可能不是那么简单。

图片

我们可以看一下早期的做法。比如,我有个口袋,可以在里面掏各种东西,把掏出来的项做组合。当然了,真正需要的项,这肯定在口袋中。这就是封闭候选集的一种做法。

后来我们做的时候发现,实际上我们不一定知道哪项是真正有用的。这种情况下,我们给一些基本的项,其他的项,我们通过遗传算法的交叉和变异得到新的项,这叫做半开放候选集。虽然我们没有一个完备的候选集,但是我们也能解决这个问题。当然,现在更好的办法是,如果只给我一个自变量,给我一个因变量,我们再定义一些运算符、运算法则。这种情况下,如果我们能够定义像导数,加减,乘除等等这些运算符,那么方程的每一项都是一个树的结构,这样你通过一次次变异去改变树的结构,就可以把方程找出来。即使是比较复杂的方程也能找出来,而且只需要自变量和因变量。

图片

我们举个例子,KdV 方程,一个很复杂的方程。对于封闭候选集,需要先猜测这里面大概会包含哪些项?在这里,我们假设这里面有 17 项,而且方程真正需要的项确实也在这里面,这种情况下是能把问题解出来的。如果像刚才讲的半开放候选集,虽然只给了四个项,真正的项以及其他很多项不在这个候选集里面,这种情况下怎么办?可以通过交叉和变异的算法,产生新的项,这样也能把这个问题解决。

图片

另外一个就是用符号数学的办法,每一项都可以变成一个树的结构。这个树是由节点构成的,父节点是运算符,子节点是系数、变量或者函数。对于树的结构,它的深度和广度,都可以调整,因为它表明树或者说方程的项到底有多复杂。这样,每一个方程实际上都是一片森林,你能够自由地去调整它的稀疏性。即使是很复杂的方程,在没有任何先验信息的情况下,也有可能找到。这种情况下,我们做了很多尝试,发现这个方法连很复杂的嵌套式方程和分数式方程都能找到。一般情况下,可能很难想象 1/x 是你方程的项和系数,实际上这里面还是很有意思的。那么它是怎么找到的呢?

图片

比如刚才讲的例子中,初始有一个自变量、因变量,它第一代迭代后可能找出了这些简单的项,当然这些项是不正确的。然后再交叉、变异、进化,再去评估它合不合理等等,最后找出来的项是很好的。比如系数本来是 0. 25,它找出的系数是 0.2498,系数只是差一点点。另一个系数本来应该是 1 的,它算出来是 0. 9979,这基本上就把这个方程准确无误地找出来了。当然了,这里面还有很多例子,我就不详细展开了。

图片

知识发现也可以用来解决实际的问题。比如这种粘性重力流问题,它的短期行为是没有控制方程的。这种情况下,我们通过精细的微观数字模拟能得到它的一些数据。是不是可以利用这些数据,来学习得到它的宏观控制方程?实际上这是可行的。

图片

当然,我们做的过程中,会考虑一些准则。一方面我们需要已知的那部分数据,数据拟合的精度越高越好。另一方面,我们希望模型越简单越好。同时,拟合数据的吻合程度也要越高越好。

图片

比如在这个情况下,短期的行为控制方程是从未被发现过的,文献里没有报道过,也没有人推导出来过。我们用知识发现的方法得到可能的两个方程,我们发现形式较为复杂的方程(方程②)和数据的误差比稍微要小一点,但是它比上面这个方程(方程①)更复杂,上面这个方程(方程①)更简洁。所以我们刚把刚才的两个因素考虑进去,通过比较物理信息准则值的大小,我们就采用这样一个形式(方程①),发现这个形式它实际上是一个非常好一个折中,它既有很好的精度,又有很好的简洁性,简单美。

图片

小结一下,利用稀疏回归、遗传算法、符号数学,可以从时空的数据中直接挖掘控制方程。深度学习提供了一种计算导数的可行方式,对噪声、稀疏数据具有很好的鲁棒性。对于一个挖掘出的偏微分方程模型,它应该在简约性和精确性之间取得平衡,从而获得较高的可解释性,这样的方程它实际上就找到以后就很好用,也可以给我们获得更好的可解释性。挖掘控制方程的本质就是知识发现。

结语

图片

总结一下,刚才讲知识的嵌入和知识的发现是要形成一个闭环的,是知识科学机器学习的一个核心。

图片

最后,机器学习算法可以有效地解决具有复杂、非线性映射关系的问题。当然了,数据是关键,比如信息化、物联网等等,这非常重要。但是光有数据,只是 “数据大”,并不是 “大数据”。如何做到 “大数据”?刚才讲要建立这种模型,利用行业的知识,利用这种 cutting edge 的算法来好好地利用这些数据,从 “数据大” 到 “大数据”。

另外一方面,要引入行业的知识,这样可以有效地提升机器学习模型的效果。当然在各个环节都可以引入行业的知识,我就不重复了。

另外,大家可能听得比较多,是 AI 加 x, x 就是行业,还是行业加 AI,就是 x 加 AI。在我的心目中,我觉得解决各个行业的问题应该是行业 x 加 AI。因为 AI 是一种是算法,是通用的模型。像我们计算编程的语言,实际上光有这些编程的语言,是不能解决行业问题的,还应该是行业加 AI,这应该是数据驱动和模型驱动的一个有机的结合。

在这里面我再重复一遍,就是知识的嵌入和知识的发现,要形成一个闭环,从而大大提高我们人工智能解决实际问题的能力。

好,谢谢大家。

理论张东晓知识嵌入
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

数字孪生技术

数字孪生(*Digital twin*)指可用于各种目的物理资产(物理孪生,physical twin)、过程、人员、场所、系统和设备的数字副本。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~