Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI领域未来几年最引人瞩目的新方向是什么?

在调查近几年 AI 领域的过程中,我发现近几年对抗攻击的概念逐渐出现在全世界各国研究人员的视野中,我认为这将会是现在乃至未来几年最引人瞩目的新方向之一。

1.概述

我在国内的两个著名的学术搜索网站 AMiner 和 Acemap 进行了调查,以 adversarial attack和相近意思的 poisoning attack 等词作为关键词搜索了相关的论文,以下是两个网站给出的论文数据分析图表。

一方面,从图中很明显可以看出,在 2015 年直到今年,adversarial attack相关的论文显著增多,这说明了在机器学习发展飞速的今天,机器学习的安全问题逐渐被研究者们所重视。 所以我认为这个方向在未来几年应该会是一个新兴的热点。

另一方面,虽然这类论文在近几年显著增多,但是这并不能说明这个方向的前景更好、 可挖掘的知识更多。所以我又搜索了另一个现在已经成为热门方向的领域——reinforcement learning的数据来作为对比。

通过对比 reinforcement learning 和 adversarial attack 的热度和论文发表数量,可以发现与强化学习这类已经成为热门的方向相同,对抗攻击也开始有论文、热度急剧上升的阶段, 但是与之不同的是,对抗攻击论文的绝对数量至今仍很少。

这说明了对抗攻击的可研究的东西还处于正在被研究者们逐渐挖掘的过程,还未形成一个体系。所以从这一点,直观上来说, 我认为最近的科技新词应当是 adversarial attack。

2.原理

对抗攻击的开山之作 Intriguing properties of neural networks[12]中提到了神经网络的两个现象。

第一个是高维神经网络神经元并不是代表着某一个特征,而是所有特征混杂在所有神经元中;第二个是在原样本点上加上一些针对性的但是不易察觉的扰动,就很容易导致神经网络的分类错误。

第二个性质就是对抗攻击的理论基础,后来Goodfellow 在 Explaining and Harnessing Adversarial Examples[13]中提出原因并非是深层神经网络的高度非线性和过拟合,即使是线性模型也存在对抗样本。在这篇论文中,我们可以粗浅地认为对抗攻击之所以能够成功的原因是误差放大效应:

假设我们给输入样本加入扰动,则对抗样本即为:𝑥̃= 𝑥 + 𝜂,其中𝜂足够小(|𝜂|∞ ≤ 𝜖),

我们考虑权重向量ω和对抗样本𝑥̃的内积:

𝜔 𝑇 𝑥̃ = 𝜔 𝑇 𝑥 + 𝜔 𝑇 𝜂

虽然微小扰动𝜂通过神经网络权重的内积导致扰动放大,若权重维度为 n 均值为 m,则显然𝜔𝑇𝜂的最大值为εmn,此时𝜂 = 𝜖𝑠𝑖𝑔𝑛(𝜔)。因此在高维空间中,即使是很小的扰动,也会对最终的输出值产生很大的影响。

3.发展过程

在调研该领域的论文的过程中,我发现,作为machine learning security 的方向,对抗攻击的发展可以归结为两个核心:

不断寻找新的应用场景

不断利用新的算法

3.1 不断寻找新的应用场景

每当 machine learning有新的领域出现,研究者都会试图在该领域上进行对抗攻击的研究,来研究出攻击这种领域的方法和防御的方法。以下是我找到的一些典型领域的对抗攻击研究成果:

3.1.1 Computer vision

  • Attacks for classification

图片分类是计算机视觉最经典的任务,因此在这个应用场景的对抗攻击论文最多,比如:Jacobian-based Saliency Map Attack (JSMA)[1],One Pixel Attack[2],DeepFool[3]等。

这些论文的思想都是相同的:都是通过将图像的像素点按顺序或是随机一个一个改变,然后通过隐藏层的梯度来计算该点的改变对整张图片的攻击显著性并且根据梯度来选择下一个要改变的点,通过这样的训练最终可以找到最优的攻击像素。

其中,我认为 One Pixel Attack[2]的工作效果最显著,这篇论文仅改变一个像素就能完成对整张图片的攻击。我认为最有新意的一点是,作者运用了差分进化算法的思想,通过每一代不断变异然后“优胜劣汰”,最后可以找到足以攻击整张图片的一个像素点和其 RGB值的修改值,这种方法的优点是属于黑盒攻击,不需要知道网络参数等任何信息。效果如下,我认为很显著:

  • Attacks on Semantic Segmentation and Object Detection

语义分割任务的对抗攻击要比分类任务要难很多,语义分割对抗样本生成[4]利用了Dense Adversary Generation 的方法,通过一组pixels/proposal 来优化生成对抗样本损失函数,然后用所生成的对抗样本来攻击基于深度学习的分割和检测网络。

这篇论文的亮点我认为在于将对抗攻击的概念转换为对抗样本生成的概念,将一个攻击任务转换为生成任务,这就给我们提供了一种新的攻击思路:将这个任务转换为如何选取损失函数、如何搭建生成模型使得生成的对抗样本在攻击图片时有更好的效果。这种概念的转换使得对抗攻击不再拘束于传统的基于 FGSM 算法,也将更多的生成模型引入进来,比如GAN。

我认为在计算机视觉的对抗攻击的局限在于,由于计算机视觉的子领域非常多,所以有一些领域还没有人去尝试过,而且由于深度学习的不可解释性,现阶段只能也通过深度学习去生成对抗样本去破坏目标的学习,这样的攻击是没有方向性的,比如无法控制分类任务的欺骗方向,我认为下一步的发展应在于如何去定向欺骗深度学习网络,来达到一些更高要求的目的。

3.1.2. Graph

在今年的 ICML 和 KDD 的论文中,有两篇关于对图结构的对抗攻击的论文,一篇是Adversarial Attack on Graph Structured Data[5],另一篇是 Adversarial attacks on neuralnetworks for graph data[6]。这两篇论文都是对 graph 的攻击,这是以前从未有人做过的任务,是一种新的应用场景,因此前文我说对抗攻击发展还十分稚嫩,还在不断寻找新的应用场景。

由于 graph 结构数据可以建模现实生活中的很多问题,现在也有很多研究者在研究这种问题,比如知识图谱等领域。

知识图谱来举例,现在百度、阿里巴巴等公司都在搭建知识图谱,如果我能攻击知识图谱,在图上生成一些欺骗性的结点,比如虚假交易等行为,这会对整个公司带来很大损失,所以对图结构的攻击和防御都很有研究价值。

这两篇论文的出发点都是深度学习模型在图分类问题中的不稳定性。

第一篇论文定义了基于图模型的攻击:在保持图分类结果不变的情况下,通过小规模的增加和减少边的方式, 最大化分类结果的错误率。基于此,论文提出了基于分层强化学习的方法来创建对抗样本。 

第二篇论文的思想是对于要攻击的目标节点,产生一个干扰图,使得新图上的目标节点的分类概率和老图上目标节点的分类概率的差距最大,作者提出了Nettack的攻击模型。

我认为现阶段对图结构的对抗攻击的局限在于以下两点:

  1. 没有有效的防御算法。两篇论文都在讲如何去攻击图分类问题,但是对于防御问题, 第一篇论文只简单讨论了一下,比如随机 dropout,但是展示的结果很不理想,而第二篇论文根本没有讨论防御问题。因此对图结构的防御问题是接下来的一个可发展的方向。

  2. 现阶段图深度学习发展还不完善,没有形成一个像图片卷积神经网络那样的完整体系,GCN、随机游走等算法都各有利弊,所以在整个体系完成之前,对抗攻击的发展方向不是很明朗。我个人觉得随着可微池化[7]的概念的提出,GCN 应该是以后图深度学习的发展方向,所以对GCN的攻击或许很有潜力。

3.1.3 其他领域的对抗攻击

近期也有一些其他领域的对抗攻击。

首先,Adversarial Examples for Evaluating Reading Comprehension Systems[8]这篇论文对QA系统进行对抗攻击,通过向问题中中加入不影响人类理解并且不影响正确答案的句子来欺骗问答系统,来获得错误的答案。论文中给出的结果很显著,使原先75%的 F1 score 下降至 36%,如果允许不符合语法规则的话可以下降至 7%。

其次,对于强化学习的对抗攻击。Lin等[9]提出了两种不同的针对深度强化学习训练的代理的对抗性攻击。在第一种攻击中,被称为策略定时攻击,对手通过在一段中的一小部分时间步骤中攻击它来最小化对代理的奖励值。提出了一种方法来确定什么时候应该制作和应用对抗样本,从而使攻击不被发现。在第二种攻击中,被称为迷人攻击,对手通过集成生成模型规划算法将代理引诱到指定的目标状态。生成模型用于预测代理的未来状态,而规划算法生成用于引诱它的操作。这些攻击成功地测试了由最先进的深度强化学习算法训练的代理。

还有一些对于 RNN, Speech Recognition 等领域的攻击[10][11],这些领域的对抗攻击基本上只有一两篇。

综上所述,对于对抗攻击的应用场景,现阶段所发掘的只不过是冰山一角,在这个领域, 还有很多很多应用场景可以进行研究。因此,仅从应用场景而言,对抗攻击绝对是最近几年最具潜力的方向。

3.2 算法

对抗攻击的本质是用机器学习的方法去攻击机器学习模型,来检测模型的鲁棒性。由于它的攻击目标和自身所用的方法都是机器学习,所以当机器学习领域出现了更好的算法时,对于对抗攻击而言,这既是新的应用场景,又是自身可用的新算法。

在 Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey[14]这篇论文中总结了12种攻击方法,如下图所示:

经过我的调研,在论文 Adversarial Examples for Semantic Segmentation and Object Detection[4]的启发下,我认为,既然对抗攻击是对抗样本的生成任务,而生成任务又是现在发展非常迅速的一个领域,我们可以把一些生成模型迁移到这个任务上来。

比如,现在非常热门的对抗生成网络 GAN 是生成任务最有效的模型之一,我认为可以借用这种对抗的思想生成对抗样本:一个专门向原数据中加噪声的网络和一个试图根据对抗样本完成分类任务的网络,两个网络就像 GAN 里面的生成器和鉴别器一样对抗学习,最后会收敛于加噪声的网络生成的对抗样本足以迷惑分类网络,这样生成的对抗样本或许会比前文所述的方法效果更好。

由于生成任务还在不断发展,VAE、GAN 等模型或许都可以用于对抗攻击,近期新出现的 CoT[15](合作训练)为离散数据的生成任务也提供了一种新的思路,Glow[16]提出了基于流的可逆生成模型,据说效果会超过GAN......这些生成模型不断在发展,可供对抗样本生成借鉴的思路也越来越多,所以,我认为在算法上对抗攻击还有无限的潜力。

4. 总结

经过对对抗攻击的调研,首先,我发现这一领域的论文数很少,而且受大众的关注度不是很高,但是对抗攻击已经有趋势要迎来蓬勃发展的时期了。

其次,对抗攻击还处于寻找新的应用场景和不断尝试新的算法的阶段,还不成熟,未形 成完整的体系,而且和攻击与生俱来的还有防御问题,现阶段防御问题基本还处于把对抗样本加入原始数据一起训练以此来防御攻击的状态,研究的人很少,也没有十分显著的效果。 这说明在这个领域还有很大的可挖掘的空间。

机器学习发展飞速的今天,安全性问题正逐渐进入人们的的视野,对抗攻击不只能够 在网络空间进行攻击,还能够在物理世界中任何使用到机器学习的场景中进行有效攻击,比如针对人脸识别语音识别的攻击。为了机器学习更好的发展,研究对抗攻击是有必要的。 因此我认为最近的科技新词是adversarial attack

5. 引用

[1] N. Papernot, P. McDaniel, S. Jha, M. Fredrikson, Z. B. Celik, A.Swami, The Limitations of Deep Learning in Adversarial Settings, In Proceedings of IEEE European Symposium on Security and Privacy, 2016.
[2] J. Su, D. V. Vargas, S. Kouichi, One pixel attack for fooling deep neural networks, arXiv preprint arXiv:1710.08864, 2017.

[3] S. Moosavi-Dezfooli, A. Fawzi, P. Frossard, DeepFool: a simple and accurate method to fool deep neural networks, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2574-2582, 2016.

[4] C. Xie, J. Wang, Z. Zhang, Y. Zhou, L. Xie, and A. Yuille, Adversarial Examples for Semantic Segmentation and Object Detection, arXiv preprint arXiv:1703.08603, 2017.

[5] Dai, Hanjun, Hui Li, Tian Tian, Xin Huang, Lin Wang, Jun Zhu, and Le Song. "Adversarial Attack on Graph Structured Data." In International Conference on Machine Learning (ICML), vol. 2018. 2018.
[6] Zügner, Daniel, Amir Akbarnejad, and Stephan Günnemann. "Adversarial attacks on neural networks for graph data." In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 2847-2856. ACM, 2018.

[7] Ying R, You J, Morris C, et al. Hierarchical graph representation learning with differentiable pooling[J]. CoRR, 2018

[8] Jia R, Liang P. Adversarial examples for evaluating reading comprehension systems[J]. arXiv preprint arXiv:1707.07328, 2017.

[9] Y. Lin, Z. Hong, Y. Liao, M. Shih, M. Liu, and M. Sun, Tactics of Adversarial Attack on Deep Reinforcement Learning Agents, arXiv preprint arXiv:1703.06748, 2017.

[10] Papernot N, McDaniel P, Swami A, et al. Crafting adversarial input sequences for recurrent neural networks[C]//Military Communications Conference, MILCOM 2016-2016 IEEE. IEEE, 2016:49-54

[11] Carlini N, Wagner D. Audio adversarial examples: Targeted attacks on speech-to-text[J]. arXiv preprint arXiv:1801.01944, 2018.

[12] C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, R. Fergus, Intriguing properties of neural networks, arXiv preprint arXiv:1312.6199, 2014.

[13] I. J. Goodfellow, J. Shlens, C. Szegedy, Explaining and Harnessing Adversarial Examples, arXiv preprint arXiv:1412.6572, 2015.

[14] Akhtar N, Mian A. Threat of adversarial attacks on deep learning in computer vision: A survey[J]. arXiv preprint arXiv:1801.00553, 2018

[15] Lu S, Yu L, Zhang W, et al. CoT: Cooperative Training for Generative Modeling[J]. arXiv preprint arXiv:1804.03782, 2018.

[16] Kingma D P, Dhariwal P. Glow: Generative flow with invertible 1x1 convolutions[J]. arXiv preprint arXiv:1807.03039, 2018.

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业机器学习强化学习神经网络对抗样本语义分割计算机视觉深度学习
2
相关数据
朱军人物

朱军,清华大学计算机系长聘副教授、卡内基梅隆大学兼职教授。2001 到 2009 年获清华大学计算机学士和博士学位,之后在卡内基梅隆大学做博士后,2011 年回清华任教。主要从事人工智能基础理论、高效算法及相关应用研究,在国际重要期刊与会议发表学术论文百余篇。担任人工智能顶级杂志 IEEE TPAMI 和 AI 的编委、《自动化学报》编委,担任机器学习国际大会 ICML2014 地区联合主席, ICML (2014-2018)、NIPS (2013, 2015, 2018)、UAI (2014-2018)、IJCAI(2015,2017)、AAAI(2016-2018)等国际会议的领域主席。获 CCF 自然科学一等奖、CCF 青年科学家奖、国家优秀青年基金、中创软件人才奖、北京市优秀青年人才奖等,入选国家「万人计划」青年拔尖人才、MIT TR35 中国区先锋者、IEEE Intelligent Systems 杂志评选的「AI's 10 to Watch」(人工智能青年十杰)、及清华大学 221 基础研究人才计划。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

分层强化学习技术

分层强化学习是强化学习领域中的一个分支。传统强化学习通过与环境的交互,进行试错(trial-and-error),从而不断优化策略(policy)。但是强化学习的一个重要不足就是维数灾难 (curse of dimensionality),当系统状态(state)的维度增加时,需要训练的参数数量会随之进行指数增长,这会消耗大量的计算和存储资源。 分层强化学习将复杂问题分解成若干子问题(sub-problem),通过分而治之(divide and conquer)的方法,逐个解决子问题从而最终解决一个复杂问题。这里的子问题分解有两种方法:①所有的子问题都是共同解决被分解的任务(share tasks);②不断把前一个子问题的结果加入到下一个子问题解决方案中(reuse tasks)。分层强化学习核心思想是通过算法结构设计对策略(policy)和价值函数(value function)施加各种限制(constraints),或者使用本身就可以开发这种限制的算法。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
暂无评论
暂无评论~