申恒涛作者

“诗画合一”的跨媒体理解与检索

编者按:王维的千古名句“大漠孤烟直,长河落日圆”,展现了其将诗画浑然一体的创作功底。苏轼更是曾以一题跋来评价王维的《蓝田烟雨图》:

味摩诘之诗,诗中有画;

观摩诘之画,画中有诗。

《蓝田烟雨图》虽已失传,“诗中有画、画中有诗”,却流传了下来,并代表了古代跨媒体理解领域,文本与图像之间映射关系的最高水平。

古人在品诗赏画时,是通过脑中的神经网络来寻找诗与画之间的联系,而在现代计算机世界中,由于媒体类型更加多元化,在文本、图像之外,还增加了声音、视频等融合了时序信息的数据,因此,更需要一种有效的手段来实现跨媒体的理解与检索。

今天,来自电子科技大学的申恒涛教授,将为大家讲述,如何在多个领域数据源之间,实现“诗画合一”。

文末,大讲堂特别提供文中提到所有文章的下载链接。

在多媒体大数据的背景下,我们迎接着挑战,也邂逅着机遇。纵观互联网的发展,从90年代的门户网站时代,到二十一世纪之初的搜索引擎时代、社交网络时代,直至当下的移动大媒体时代,多媒体智能计算研究被赋予了越来越大的科学、社会和商业价值。

我们未来媒体研究中心的定位是“多媒体大数据+人工智能”,用人工智能的技术分析处理多媒体大数据。

本次报告在对跨媒体研究总体介绍之后,将详细介绍video captioning和adversarial modality classifier的相关研究。

目前比较常见的多媒体数据包括文本数据、图像数据、视频数据以及音频数据。由于互联网的全面普及,多媒体大数据具备体量大、来源丰富、类型多样等特点,比如:

每一分钟,苹果用户下载大约51,000个应用程序,Skype用户拨打110,040个网络电话,Facebook用户要完成4,166,667个赞,YOUTUBE用户上传300小时的视频,Instagram用户对1736111张图片点赞,PINTEREST用户分享9722张图片。这意味着有海量的多媒体数据在源源不断地产生着,如果这些数据能够被充分地利用起来,将整体提高目前的人工智能水平,而如果使用不当,将影响公共安全。因此,多媒体大数据除了具备广泛的应用场景之外,还关乎国家经济、乃至社会安全。

那么如何充分利用多媒体数据呢?因此衍生出了一个重要的研究方向:跨媒体研究,包括跨媒体理解、跨媒体检索以及时空大数据搜索等。而跨媒体研究的本质,主要是挖掘不同模态媒体数据之间的联系,以完成模态之间的迁移。

机器人为例,一个机器人在运作的过程中,使用了视觉数据、语音数据以及传感器数据,而正是这些不同类型数据的协同,才赋予了机器人拟人化的能力。

而互联网上对同一个事件的描述,则会有不同来源的多种媒体数据。如图所示,对纽约飓风Sandy的事件描述,涵盖了视频数据、图像数据以及文本数据。

因此,跨媒体计算成为了AI 2.0时代的核心理论之一。

跨媒体理解:video captioning

Video captioning是一种使用自然通顺的语言对视频进行描述,从而表达视频内容的技术。如上图所示。

其具备广泛的应用场景:

  1. 在医疗界,通过充分利用不同模态的信息并从中受益,可以用来帮助各种行为能力受限的人;

  2. 在工业界,不同模态数据的协同,可应用于无人系统,包括机器人无人机自动驾驶等;

  3. 在教育界,可应用于教育领域的辅助学习;

  4. 在新闻界,多种数据源信息的描述,还可提高新闻的可理解性;

  5. 在安全领域,由于安防数据的多样性,跨媒体研究将有助于对不同模态安防数据的全面分析,或可助力公共安全。

现有的跨媒体研究工作的关键在于:对视频的视觉特征进行有效的编码提取,并解码输出成语句。

标准的神经网络皆是有向非循环图结构,采用拓扑顺序来进行前向传播、以及梯度反向传播,且单次只能有一个输入样例。

而循环神经网络引入了循环和时间概念,通过延迟的方式,解决了标准神经网络单次只能处理单条数据的问题,能够对多条数据序列同时进行处理。

相关工作还有:

1)以Vanilla Neural Networks为例的一对一神经网络;

2)以Image Captioning为例的一对多神经网络,被用于从图像生成单词序列;

3)以sentiment Classification为例的多对一神经网络,被用于从单词序列生成Sentiment;

4)以机器翻译为例的多对多网络,被用于从单词序列生成单词序列;

5)以及,以frame level的视频分类为例的多对多网络。

而video captioning领域的基础模型是ICCV 2015上的“Sequence to sequence-video to text”,是基于多对多的多层RNN网络来构建的。为了将视频中的事件解码为描述该事件的语句,这篇文章提出了一种双层LSTM方法,来学习如何表达视频帧序列。其中,上层LSTM(图中红色)用来建模输入视频序列的视觉特征,第二层LSTM(图中绿色)从文本输入以及视频序列的隐性特征,来建模最终的表达语言。图中<BOS>表示语句的开头,<EOS>表示句末的标签,<pad>表示该时间戳上输入为空。该模型可以同时学习视频帧的时序结构和生成语句的序列模型。

而在ICCV2015上的“Describing videos by exploiting temporal structure”,则为video captioning引入了注意力机制。在解码器中,通过采用动态的权重(也称为注意力权重),来对时序特征进行变换,然后利用变换后的特征和之前生成的单词来生成当前时刻的单词。其中,注意力权重反映了视频片段中每一帧的特征与上一时刻生成单词间的关联度。                           

如上图所示,通过对视频序列进行编码后,我们得到V(1), V(2), …, V(n)时序特征,根据解码器之前的状态及每一帧的特征V(i),获取到每一帧在当前时刻t时的注意力权重,然后采用为注意力权重加权的方式,对时序特征进行变换,最后根据这个特征和之前的状态来生成当前时刻的单词。

大多数现有的方法中,解码器为生成的所有单词都应用注意力机制,包括non-visual words(如“the”、“a”)。然而,事实上,对这些non-visual words使用自然语言模型已经能够很好地进行预测,为其强加注意力机制反而会误导解码器、并降低video captioning的整体性能。

针对这一问题,我们提出了一种层级LSTM框架(hLSTMat),它带有可调节功能的时间注意力机制,通过注意力机制选取一些特定的帧,并利用层级的LSTM来建模视频帧的低层视觉信息和高层语境信息,然后根据可调节的时间注意力机制,来选择解码是依赖于视觉信息还是语境信息。

我们针对visual words和non-visual words,提出了一种统一的编码-解码框架:

1) 针对有实际意义的单词,从一系列特定视频帧中提取视觉信息,例如,shooting是从橘色的视频帧中生成的。

2) 而针对non-visual words,我们仍旧依赖于语言模型

首先介绍CNN编码器:

这里使用ResNet-152模型来提取frame-level的特征,同样也可以使用其他CNN模型。

接下来我们介绍RNN解码器:其中包含两层LSTM、两种Attention以及一层MLP。如图中下部分所示:

1) 底层的LSTM可以高效地解码视觉特征;

2) 顶层的LSTM则主要挖掘语境信息;

3) 时间注意力机制(图中Attend)用于引导关注哪些重要的帧;

4) 可调节的时间注意力机制(图中Adjusted)用于决定采用视觉信息还是语境信息;

5) MLP层则用于最终的单词的预测。

底层LSTM

它用来捕捉低层视觉特征。在该层中,时刻t的状态h_t、m_t根据当前的词语的特征y_t、前一时刻的隐含状态h_(t-1)和前一时刻的记忆m_(t-1)进行更新。初始状态为h_0、m_0。整个更新过程用公式表示为:

其中W^ih和W^ic是该层需要学习的参数,Mean(∙)表示对给定的视频段特征集{V_i}进行平均池化的操作。

时间注意力机制

用来引导关注哪些重要的帧,捕捉关注的视觉特征。在时刻t中,我们采用动态的权值对时序特征进行求和,得到的特征用来表示每个时刻下视频段的视觉特征。根据视频段特征V(V={V_i})及底层LSTM时刻t的隐含状态h_t,经由单层神经网络获取到未归一化的关联分数ε_t,并采用softmax函数来得到最终的动态权值。整个权值获取的过程用公式可表示为:


其中,W^T、W_a、U_a和b_a是需要学习的参数

顶层LSTM

主要挖掘语境信息,捕捉视频段的高层语义特征。在该层中,时刻t的状态¯h_t、¯m_t根据底层LSTM的隐含状态h_t、前一时刻的隐含状态¯h_(t-1)和前一时刻的记忆¯m_(t-1)进行更新。同样地,整个更新过程用公式表示为:

可调节的时间注意力机制

用来决定采用视觉信息还是语境信息进行最后的单词生成。在该层中,通过添加校正门β_t来控制选取不同信息进行视觉单词和非视觉单词的预测。整个过程用公式表示如下:

其中,W_s是需要学习的参数

MLP层

用来输出单词预测的概率,获取最终生成的单词。具体公式如下:

我们在MSVD数据集和MSR-VTT数据集上进行了测试,其中,MSVD数据集涵盖1970个视频序列,80,000个“视频-文本”描述对,我们将这1970个视频序列分为训练集(1200)、验证集(1000)、测试集(670)三组。MSR-VTT数据集包含10,000个网络视频序列,且每一段视频都有大约20句自然语句标注,共计200,000个“视频-文本”描述对。

我们对编码器尝试了不同的网络,并使用BLEU和METEOR两个衡量指标对MSVD数据集进行测试,实验表明,在使用ResNet-152编码网络时,其性能最好。

我们对模型也进行了对比,在MSVD dataset数据集上,使用ResNet-152网络进行测试,实验结果表明,hLSTMat和hLSTMt优于当时性能最好的SA和MP-LSTM,且hLSTMat优于hLSTMt,可以看出可调节的注意力机制能够提高video captioning的性能。

我们在MSVD数据集上和其他方法进行了对比,其中一些方法之使用了单一深度网络来生成视频特征,而其他一些(如S2VT,LSTM-E和p-RNN)则混合了多种网络产生的特征,当使用静态帧级特征时,我们得出如下结论:

1) 相对于只提取空间信息的p-RNN,我们的方法在B@4评价标准上有8.7%的提升,在METEOR上有2.5%的提升;

2) HRNE的层级结构减小了输入流的长度,并能够在更高层次上组合多种连续输入,提高了网络的学习能力,并使得模型能够编码更丰富的多粒度时间信息,实验表明我们的方法明显优于HRNE和HRNE-SA。

3) 表中的VGGNet(V)和GoogleNet(G)主要生成空间信息,而光流(O)和C3D(C)主要捕捉时间信息,从组合实验可以看出,将时间和空间信息结合考虑,能够提升网络的整体video captioning性能。

如图是在MSR-VTT数据集上的对比实验,结果也表明我们的方法取得了state-of-the-arts的性能。

上图展示了针对MSVD数据集中的人物、动物、场景描述效果,将我们的方法与groundtruth进行了对比。

跨媒体检索:adversarial modality classifier

网络上充斥着来自不同数据源的多模态多媒体数据;因此,亟需能够适应各种模态的信息检索系统,例如,在搜索“Dunkirk”电影时,应返回影评的相关文本数据、包含相关视频片段的视频数据、以及相关音频数据;而跨媒体检索指的是:给定一个模态的输入,来查找其他模态中与之最相近的匹配结果。

以上图中两个例子来说明跨媒体检索,如Text2Img和Img2Text。

不同模态之间的数据及模型具备异质性,由图中特征空间的分布结果可以看出,图像和文本数据的特征表达具有本质性的差异,因而无法直接度量它们之间的相似度。

因此,常见的方法是公共子空间学习,为不同模态学习具有代表性的特征表示,同时,建模相同数据在不同模态之间的相关性。例如,图中以文本数据和视觉数据中的四种动物为例,寻找不同数据类型的同一输入在公共子空间中的相近落点,从而实现跨模态学习。

公共子空间学习衍生出了两个研究领域:特征提取以及相关性度量,而每个领域都有一系列研究方法。其中,特征提取分为浅层特征提取以及深度特征提取两类方法,而相关性度量则分为Pairwise和Rank-based两种方式。

深度方法的两个分支

在跨媒体检索领域,常利用深度方法对不同模态的数据进行多层非线性特征提取,并将其映射到公共子空间,而后进行相似性度量。

而在相似性度量上,其存在两个分支:

1)从统计的角度出发,例如采用典型关联分析(Canonical Correlation Analysis,CCA)方法来获取不同模态数据的匹配关联程度。

2)从数据语义的角度来进行不同模态数据的匹配,在此基础上,通过加入三元组的限制条件,来提高匹配精度。遵循的原则为:在最小化同一语义数据在不同模态之间距离的同时,最大化不同模态不同语义数据之间的距离。

而现有的深度方法存在一定的局限性,只关注特征差异以及成对输入之间的相关性,很少考虑跨模态之间的不变性,但不得不承认,如果模态之间的偏差很大时,寻找跨模态之间的相关性是很难的。因此,最理想的情况是,寻找一种适应多模态的特征提取方式,也就是说,给定特征子空间中的某一点,使其并不能直接反映其来自哪一个模态,如图所示。

正是如此,我们可以在跨模态检索网络中引入对抗学习的思想。对抗学习被广泛应用于像素级别和特征级别的分布对齐中。如图中上半部分所示,在像素级别的分布对齐中,对抗学习主要用于真实图像和生成图像分布的对齐;此外,如图中下半部分所示,在特征级别的分布对齐中,对抗学习则用来生成Domain Adaption任务中与Domain无关的特征。

在ICML15的文章中,提出了一种实现方法:在常见的分类网络(绿色+蓝色)中加入域分类部分(粉色),该部分在训练的过程中,采用反转的梯度层进行反向传播梯度,因此保证了不同模态在特征子空间的分布相似。



在此基础上,我们提出了一种对抗的跨模态检索(Adversarial Cross-Modal Retrieval,ACMR)方法,将对抗学习的思想应用于跨模态信息检索。整个算法流程如上图所示,它基于极大-极小的对抗机制,其中包含两个算法模块,其一是模态分类器,用来区分目标的模态,另一是特征生成器,用来生成能够适应不同模态的特征表达,以迷惑模态分类器。通过这两个模块的相互对抗,提高网络的综合性能。



ACMR的创新点

1)为缓解不同模态间的差异,引入了立即的反馈信号,来引导特征生成器的学习过程,;

2)由于同时进行特征判别和相关性建模,能够生成更加有效的特征。





图中例子表明,通过特征生成器和模态分类器的不断对抗学习,对同一语义的图像和文本描述,将在特征空间中逐步接近,并最终学习到跨模态的特征表达。



在特征判别的学习过程中,为增强不同模态数据在子空间中特征的可表示性,采取以下两种方式:

1) 利用给定的语义标签来辅助监督;

2) 分类器根据投影到公共空间的特征,来输出数据属于某一类的概率,从而进行语义类别区分。

而在训练的过程中,采用softmax交叉熵损失。



相关性建模

其遵循的原则为:在最小化同一语义数据在不同模态之间距离的同时,最大化不同模态不同语义数据之间的距离。

为了能高效地建模跨模态数据间的相关性,我们采用三元组形式的目标函数并结合限制条件,来提高匹配精度,具体方法如下:

对于每一个目标数据,首先从图像-文本对中找到与之匹配的正例,然后依照跨模态邻接矩阵和模态内相似矩阵中寻找出与之最难的匹配反例,从而使得同语义数据的相关性排序要优于不同语义数据。



结合模态间相关损失、模态内判别损失以及正则项,特征生成器的最终损失函数如图所示。



正如之前描述的那样,通过梯度反转层,我们将特征生成器的损失和模态分类器的损失结合起来,通过最小-最大优化过程来同时更新两个部分的参数



针对“图片到文本”、“文本到图片”两个检索任务,我们使用Wikipedia、Pascal Sentences、NUSWIDE-10k、MSCOCO四个数据集进行测试,数据及其特征详情见上表,表中“1300/1566”表示训练、测试的图片-文本对分别为1300和1566对。                          

为使得图片数据和文本数据可以映射到相同的特征空间,网络将图片CNN特征和文本BoW特征统一降到200维。对于模态分类器,设置3个全连接层,并将Softmax激活层添加在语义分类器和模态分类器的最后一层之后。这里采用MAP(平均准确率)和precision-scope曲线进行算法评估。 

我们将所提的ACMR算法与5个传统算法(CAA、JRL、LCFS、CCA-3V、JFSSL)和4个基于深度神经网络的算法(Multimodal-DBN、Bimodal-AE、Corr-AE、CMDN)进行了比较。结果如下两张PPT所示。



表中用于比较的CAA、Bimodal-AE、Corr-AE方法,使用了基于成对样本的相关性损失(correlation loss)来建模跨模态相似度,而有监督的CCA-3V, LCFS, JRL, JFSSL, CMDN方法,与ACMR一样使用了类标签信息。可以看出,在Wikipedia数据集上,ACMR方法效果最优。



在Pascal、NUSWIDE-10K数据集上,可以看出我们的方法成为了state-of-the-arts。



接下来我们用可视化的方式展示一下子空间特征的分布情况,可以看出,对抗学习具备缩小模态间差异以及混合不同模态间分布的能力。即在最小化同一语义数据在不同模态之间距离的同时,最大化不同模态不同语义数据之间的距离。



上图给出了一些在wikipedia数据集上的典型跨模态检索例子,比如输入一段关于战争的文本,相比Deep CAA算法,通过我们的方法检索,可以获取更合理的图片数据。



当然也会有一些错误的例子,如上图,“漂亮的金发女子”并未出现在待检索图片中,而针对文本“自行车”输入,一些图片中也未出现该类目标。qie这表明今后的工作将需致力于,在图片和文本中实现更加细粒度的检索。



如图,通过对损失的可视化也可以看出,特征生成器旨在最大化两模态之间的对抗损失,相反,模态分类器则旨在最小化对抗损失,通过这两个模块之间的抗衡,最终提升网络的整体性能。


总结与展望:

本次报告中着重介绍了跨媒体理解与检索,图像、视频的captioning,以及对抗式跨媒体检索三方面技术,未来我们的研究方向将考虑如下三方面:

1. 对视觉及文本区域进行局部化

2. 利用哈希技术来辅助检索

3. 基于自然语言处理的实时多媒体交互。


文中申老师提到的文章下载链接为: 

https://pan.baidu.com/s/1c3IeFlu

深度学习大讲堂
深度学习大讲堂

高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息。

入门人工智能多媒体大数据
相关数据
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

暂无评论
暂无评论~