Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

happen 吴双 高宁 笪洁琼 魏子敏编译

如何训练一个简单的音频识别网络

本文将一步步向你展示,如何建立一个能识别10个不同词语的基本语音识别网络。你需要知道,真正的语音与音频识别系统要复杂的多,但就像图像识别领域的MNIST,它将让你对所涉及的技术有个基本了解。

完成本教程后,你将拥有一个模型,能够辨别一个1秒钟的音频片段是否是无声的、无法识别的词语,或者是“yes”、“no”、“up”、“down”、“left”、“right”、“on”、“off”、“stop”、“go”。你还可以使用这个模型并在Android应用程序中运行它。

注:本文含有大量代码,需要代码原文的同学请参考文末来源地址中的内容。

准备工作

确保你已经安装了TensorFlow,由于脚本程序将下载超过1GB的训练数据,你需要畅通的网络连接,而且你的机器需要有足够的空余空间。训练过程本身可能需要几个小时,所以确保你有一台可以使用这么长时间的机器。

训练

开始训练前,在TensorFlow 源码树下运行:

这个脚本程序将开始下载“语音命令数据集”,包括65000条由不同的人说30个不同词语组成的WAVE音频文件。这份数据由Google收集,并在CC-BY协议许可下发行,你可以通过贡献自己五分钟的声音来帮助提升它。这份文件大小超过1GB,所以这部分可能需要一段的时间,但你应该看一下过程日志,一旦它被下载一次,你就不需要再进行这一步了。

这表明初始化进程已经完成,循环训练已经开始,你将看到每一次训练产生的输出信息。这里分别解释一下含义:

在100步之后,你将会看到一行输出如下:

就可以从该点重新开始脚本。

混淆矩阵

在400步之后,将记录如下的信息:

第一部分是混淆矩阵。为了理解它的含义,首先需要知道所使用的标签,它们是 “silence”、 “unknown”、 “yes”、 “no”、 “up”、 “down”、 “left”、 “right”、 “on”、 “off”、“stop”和“go”。每一列代表一组被预测为某个标签的样本,因此第一列代表着所有预测为“silence”的片段,第二列都被预测为“unknown”词,第三列是“yes”,以此类推。

每一行代表着正确的、完全真实为该标签的片段。第一行是所有为“silence”的片段,第二行的片段都是“unknown”词,第三行是“yes”,以此类推。

这个矩阵比单单一个准确率更有用,因为它能很好地总结出网络所犯的错误。在这个例子中,除了第一项之外,第一行中的所有项都是零。因为第一行指的是所有实际上是“silence”的片段,这意味着没有一个被否定地标记为词语,所以我们没有漏报一个“silence”。这表明网络已经能够很好地区分“silence”和词语。

但是,如果我们看一下第一列,就会看到很多非零值。列代表所有被预测为“silence”的片段,所以除第一项之外的正数都是错误的。这意味着一些真实发声的词语实际上被预测为“silence”,所以我们存在一些误报。

一个完美的模型会产生一个混淆矩阵,其中所有项都是零,除了通过中心这条对角线。通过该模式发现偏差,可以帮助你弄清楚模型是如何混淆的,一旦你发现了问题,你就可以通过添加更多的数据或清理类别来解决这些问题。

验证

混淆矩阵之后,你会看到一行信息如下:

把数据分为三份是很好的做法。最大一份(在这个例子中大约数据的80%)是用来训练网络,较小(这里用10%,作为“验证”)的一份保留用于评估训练过程中的准确率,另一份(最后的10%,作为“测试”)用于在训练完成时评估准确率

划分数据是因为网络会在训练过程中记录输入,这是有风险的。通过将验证集分开,你可以确保模型在从未使用过的数据上运行。测试集是一个额外的保障,以确保你在调整模型过程中没有同时运行训练集和验证集,也没有更大量的输入。

训练脚本自动将数据集划分为这三类,上述日志行展示了模型在验证集上运行的准确率。理想情况中,这个值将与训练集准确率十分接近。如果训练集准确率上升的同时验证集准确率没有上升,这意味着出现过拟合,你的模型仅仅只在训练集上学习,并没有推广到更广泛的模式中。

Tensorflow的可视化工具

可视化训练过程的一个好方法是使用tensorboard。该脚本默认将事件保存到/tmp/retrain_logs,你可以通过输入命令行来加载:

在浏览器输入“http://localhost:6006”,你将看到一些展示训练过程的图表。

结束训练

经过几个小时的训练(取决于机器的速度),脚本将完成了所有18000个步骤。它将打印一个最终的混淆矩阵,连同一个准确率,这些都是在测试集上运行得到的。使用默认配置,你将得到85%~90%之间的准确率

因为音频识别在移动设备上特别有用,接下来我们将把它导出到压缩包,使得它能够在这些平台上使用。为此,运行命令如下:

一旦压缩后的模型建好,你可以运行label_wav.py脚本来测试,如下:

它将输出三个标签:

希望“left”是最高分,指的是正确的标签,但由于训练是随机的,它可能不是你测试的第一个文件。在同一个文件夹中测试一些其他WAV文件,看看结果如何。

分数将在0到1之间,值越高意味着模型对预测越自信。

在Android应用里运行模型

如果你想观察模型在实际应用中表现如何,最简单的方法就是下载并在你的手机中安装已构建好的Android演示应用了。你可以在你的应用列表找到名为“TF Speech”的应用,打开应用,它会展示与我们刚刚训练模型所用相同的动作词列表,选择“Yes”或者“No”开始。一旦你给予app使用手机的权限,你就可以说一些词,看看是否被模型识别出来并在UI高亮显示。

你也可以自己来构建这个应用程序,因为它是开源代码并且在github的TensorFlow存储库中可调用。默认情况下,它会从tensorflow.org下载一个预先训练的模型,但你可以轻松地用自己训练的模型替换它。如果这样做的话,你需要确保主要的SpeechActivity Java源文件(如SAMPLE_RATE和SAMPLE_DURATION)中的常量与你在进行训练时对默认值进行的更改相匹配。 你还可以看到一个Java版本的RecognizeCommands模块与本教程中的C ++版本非常相似。 如果你因此调整了参数设置,可以在SpeechActivity中进行更新,以获得与你的服务器测试相同的结果。

演示app会根据你在压缩图形旁复制的标签文本文件自动更新其用户界面列表,这意味着你可以轻松地尝试不同的模型,而无需进行任何代码更改。如果你更改了路径,则需要更新LABEL_FILENAME和MODEL_FILENAME以指向你新添加的文件。

这个模型是如何运作的?

本教程使用的体系结构是基于《用于小尺寸关键字检测的卷积神经网络》一文中的部分描述。选用它的原因是其相对简单,可快速训练和易于理解,而不是技术的先进性。建立神经网络模型以处理音频有许多不同的方法,包括反复网络或扩张(无序)卷积等。而本教程基于的卷积网络则对于使用图像识别的人来说非常熟悉。这乍一听似乎有点让人惊讶,毕竟音频是跨越时间的一维连续信号,而不是2D的空间问题。

如果你打开/tmp/spectrogram.png,你将看到:


不同于时间从左向右的常规频谱图,由于TensorFlow的记忆顺序,图像中的时间是从上到下增加的,频率从左到右。你应该可以看到几个明显不同的部分,第一个音节“ha”明显区别于与“ppy”。

由于人耳对某些频率比其他频率更敏感,因此在语音识别中,惯用的方法会是针对该特性做一个进一步的处理,将其转换为一组Mel-Frequency倒谱系数,简称为MFCC。这也是一个二维的单通道显示,所以它可以被看作是图像。如果你针对的是一般声音而不是语音,你会发现你是可以跳过此步骤并直接在频谱图上操作的。

接下来,由这些处理步骤产生的图像会被输入到多层卷积神经网络,其含有一个全链接层后以分类器结尾。 你可以在tensorflow / examples / speech_commands / models.py中看到此部分的定义。

精度流

大多数音频识别应用程序需要在连续的音频流上运行,而不是单独的剪辑段。在这种环境中使用模型的典型方法是在不同的偏移时间上重复应用它,并在短时间内平均结果以产生平滑的预测。如果你将输入视为图像,它则会沿着时间轴不断滚动。我们想要识别的词可以随时开始,所以需要采取一系列的快照来在提供给模型的时间窗口中捕获大部分的话语。如果我们以足够高的速度进行采样,那么是很有可能在多个时间窗口中捕获该单词的,因此将结果进行平均可以提高预测的整体信度。

有关如何在流式传输数据上使用模型的示例,可以查看test_streaming_accuracy.cc。 它使用了RecognizeCommands来运行长格式输入音频,以尝试查找单词,并将这些预测与标签和时间的完全真值列表进行比较。这使它成为将模型应用到音频信号流的一个很好的例子。

你需要一个长音频文件和显示其中每个单词被说出位置的标签来做测试。如果不想自己录制,可以使用generate_streaming_test_wav实用程序生成一些合成的测试数据。默认情况下,该程序将创建一个10分钟的.wav文件,文件的词频基本上是每三秒一个,同时提供一个包含了每个单词被说出位置的完全真值文本文件。词汇选自当前数据集的测试部分,并与背景噪声混合。想要运行它,请使用

这将保存一个.wav文件/tmp/speech_commands_train/streaming_test.wav,

并提供一个包含标签的文本文件在

运行精度测试:

这部分程序将输出正确匹配的词数,有多少词语被给出了错误标签,以及没有真正的词语被说出时模型却被触发的次数。这里有各种参数可以控制信号平均的工作原理,包括--average_window_ms,它设置用以结果平滑的时间长度,--sample_stride_ms,是模型应用程序之间的时间,--suppression_ms,用以设置在找到第一个词后再次触发后续检测的间隔时间,以及--detection_threshold,它控制给出肯定性预测的平均得分的阈值。

你会看到精度流输出三个数字,而不仅仅是训练中使用的一个度量。这是因为不同的应用程序有不同的要求,一些能够容忍频繁的不正确结果,只要最终找到真实的单词即可(高查全),而另一些则非常专注于确保预测的标签是高可能正确的,即使一些词语并没有被监测出来(高精度)。该工具输出的数值会让你了解到你的模型在应用程序中的表现性能,基于此你可以尝试调整信号平滑参数来调优其性能。要了解你的应用程序的正确参数,可以查看生成的ROC曲线来帮助了解平衡。

识别命令

精度流工具使用了一个简单的解码器,该解码器被包含在一个叫做识别命令的小型C ++类中。这个类随着时间推移运行TensorFlow模型的输出,对信号进行平均,当有足够的证据认为已经找到识别单词时,返回标签信息。它的执行很简单,只需跟踪最后几个预测值并对其进行平均,因此可以根据需要轻松地移植到其他平台和语言上。例如,在Android上的Java或Raspberry Pi上的Python上执行类似的操作都很方便。只要这些算法执行上具有相同的逻辑,就可以使用流测试工具调整控制平均值的参数,然后将其传输到应用程序以获得类似的结果。

高阶训练

培训脚本的默认设置旨在于较小的文件中生成良好的端到端结果,但其实有很多选项可以更改,你可以根据自己的要求自定义结果。

自定义训练集

默认情况下,脚本程序将下载Speech Commands dataset数据集,但你也可以提供自己的训练数据。为了在自定义数据上做训练,你应该确保每个识别目标单词至少有几百个录音,并按类别归入文件夹。例如,如果你想从猫叫声中识别狗叫声,需要先创建一个名为animal_sounds的根文件夹,然后将其中的两个子文件夹命名为bark(狗叫)和miaow(猫叫)。最后,将音频文件分类放入相应的文件夹中。

将脚本设置为指向新的音频文件夹,需要设置--data_url= to disable downloading of the Speech Commands dataset(取消下载Speech Commands dataset), 并设置--data_dir=/your/data/folder/,从而找到你新建的音频文件。

这些文件本身应该是16位小端PCM编码的WAVE格式。采样率默认为16,000,但只要所有音频的速率保持一致(脚本不支持重复采样),你可以使用--sample_rate更改此参数。剪辑段也应该采用大致相同的时间区段。默认的预期时间区段为1秒,但也可以使用--clip_duration_ms进行设置。如果在开始时一些剪辑段有不同数量的静音时间,可以查看编辑工具来标准化它们(这是一种快速却投机的方法)。

要注意的一个问题是,你可能会在数据集中重复相同的声音,如果它们分布在训练,验证和测试集中,则可能会产生有误导性的指标表现。例如,“语音命令”集中含有一个人多次重复的相同单词。这些重复中的每一个都可能与其他重复相当接近,所以如果在训练时过度匹配且对其中之一进行记忆,那么在测试集中看到非常相似的副本时,它可能表现出不切实际的好。为了避免这种风险,“语音命令”会尽力确保将单个人说出的同一个单词的所有剪辑放入同一分区。

基于片段名称的哈希值,会将片段分为训练集,测试集,以及校验集。那么在有新的片段加入时也可以保证集合的平稳划分,避免任何训练样本迁移到其他集合。为了保证所有说话人的声音都在同样的类别内,在使用哈希函数计算分配时会忽略“非哈希”之后的文件名。即就是,如果你有两个文件,命名分别为pete_nohash_0.wav和pete_nohash_1.wav,这两个文件将会被分配到同一数据集。

不确定类型

在使用你的应用时,很可能听到一些不在训练集范围内的声音,你会希望模型可以在这些情况下标记出那些它无法识别的噪音。为了帮助神经网络学习需要忽略哪些声音,你需要准备一些不属于你的预测类型的音频片段。怎么做呢?你可以创建“呱呱”“噜噜”“哞哞”等子文件夹,然后将你的用户可能碰到的其他动物的声音混入子文件夹。--wanted_words参数对应的脚本定义了你所关心的类型,所有上述子文件中的声音会用来在测试中混入_unknown_的类型。语音命令数据集中含有二十种未知类型,包含了从0到9的数字,和一些随机的命名,例如“sheila”。

默认情况下,测试数据的10%是来自于未知类型,但是你可以通过参数--unknown_percentage来进行调整,增加这个值可以使模型更好的区分未知和预测的声音,但是如果这个数值过大可能会适得其反,因为模型会为了安全而将所有的声音都归类到未知类型!

背景噪音

真实的应用需要在有噪音的环境中进行语音识别。为了使模型在干扰下具有良好的鲁棒性,我们需要对具有相似属性的录音进行训练。语音命令数据集中的文件不是来自录音室,而是用户在不同的环境中通过不同设备获取的录音,这在一定程度上可以增强训练的真实性。此外,你可以在输入端混合一些随机的环境音频。在语音命令数据集中有一个特殊的文件夹“_background_noise_”(背景噪音),其中包含了数分钟的白噪音和机器的声音,以及日常家务的活动的录音。

背景噪音文件的小片段是随机选择,然后在训练中以一个较低的音量混入音频片段中。这些文件的音量也是随时选择的,通过--background_volume(背景音量)参数进行控制,0是静音,1是最大音量。不是所有的片段都需要添加背景噪音,--background_frequency(背景噪音频率)可以控制背景噪音混入的比例。

你的应用程序可能运行在某种特定的环境下,具有不同的背景噪声模式,而不是默认的这些,所以你可以在_background_noise_(背景噪音)文件夹中添加自己的音频片段。这些片段应该保持与主数据集相同的采样率,但持续时间要更长,这样可以从它们中选择一组较好的随机片段。

静音

在大多数情况下,你关心的声音是断断续续的,所以知道什么时候没有匹配的音频是很重要的。为了支持这一点,我们使用特殊的_silence_(静音)标签来标志模型没有识别出有用信息。因为在真实的环境中从来没有完全的静音状态,实际训练时,我们必须提供一些安静的和一些不相关的音频。为此,我们使用_background_noise_(背景噪音)文件夹,这些音频也被混在真正的剪辑,从中选择一些段的音频数据然后标记它们的类型为_silence_(静音)。默认情况下训练集的10%的数据来自该文件夹中,但是,--silence_percentage(静音比例)可以用来控制静音文件的混入比例。与未知类型音频相同,比例的调整是以假阴性作为代价,如果设置的比例越高,模型会将更多的声音设置为静音类型,但是如果比例过高,就会使模型陷入倾向于预测是静音类型的困境。

时间推移

在训练中增加背景噪音是一种有效的方法来扩大数据集和增加整体的准确性,时间推移也可以起到同样的作用。这包括了对训练样本数据进行随机的时间抵消,在音频的开始或者结束会有一个小片段被切除,并以0进行填充。在训练集的开始阶段使用这种方法来模拟真实的变化,并通过--time_shift_ms参数来进行控制,默认值是100毫秒。增大这个值可以为训练集提供更多的变化,但是会增加切除音频重要部分的风险。还可以使用时间收缩和音量缩放来实现真实的扭曲,从而扩大数据集,但这两种方法超出了本教程的范围。

自定义模型

这个脚本对应的模型相当大,每次的推算都使用了超过8亿次的浮点运算以及94万个权重参数。这在台式机或现代的手机上会以有限的速度运行,但是因为太多的计算使得在现有设备有限的资源下很难有一个较高的交互速度。为了支持这些使用场景,我们提供了几个可用的替代方案。

low_latency_conv参数基于神经网络少量关键词识别论文中描述的拓扑'cnn-one-fstride4'。准确度相对于卷积要低一些,但是权重参数的数量基本相同,更重要的是每次预测只需要1.1亿浮点运算,很大的提升了运行速度。

你可以在命令行中使用--model_architecture=low_latency_conv来设定使用这种模型。同时,需要更新训练集的学习率以及训练的次数,整体的代码如下:

代码中设定了训练的迭代次数为20,000,学习率为0.01,然后将学习率调整为0.001,迭代次数调整为6000,对模型进行优化。

low_latency_svdf 基于论文“使用秩约束拓扑结构实现深度神经网络压缩”中的拓扑结构。同样的,准确度相对于卷积网络来说偏低,但只需要使用75万个参数,最重要的是可以优化测试时的执行(当你实际使用你的应用时),最终只有75万次的浮点运算。

你可以在命令行中使用--model_architecture=low_latency_svdf来设定使用这个模型,然后更新训练的学习率和迭代次数,整体的代码如下:

需要注意的是尽管这个模型的迭代次数与前两个拓扑结构相比大了很多,但计算量的减少意味着在训练时最终所使用的时间相当,最终的准确率可以达到85%。你可以通过调整SVDF层的这些参数,相对简单地调整这个拓扑结构的计算量和准确率

  • 秩 – 相似度的秩(这个值越高,准确度越好,但同时计算量会增大)

  • 节点数量 – 和其他层类型相似,层中的节点数量(节点数越多,质量越好,同时计算量会越大)

关于运行时间,考虑到本层允许通过缓存一些内部神经网络的激活结果来进行优化,你需要保证当你暂停执行,或者在流传输模式下执行模型时,需要保证使用的是同一个步调(例如,'clip_stride_ms' 标志)。当你压缩图时,以及在流模式下执行模型时(例如test_streaming_UNK acy.cc)。

如果你想尝试自定义模型,还有一些参数也可以进行自定义,比如可以从调整声谱图的创建参数开始。这个参数会调整模型输入的图像大小,在models.py文件中的创建代码会根据不同的维度对计算量和权重进行自适应。如果你的输入较小,那么模型会使用更小的运算量来进行处理,所以这是权衡准确度和减少延迟时间的好方法。--window_stride_ms 参数可以控制每个频率的分析样本与前一个之间的距离。如果增大这个值,那么在给定区间内的采样数会减少,输入的时间轴也会缩小。--dct_coefficient_count参数控制用来统计频率的分类数量,所以如果减小这个值意味着从另一个维度上缩小了输入。--window_size_ms参数不会影响输入的大小,但是它控制了计算每个样本频率的区域的宽度。如果你需要验证的声音很短,可以通过--clip_duration_ms参数来减少训练样本的时长,因为这样就是从时间维度上减少了输入。但是你需要确保所有的训练数据在片段的初始部分中包含你所需要的正确音频。

针对你的问题,如果你脑海中有一个完全不同的模型,你可以将其插入到models.py文件中,然后使用其他部分的脚本处理所有的预处理和训练机制。同时你需要在create_model中新增代码用来查询你的架构名称,然后调用模型的创建函数。这个函数中包含了声谱图的输入,以及一些其他模型信息,同时会创建TensorFlow的操作来读取数据、创建输出的预测向量,以及使用一个占位符来控制神经元的丢失率。剩下的代码会将整个模型进行集成,执行输入计算,应用softmax函数以及损失函数来进行训练。

当你调整模型以及训练超参数时,普遍遇到的问题是由于数字精度的问题,有些数值并不可以进行缓慢变化。一般来说,你可以通过降低这些值的量级来处理,比如对于学习率权重初始化函数。但如果这个问题还是持续存在,你可以使用--check_nans标志进行跟踪,寻找问题的根源。这个操作将在TensorFlow中的大多数常规操作之间插入检查操作,这样在遇到问题时,会停止训练过程并返回有用的错误信息。

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

入门语言识别TensorFlow
21
相关数据
混淆矩阵技术

混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。矩阵的每一行表示预测类中的实例,而每一列表示实际类中的实例(反之亦然)。 这个名字源于这样一个事实,即很容易看出系统是否混淆了两个类。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

来源地址请问在哪?