Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

「声纹识别」中文课上线:从理论到编程实战,谷歌声纹团队负责人主讲

对任意一个领域的学习,如果有人可以指导你完成从基本概念、实践方法到系统认知的构建,你的职业发展将事半功倍。声纹识别领域,现在就有这样一门课程刚刚上线。

对任意一个领域的学习,如果有人可以指导你完成从基本概念、实践方法到系统认知的构建,你的职业发展将事半功倍。

声纹识别领域,现在就有这样一门课程刚刚上线。

什么是声纹识别?

声纹识别(Speaker Recognition)是一门位于音频信号处理、生物信息学以及 AI 等领域交汇点的交叉学科。声纹识别技术既是声纹技术中最为核心的一项,也是生物特征识别技术的一种,该技术利用算法和神经网络模型,让机器从人们的语音信号中识别出说话人的身份信息。而随着 2014 年以来深度学习(DL)技术的发展,声纹识别技术进入全新阶段。

如何在深度学习时代系统深入的学习声纹识别技术与不断更新自己的知识储备,对领域的初学者提出了全新的要求。谷歌声纹识别与语种识别团队负责人王泉博士的最新课程《声纹识别:从理论到编程实战》可以带你完成知识体系的构建。

必要的课前准备

课程视频总时长超过 12 小时,并配有大量课后练习,包括课后测验、编程练习与大作业。所以首先希望大家可以规划好学习时间,安排一段较紧凑的学习计划完成课程学习。

其次,这门课是技术性很强的专业课程,对标大学本科高年级研讨课与研究生课程,并非科普视频,所以在学习过程中需要随时停下查阅资料、推导公式与消化思考,也欢迎大家在课程中提问。

最后,学习课程需要较基础的大学数学知识与一定的Python编程基础,因为课程采用「中文授课、英文课件」,所以还需要一点英文基础。

谁适合学习?

学生与科研人员:熟悉领域全貌,为毕业论文与科研方向提供参考。

企业从业人员:完善知识与实践体系,了解学术界的前沿进展,保持职场竞争力。

任何对声纹领域充满兴趣与热情的人:建立声纹领域包括学术与产业界的系统认识,扩展知识面,辅助相关决策。

课程讲授哪些内容?

课程将从声学、感知基础知识以及音频、信号处理等开始介绍,深入理解声纹的本质。所以,即使是没有任何语音方面基础和背景的同学,也可以轻松上手这门课程。

课程会涵盖从上世纪 60 年代一直到 2022 年出现的所有主流声纹识别技术,让大家既可以对整个声纹技术的发展史有一个全面的认知,又能熟悉学术界和工业界最前沿、最先进的技术,保持自己的知识储备领先于其他从业人员。

同时,本课程将着重介绍基于深度学习的声纹识别系统,包括卷积神经网络、循环神经网络注意力机制、Transformer 等常用于声纹识别的神经网络结构,并对主流的深度学习声纹识别系统进行归纳总结,横向对比各种推理方法和损失函数之间的优劣,帮助大家理解所有系统的底层设计思路。

此外,课程还将讲解数据清洗、数据增强和数据融合等数据处理相关技术。

课程大纲如下:

课后答疑与练习

课后练习分为三个部分,均配有参考答案,提交后可见:

课后测验:以单选题为主,考察对基本概念的理解。

编程练习:要求按照给定的函数接口实现相关功能,每道题目均会给出参考实现与测试案例。

课后作业:以问答题为主,并配有指导视频,手把手教大家使用常用工具与代码库。

课程最后将迎来最终挑战:结合课程中所学的全部内容,利用 Python 及 PyTorch 从零开始搭建一个完整的声纹识别系统。其中,课程会提供详细的指导,帮助大家将项目分解为诸多低难度的子任务来分别完成,并在 GitHub 上提供范例系统以及代码解读视频,确保顺利完成最终挑战。

课后答疑:课程配有「课后交流圈子」,大家有疑问可以留言,讲师将不定期录制答疑视频。

讲师介绍

课程购买

  • 课程上线首周优惠价299元,2022年8月23日后恢复原价;

  • 课程长期有效,购买后可反复观看学习,PC观看体验更佳;

  • 课程配有交流群,购课后添加小助手即可入群;

  • 扫码购买课程。
特别福利

最先购买课程的 5 位同学将获得赠书一本:由王泉老师所著的《声纹技术:从核心算法到工程实践》。

入门线上课程声纹识别
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

推荐文章
暂无评论
暂无评论~