Jeff Dean等发文《Nature Medicine》,综述深度学习在医疗领域的应用

近日,来自斯坦福大学和 Google Research 的研究者对医疗领域中的深度学习应用进行了综述,并将研究文章发表在《Nature Medicine》上。这篇文章从应用于医疗行业的计算机视觉、自然语言处理、强化学习和通用方法入手,详细介绍了深度学习在医疗中的应用。

本文介绍了医疗行业中的深度学习技术,主要从计算机视觉自然语言处理强化学习和通用方法这些方面入手。主要介绍了这些计算技术对关键医疗领域的影响,并探索了如何构建端到端系统。计算机视觉方面主要关注医疗成像,自然语言处理方面主要涉及电子健康档案数据,强化学习方面主要讨论机器人辅助手术,通用深度学习方法主要涉及基因组学。

深度学习机器学习的子领域,由于算力和数据的增长,深度学习在过去 6 年中得到了巨大发展。该领域见证了机器理解和控制数据能力的显著进展,包括图像、语言和语音。医疗行业从深度学习中受益良多,因为该行业生成海量数据(光美国就有 150 艾字节(10^18 字节)的数据,每年增长 48%),医疗设备和数据记录系统也在不断增多。

机器学习与其它计算机编程类型不同,它使用从大量样本中自动提取的统计、数据驱动规则将算法的输入转换成输出(无需人类过多参与规则制定)。之前,构建机器学习系统需要利用领域专业知识和人类工程来设计特征提取器,将原始数据转换成学习算法能够从中检测出模式的合适表征。而深度学习作为表征学习的一种形式,输入原始数据后可以自行习得模式识别所需表征,它们由多层表征组成。这些层通常按顺序排列,并包含大量粗糙的非线性运算,从而使一个层的表征(最开始是原始数据输入)输入到下一个层,最终转换成较抽象的表征。随着数据在系统各层中传播,输入空间不断变形,直到数据点可识别为止(见图 1a)。用这种方式可以学得高度复杂的函数。

图 1:深度学习。a. 一个简单的多层深度神经网络,输入为两个类别的数据(分别用不同颜色来标注),数据在各层中传播时网络不断使其变形,从而使数据线性可分。最终输出层作为分类器,输出的是某个类别的概率。该示例介绍了大型网络使用的基本概念。b. 接受多种数据类型输入的大型网络示例,数据类型包括图像、时序数据等,网络处理每种数据类型时在其低级塔(tower)中学习有用的特征。然后融合每个塔中的数据,输入高层,使深度神经网络对不同数据类型执行推断,这种能力在医疗行业中的重要性与日俱增。

深度学习模型可扩展至大型数据集(部分原因在于它们可在专用计算硬件上运行),并继续改进,提高在更多数据上的能力,这也使得深度学习模型优于很多经典机器学习方法。深度学习系统可以接受多种数据类型的输入,异质医疗数据就具备这种属性(图 1b)。使用监督学习方法训练的模型最为常见,其数据集由输入数据点(如皮肤病变图像)和对应的输出数据标签(如「良性」或「恶性」)组成。强化学习中的计算智能体通过试错或专家演示来学习,在采用深度学习技术后,强化学习也取得了长足进步,在游戏等领域取得了突出成绩(如围棋)。在医疗领域,当学习需要医生演示时,强化学习非常有用,例如机器人辅助手术中智能体学习给伤口缝合。

计算机视觉

深度学习的一些伟大成就出现在计算机视觉领域(CV)。CV 主要研究图像和视频理解,处理目标分类、检测和分割等任务,这些在判断病人射线照片中是否包含恶性肿瘤时非常有用。卷积神经网络(CNN)用来处理具备空间不变性的数据(如图像,它们的意义不会发生改变),也因此成为该领域的重要技术。

拿医疗成像来说,它从图像分类和目标检测的近期进展中受益良多。很多研究在皮肤科、放射科、眼科、病理科的复杂诊断中取得了不错的结果(见图 2)。深度学习系统可以为医生提供辅助意见,标注出图像中有问题的区域。

图 2:医疗成像。CNN 可以在多种医疗影像上训练,包括放射科、病理科、皮肤科和眼科。信息从左到右传播。输入图像馈入 CNN 后,网络会使用卷积、池化、全连接层等简单操作按顺序将数据转换成扁平向量。输出向量的元素表示疾病出现的概率。在训练过程中,网络层的内部参数会迭代调整,以提高准确率。通常,较低的层(左)学习简单的图像特征——边和基本的形状,这对右侧的高级表征有所影响。预测任务包括图像分类(即恶性 vs 良性)和医疗特征定位(如肿瘤)。

使用 CNN 方法进行图像级别的诊断已经很成功了。这很大程度上归功于 CNN 在目标分类任务上可与人类媲美的性能。这些网络在迁移学习中展现了强大的性能,CNN 最初在与目标任务无关的大型数据集(如 ImageNet)上进行训练,然后在目标任务相关的较小数据集(如医疗影像)上进行微调。第一步,算法利用大量数据学习图像中的自然统计数据,如直线、曲线、颜色等。第二步,重新训练算法的高级层来对诊断病例进行辨别。类似地,目标检测和分割算法可识别图像中与特定目标对应的部分。CNN 方法使用图像数据作为输入,然后输入经过多次卷积和非线性操作进行迭代变化,直到原始数据矩阵被转换成潜在图像类别的概率分布(如医疗诊断案例)。

深度学习方法在大量诊断任务上取得了医生级别的准确率,包括识别黑痣和黑色素瘤,从眼底图像和光学相干断层扫描 (OCT) 图像中检测糖尿病性视网膜病变、判断心血管风险,提供转诊建议,以及从乳房 X 光片中检测乳腺病变、使用核磁共振成像进行脊柱分析。甚至有研究证明单个深度学习模型在多个医疗模态中都很有效(如放射科和眼科)。但是,这些研究的一个关键限制是人类医生与算法性能之间的对比缺乏临床背景,它们把执行诊断的情形限制在仅使用图像的条件下。而这通常会增加人类医生进行诊断的难度,现实医疗环境中医生可以看到医疗影像和一些补充数据,包括病人的病史、健康记录、其他检测和口述等。

一些诊所开始使用图像目标检测和分割技术处理紧急、不易被发现的病例,如使用放射图像标注大脑中的大动脉闭塞,病人在永久性大脑损伤发生之前所剩的时间极其有限(几分钟)。此外还有癌症病理切片读取,该任务需要人类专家费力地扫描和诊断超高画素图像(或同样大小的实体图像),现在该任务可以使用能够检测有丝分裂细胞或肿瘤区域的 CNN 来辅助进行。训练之后的 CNN 用于量化组织病理图像中的 PD-L1 数量,这项任务对确定病人要接受哪种免疫肿瘤药物非常重要。结合像素级的分析,CNN 甚至被用于发现生存概率相关组织的生物学特征。

为新的医疗成像任务构建监督式深度学习系统的主要局限在于是否有足够大的标注数据集。用于特定任务的小型标注数据集比较容易收集,但算法在新数据上的性能会比较差。在这些情况下,数据增强技术对提高算法的泛化能力有所帮助。类似地,大型无标注数据集也很容易收集,但它需要改进的半监督和无监督技术,如生成对抗网络

自然语言处理

自然语言处理(NLP)主要通过分析文本和语音来推断词的语义。循环神经网络(RNN)能高效处理该领域的序列数据,如语言、语音和时序数据等,它在 NLP 中起到了非常重要的作用。NLP 中的机器翻译、文本生成和图像描述取得了显著成功。在医疗领域中,序列深度学习和语言技术为电子健康档案(EHR)等应用提供了很多支持。

EHR 目前正在迅速普及,大型医疗机构的 EHR 能记录超过一千万患者过去 10 年内的医疗活动。此外,单独一次住院大约能产生 15 万条数据,因此从这些数据能获取的有效信息与优势是十分明显的。总的来说,这种规模的 EHR 大概表示了 20 万年的医生智慧累积和 1 亿年的患者医疗结果数据,其中还包含足够多的罕见病症。因此将深度学习应用到 EHR 数据是一个迅速发展的领域。

下图 3 展示了为 EHR 构建深度学习系统的主要技术流程。其中系统首先会汇集多个机构的数据来构建原始数据,这能确保构建一个可泛化的系统。然后将各种非结构化的 EHR 数据标准化并解析为患者的时序数据,这可以令数据更适合使用深度学习进行训练。因此,最后我们就能推断出高级医疗问题的答案,例如「患者病史中的哪些信息与当前疾病相关?」、「患者目前的疾病或问题列表是什么?」、「有哪些介入治疗的可能性?」。

图 3:使用 EHR 进行预测。其中 a 所示的非结构化 EHR 数据是使用不同数据格式存储的,因此基于一所医院的病例构建的模型无法用于其他医院的数据。那么通过步骤 b 可以将不同格式的数据映射为基于 FHIR 的相同格式,它们都标准化为同质数据。接下来,c 根据用户的时间线序列化数据,因此基于时序的深度学习技术能直接应用到整个 EHR 数据集上,并为单个病人做出预测。

在进行预测时,目前大多数研究工作都在有限的结构化数据上使用监督学习,这些数据包括实验室结果、生命体征、诊断码和人口统计数据等。为了解释 EHR 中的结构化和非结构化数据,研究者开始使用无监督学习方法,例如自编码器等。最近深度学习通过卷积和循环神经网络建模结构化事件的时序序列(这些事件出现在患者的档案中),预测未来的医疗事件。这些工作大多数都聚焦在重症监护医学信息数据库(MIMIC),它包含来自单个医疗中心的大量重症监护(ICU)患者数据。虽然 ICU 患者比非 ICU 患者能产生更多的 EHR 数据,但非 ICU 患者的数量要远远超过 ICU 患者。因此目前仍然不确定从这些数据获得的模型如何泛化到更广泛的人群中。

下一代语音识别信息抽取模型可能会开发临床语音助手,从而准确地转录患者就诊信息。医生在工作日的 11 小时中,需要花 6 小时处理 EHR 文档,而这会减少用于患者的时间。因此自动化转录将缓解这种问题,并促进更多更有价值的服务。基于 RNN 的语言翻译模型能够使用端到端的技术直接将语音转换为另一种语言的文本。这种技术能直接将患者和医生的对话转化为转录文本记录。不过关键难点在于,在准确总结对话的同时,模型还需要从对话中对每个医疗实体的属性和状态进行分类。虽然早期的人机交互实验非常有前景,但这些技术还没有广泛部署到医疗实践中。

未来的研究工作可能会集中在开发新算法,以更好地利用 EHR 中信息丰富的非结构化数据。例如在开发预测系统时,临床记录通常被省略或采用节选编辑,这种非结构化数据就含有非常多的诊断信息。一般我们通过半监督学习结合结构化和非结构化数据,其中大规模 RNN 展现出非常优秀的性能与结构。这种数据组合允许模型从更广泛的数据类型中学习更多的知识,并在多项任务中超过其它技术,这些任务包括死亡率、再入院率、住院时间和诊断预测等。

强化学习

强化学习是指训练计算智能体成功与环境互动的技术,通常是为了实现特定目标。强化学习可通过试错、演示或混合方法来实现。一旦智能体开始在其环境中采取行动,奖励和后果的迭代反馈循环会训练智能体更好地完成目标。从专家演示中学习有两种方式:通过监督学习(即模仿学习)直接预测专家的行为;推断专家的目标(即逆向 RL)。要想成功训练智能体,模型函数至关重要,它把环境中的感官信号作为输入,输出智能体要采取的下一步行动。在深度强化学习中,深度学习模型作为模型函数,颇具前景。

可以从深度强化学习中受益的一大医疗领域是机器人辅助手术(RAS)。目前,机器人辅助手术的主要方式是医生以遥控方式指导机器人操纵器械。通过使用计算机视觉模型(如 CNN)来观察手术环境、使用强化学习方法学习外科医生的动作,深度学习有效提高了机器人辅助手术的稳健性和适应性。

这些技术支持高度重复与时间敏感的手术任务,如缝合和打结。例如,计算机视觉技术(如用于目标检测 / 分割和立体视觉的 CNN)可以根据图像数据重建开放性伤口的样子,然后通过解决路径优化问题生成缝合或打结轨迹,该路径优化问题试图在考虑外部约束(如关节限制和障碍)的同时找到最优轨迹。与此类似,用图像训练的 RNN 通过学习外科医生的动作序列能够学会自动打结。

这些技术对完全自动化的机器人手术或微创手术尤其有利。在现代腹腔镜手术中,需要有几个切口把器械插入体内,这些器械包括相机机和手术工具,然后外科医生遥控操作这些器械。深度模仿学习、RNN、轨迹迁移算法可以完全自动化手术过程中的某些遥控操作任务。在腹腔镜手术中,重复任务的自动化比开放手术对时间的要求更严格。例如,在腹腔镜手术中打结可能需要三分钟,而不像开放手术中只需几秒。

半自动遥操作的主要挑战之一是在手术场景附近正确定位仪器的位置和方向。最近,采用改进 U-Net 架构 CNN 开发的像素级仪器分割技术开始崭露头角。深度学习应用于手术机器人的另一大挑战是数据收集。深度模仿学习需要大量的训练数据集,包含每个手术动作的多个示例。由于许多手术是精细、独特的,收集足够的数据用于其他一般性手术仍然非常困难。而且,自动化系统仍然难以完全适应未知和未观察到的情况,如异常的手术事故。

深度学习的推广

除了 CV、NLP、RL 任务之外,深度学习也适用于数据差别微妙且需要特别对待的领域。此处以基因组学为例,在这一领域中,用于处理独特数据表征的深度学习技术已远不止(基于 CNN、RNN 等的)传统深度学习方法。

现代基因组技术包含许多种度量,从个人 DNA 序列到血液中多种蛋白质的数量。用于分析这些度量的方法可以通过深度学习得到极大改进,而这些改进将帮助临床医生提高治疗和诊断的准确率。在基因组学领域,创建一个深度学习系统的典型工作流程包括获取原始数据(如基因表现型数据)、将原始数据转化为输入数据张量、将这些张量数据传入神经网络并用于特定的生物医学应用(如图 4)。

图 4:基因组学中的机器学习。a:输入数据。基因组数据由实验测量数据组成,从中可以预测某些特性或有趣的结果。这些数据通常丰富多样,可能包含排序、基因表现型、功能性数据以及其他形式的分子数据。b:示例数据张量。原始的实验度量需要转化为适合深度学习算法使用的形式,一般深度学习算法将多维数据张量和相关目标标签作为输入。c:DNN。使用带有标注的张量来训练 DNN,以从输入数据张量中预测标签。d:生物医学应用。经过训练的 DNN 可以应用于生物医学,如预测以前未见过数据的标签或检查输入数据和输出标签之间的关系。示例应用包含解释实验数据(如从序列工具的输出中推断 DNA 序列或推断 DNA 突变对基因剪切的影响)、分子诊断学(如预测基因突变对疾病风险或药物反应的影响)等。

全基因组关联(GWA)分析隐藏着巨大的机遇,这是一种大型病例对照研究,旨在发现影响特定性状的基因突变。GWA 分析要求算法可以扩展到非常大的患者群体,还要能处理潜在的混杂因素。这些挑战可以通过优化工具和深度学习相关技术解决,包括随机优化和其他结合了平行计算的现代方法,以及解决不可见混杂因素的建模技术。在不久的将来,将外部模式和额外的生物数据来源整合到 GWA 研究中的模型,也可能受益于深入学习,它们能够更准确地识别疾病相关的因果突变。

了解疾病遗传学可以帮助临床医生推荐治疗方法并提供更准确的诊断。确定患者基因组中的新变异是否具有医学相关性是内科医生面临的一大挑战。在某种程度上,这种决策依赖于预测突变的致病性,目前已有任务使用蛋白质结构和进化保守性等特征来训练学习算法。由于能够有效地整合不同的数据类型,深度学习技术可能提供比现在更准确的致病性预测。

机器学习对于从基因数据中进行表现型预测也发挥着重要作用,包括身高、疾病风险等复杂的性状。深度学习可以通过整合医疗图像、病例、可穿戴设备数据等其他形式的数据进一步增强此类模型。一种非常有前景的表现型预测方法是预测中间分子的表现型,如基因表达或基因剪切等,这些信息接下来会用于下游疾病的预测。中间分子状态预测要比人类性状预测容易一些,因为其信号更多,训练数据更加广泛。这两个特征使得这一问题非常适合用深度学习解决,后者已经被证实非常善于预测剪接和转录因子结合。

基因组数据也可以直接作为疾病产生和衍化的生物标志物(biomarker)。例如,血液中含有少量脱离细胞的 DNA,这些 DNA 是从身体其他部位的细胞中释放出来的。这些 DNA 片段是器官排斥反应(即免疫系统攻击移植细胞)、细菌感染及早期癌症的非侵入性指标。脱细胞 DNA 被成功地应用于产前诊断:胎儿 DNA 存在于母亲的血液表明染色体畸变,可以揭示胎儿的整个基因组。生物标记数据通常非常嘈杂,需要进行复杂的分析(如确定脱细胞 DNA 是否预示癌症);深度学习系统可以提高针对 DNA 序列、甲基化、基因表达及其他度量的生物标记分析的质量。

理论Jeff Dean医疗计算机视觉强化学习NLP
51
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

随机优化技术

随机优化(SO)方法是生成和使用随机变量的优化方法。 对于随机问题,随机变量出现在优化问题本身的表述中,其涉及随机目标函数或随机约束。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
复旦大学・计算机技术・硕士
致力于智慧医疗