Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心AI科技年会 | 数坤科技研发副总裁危夷晨:AI在医疗影像的应用和探索

3 月 23 日,在机器之心 AI 科技年会上,数坤科技研发副总裁危夷晨发表了主题演讲《AI 在医疗影像的应用和探索》,对 AI + 医疗影像行业进行了全面的介绍。


以下为危夷晨在机器之心 AI 科技年会上的演讲内容,机器之心进行了不改变原意的编辑、整理:

感谢机器之心邀请我来参加这次活动,我是数坤科技的危夷晨。

我长期从事计算机视觉方面的科研和产品研发,之前在旷视科技微软亚洲研究院工作。最近我加入了数坤科技,从事 AI 医疗影像方面的技术研发。

这次的分享主要是一个对于 AI + 医疗影像行业的全面介绍,由于时间的关系可能不会特别深入,但我希望能把这个行业的一些特点、发展历史给大家做一个简明的介绍,因为很多计算机视觉、图像领域的从业者对于医疗影像行业的了解相对较少。

第一部分是整个 AI + 医疗的时代背景,众所周知我国老龄化开始加速,医疗健康的需求在急剧增加。同时我们的医疗资源非常不平衡,大医院人满为患,小医院基本没什么人去。为了解决这个突出的供需矛盾,国家提出需要把人工智能方向上升到国家战略方向,需要跟一些重要的民生领域做深度的结合,其中就包括医疗健康,需要让 AI 给医疗健康赋能,提升信息化智能化的程度,提升服务能力。

不仅是在中国,科技跟医疗健康产业进行结合是全球的趋势。如图是研究机构 CB Insights 在 2021 年发布的全球数字健康产业的前 150 名公司名单,在医疗影像领域数坤科技是唯一入选的中国企业,这也代表了国际顶级研究机构对数坤的认可。


在国内,也有很多的公司把 AI 技术跟医疗场景结合起来。其中,医疗影像是很大的一个赛道。

为什么做医疗影像?有两个原因,第一个原因是有需求,因为在整个诊疗过程中,影像分析是第一个环节,目前来说影像科的数据增长率非常高、需求多,但是医生的增长相对缓慢很多,供需矛盾突出。同时,影像科的人力成本和设备成本较高,效率较低,所以有很强的降本增效的需求。

第二个原因是有条件,医疗影像分析的任务跟自然图像视觉任务有很多共性,近年来随着计算机视觉深度学习技术的飞速发展,跟图像相关的各个行业,都在迅速发展。这提供了很好的技术基础和人才基础,因此,相对来说医疗影像这个行业的技术门槛不是特别高。

跟很多其它与图像分析结合的行业一样,每个行业都有各自的特点,医疗影像也不例外。下面我从行业本身的挑战和优势角度做一个简要的介绍。

医疗影像领域第一个难点在于影像任务比较丰富多样,比较碎片化。因为每个影像任务至少会受到三个主要因素的影响,第一是如何成像,第二是照哪个人体部位,第三是看哪种病。即使是一样的成像方式(比如都是 X 光或者都是 CT),如果人体部位不一样、病不一样,所做的影像分析任务也不一样。


第二个难点是数据门槛比较高,因为用 AI 做医疗影像分析的历史比较短,整个领域还比较缺乏数据的规范和体系。第一个问题就是数据很难标注,因为医疗影像的标注需要专业知识,并且往往是 3D 数据,标注起来很慢。另外一个问题在于标注标准不够统一,虽然医疗行业有比较统一的标准,但在实践中不同的医院不同的医生有自己的一个相对标准,甚至可能同一个医生两次看同一个 case,结论可能都不一样,这就导致标注的结果往往不是完全一致和确定的。另外,数据还很难收集,医疗数据相对比较隐私,存储在医院内部,整个行业缺乏像 ImageNet 这样的大型公开数据库,一个病种能够收集到几千个数据就已经属于大数据了。当数据的广度和深度都不足的时候就容易发生比较系统性的偏差,会依赖于收集设备,哪怕同一个设备扫描参数不一样,甚至扫描技师不一样,产生的数据质量也不一样。难以标注和难以收集的问题导致算法不太容易泛化。

第三个难点在于自然图像跟医疗图像有一些区别,对于算法存在一些特有的挑战。第一点仅仅具备一些基本的常识不足以做医疗影像研究,需要学习一定的医学知识,但难度不算太大。第二点是识别任务比如说检测、分割、分类这些任务的描述跟自然图像里面很相似,而难点在于:有一些病灶很小,会涉及到小到 4 个像素的病灶检测,甚至小到 2-3 个像素的血管分割,对机器学习方法具有比较大的挑战。另外一点医疗影像数据以 3D 为主,3D 图像任务在视觉领域来说,科研算法积累比较少,同时会缺乏一些好的开源库。同时在处理 3D 数据的时候 GPU 的显存往往不足,对于算法、工程都会有更多的挑战。涉及到重建任务时,因为 3D 重建需要理解人体结构,所以跟自然图像的 3D 重建区别是比较大的。涉及到图像处理任务,因为需要了解医疗图像的成像原理,跟自然图像的原理也不一样。总体来说,相对之前做自然图像所需要的算法能力来说,医疗图像对算法研发和工程能力要求会稍微高一点。

说到这里,大家可能觉得 AI + 医疗影像的研发难度很大,其实仔细想想也不是这样。如果我们对比其它行业,比如说安防、零售、工业检测、自动驾驶,就会发现这些难点其实是普遍现象。需求碎片化,数据难标注、难收集,缺乏统一的标准,需要把算法和领域知识结合,而不是直接可用,这些难点本身就很常见,但并不是高不可攀的障碍。

另一方面,医疗影像行业有一些特别的优势。

第一个优势就是这个行业本身是相对规范的。尽管不同的医院之间可能有一些区别,但并不需要过度定制化。总体上一致的标准包括:

  • 有标准的数据格式——dicom 格式;

  • 同一个病在不同医院的诊疗流程大概一致;


这样一个相对来说比较规范化的行业环境,提供了做产品的土壤和基础,而不需要过度的定制化,因此能够以成本比较低的方式做出比较好的产品。

第二个优势是医疗行业比较传统,信息化、智能化的程度相对较低,进步空间很大,存在一些「低垂的果实」。

第三个优势是 AI + 医疗行业目前发展时间较短,大概发展了 5-6 年的时间。整个行业依然是一片蓝海,不像其他行业已经出现了一些巨头,例如安防的海康、自动驾驶的特斯拉,因此 AI + 医疗行业内还存在比较充分的机会。

最后一点,我希望分享一下,医疗行业有完整清楚的价值闭环,也就是我们能够为医生、患者、医院、国家创造什么样的价值,这一点相对清晰。只要能够完成这个闭环,产品就是可以落地的。这可能是我选择加入医疗行业最核心的原因。

从 2015 年开始深度学习计算机视觉就开始和医疗影像快速结合,这几年整个 AI 影像行业有了很快的发展,可以从几个角度对比来看。

2016 年,很多大公司、创业公司开始入场 AI + 医疗领域,也存在一些同质化的竞争,例如当时做肺结节影像的特别多,投资也非常狂热。整个医疗行业包括医院和医生刚开始接触 AI,持着将信将疑的态度开始尝试。

经过 5-6 年的迭代和耕耘,整个行业的状态发生了很大的变化。从公司的层面讲,大公司相比于创业公司竞争力不足,创业公司的体系更为完整健全,冲劲更足。创业公司里面也有很多公司被逐渐淘汰,只剩下了少量头部公司,他们之间的竞争也从同质化竞争逐渐转变为更加多样化,更有自己的特色和优势。行业内的投资更为理性,更加向头部公司靠拢。同时很多医生真正使用 AI 产品之后体会到了 AI 的优势,开始普遍接受这个新生事物,并对产品产生黏性。整个行业这几年有了很大的发展和成长。

下面我从产品本身如何去迭代和演化的角度做一个简要的介绍。从 2015 年开始,产品从复杂程度、算法和产品设计的过程来看,大概经历了四个阶段,我们称之为 1.0-4.0,从最初 2015 年的单任务单环节,过渡到多任务全流程,再过渡到多模态多场景,到现在的跨模态复合流程。从仅限影像科,到现在进入临床手术,经历了比较大的变化。


在 1.0 阶段,大家都扎堆做肺结节影像,这个任务相对来说比较简单,在 CT 图像上进行结节的检测、分割以及良恶性的分类,只需要有一些数据和基本的深度学习、图像的算法经验就可以做起来,门槛低,同质化竞争严重。同时产品的市场竞争力和盈利能力也是比较低的。


到了 2018、2019 年,AI 影像的产品开始从单任务、单环节拓展到多任务、全流程的场景,我们称之为 2.0 阶段。其中一个比较有代表性的产品就是数坤科技做的冠脉和头颈 CTA,涉及到多个算法任务串联起来的流程,只有这个流程全部自动化之后,才可以为医生提供比较大的价值,解决医疗行业的痛点。如图所示,传统流程可能需要花 60 分钟才能完成这些步骤,而在 AI 流程下,很多环节被自动化的算法取代,因此只需花费 10 分钟,效率大大提高,这就是 2.0 产品带给医疗场景的价值。


到了 3.0 阶段,我们就不仅需要处理单一的场景单一的流程,而是过渡到一个更加复杂的诊断和治疗任务。以脑卒中为例,我们要判断病人是不是脑缺血,第一步首先要做 CT 的平扫,通过 ASPECT 评分大概查看大脑内部有哪个区域可能缺血,当我们知道确实有一些区域有缺血症状之后。下一步需要找到哪一根血管发生堵塞导致缺血,因此要做一个脑部 CTA 来寻找原因。定位原因之后,下一步要确定治疗方案,是打开血管进行手术,还是做保守治疗,因此第三步是做一个更加复杂的脑部 CTP,在一个时间序列内关注脑部所有区域缺血的严重程度,最右边的图中绿色区域就表示比较健康的供血正常区域,红色就表示缺血区域。如果缺血的程度不是很严重,就有可能采取一个比较激进的治疗方案,比如做手术取栓。如果缺血比较严重,那么做手术就可能有危险,因此会采取一个相对保守的治疗方案。可见,对于这样一个比较复杂的病种需要做三个不同阶段的扫描,多模态数据分析和判断过程是串联起来的,每一个模块都有各自的作用。


到了 4.0 阶段,除了需要处理多模态数据之外,多模态数据之间的关系也不再是串联和各司其职的简单关系,而是它们之间互相有关联、互为因果。以核磁肝脏诊疗为例,每一个 case 会拍多达十几个序列,每一个序列是不同核磁的征象,AI 产品需要在不同的序列上找到病灶征象,并做出综合的判断和分析,不同序列之间的数据是要统合考虑的。医生做出判断和分析的整个过程是比较复杂的,因此必须要复杂程度 4.0 的产品才可以很好地实现自动化。这是我简要介绍了一下从 2015 年开始到现在的发展历程。


下面我以一个比较有代表性的 2.0 产品为例作详细的介绍,希望能让大家理解如何做出一个有价值的 AI 影像产品。这个产品聚焦于心血管或脑血管疾病的诊断。选择这两种疾病的原因是心脑血管疾病是非常高发,并且后果严重的重要疾病。在中国这两种病的死亡率也很高,基层医院普遍缺乏诊疗能力,对设备和医生的能力要求都很高,只有少数大医院才能对血管做很好的疾病处理。提升大医院、小医院对心脑血管疾病的处理能力,对整个医疗现状很重要。


首先简单介绍一下什么叫做血管疾病。血管疾病大体分为两类,一种是血管堵了,另外一种是血管破了(包括内壁、外壁破了),这会导致各种各样的问题。我重点讲一下针对冠心病(心脏血管堵塞),AI 如何帮助医生解决问题。

冠心病的诊断是一个什么样的过程?首先需要做一个冠脉 CTA,得到一个比较清晰的血管影像,医生第一步需要在三维图像里分割出血管,血管用红色区域来表示,分割过程是医生在一个传统工作站上通过半手工加半自动图像处理算法完成的,一根一根血管去分割就可以重构出整个心血管的树状结构。基于这个树状结构医生可以根据专业经验判断出要查看哪一根血管,看其中有无病灶或者钙化,导致血管堵塞或血管狭窄。

上图右上角是一张 CPR 图的动画。通过 CPR 这种可视化方法,医生可以比较方便地针对某一根血管的某一个位置,找出病灶及其严重程度。除了 CPR,医生还会借助一些其他视角的图,例如短轴图、拉直图。传统方法中,医生结合上述三种三维数据可视化方法,用肉眼观察病灶的位置、性质,以及严重程度来做出判断。


传统方法中,医生的工作流程是在工作站上主要基于手工,加上半自动的算法辅助,依靠肉眼观察数据做出判断。这种方式首先工作量很大,处理一个 case 可能需要几十分钟;另外重建血管的精度有限,容易发生一些断裂,血管形态错误,命名错误,肉眼诊断精度不稳定等问题,并且医生写报告的手写格式也缺乏统一的标准。

让 AI 算法帮助医生更加自动化地、高效地、精准地完成这个流程,其中有几个难点。第一个难点是血管的重建,不同部位的血管尺度变化较大,粗的位置可以达到两厘米,细的位置可能只有两毫米。第二个难点是对于比较细的地方,我们需要比较精细的分割才能准确判断血管是不是有堵塞或狭窄。这种一到两毫米的血管反映到 CT 的像素上只有两到三个像素,深度学习算法需要精细到像素级别,才能对病灶的性质做出判断。第三个难点是整个血管重建的任务不是标准的三维几何重建或者基于深度学习的图像任务,非常依赖于人体的解剖知识,需要很多细节。此外,诊断标准本身不是特别的统一, 对 AI 算法存在一些挑战。


下面我简单描述一下我们的做法,如图是基于神经网络对血管做分割、对病灶做检测和分类的网络结构。下图上面一排是对病灶的软斑和钙化进行分类,下面是网络模型在一个拉直图上对血管做清晰的分割,分割的结果是一个红色的 mask,用来判断血管狭窄程度。

整个流程的详细步骤是:第一步做预处理,然后提取冠脉树,其中会有很多断裂和各种各样的瑕疵,需要基于解剖学知识的算法来做血管的修复和连接;另外,还需要给血管进行命名,重建出冠脉树,并在不同的血管上做病灶检测以及分类和识别,每一个环节都包含很多细节。


可见,2.0 产品相对于 1.0 产品有很大的区别,它由多个流程串联而成,每一步之间都有一些关系和影响。

如图是一个重建出来的三维血管图示,左边是血管的渲染效果,右边增加了心肌之后整个心脏的重建效果。


基于这样的三维重建,我们可以把 CPR 图,短轴图、拉直图三种不同的可视化方法以一个统一的界面展现在产品中,方便医生以更高的效率选择观察什么样的血管,观察什么位置以及分割的结果,结合医生自己的经验对病灶的情况做出判断。这种方式既有算法自动输出的结果,同时也允许医生基于自己的理解对于算法的结果做一些修改,这是一个 AI 和医生协同工作的过程。


最后一步基于算法的结果或者基于医生的修改就可以自动化地生成格式很标准的、符合医疗行业要求规范的报告,也就完成了从 CT 检查到血管重建到做诊断写报告的整个过程。这种方式对于整个冠脉 CTA 诊断的降本增效非常明显,传统方法可能需要一个小时,现在用了 AI 之后中间很多环节被自动化处理,可能只需要 10 分钟。我们统计了一家医院使用我们的 AI 产品前后的患者等待时间,之前是平均需要 2 天,之后平均需要 1 天,大幅缩短了患者的等待时间,提高了就医体验。


这种方法的诊断精度和质量跟比较资深的医生差不多,比那些经验较少的年轻医生还要更准确一些。在人机协同方面,我们的算法产品提供了一些诊断结果,允许医生做出 double check,这种方法的效果一般来说是优于医生自己用肉眼做判断,因此诊断质量也有所提升。


另一方面,医院的成本降低、收入增加。之前医院可能需要 10 台或者 20 台工作站,并且每台都比较贵,可能需要 20-30 万,现在可以替换为一台中央服务器,以私有云的方式在医院部署起来,运行我们的 AI 产品,使用算法的服务,每个医生用一台普通电脑只需要几千块钱的成本连到服务器,就可以完成跟之前一样的事情,医生的工作时间减少,工作质量上升,医院的收入增加。右边的图是一个对比,即不同类型三甲医院、基层医院在使用冠脉 CTA 产品前后收入的变化,收入有显著的上升,因为诊断的病人增多了。


这个产品是一个结合很多自动化算法环节的典型例子,完成了全流程的自动化,从输入数据到最后得到报告,从 2018 年推出之后,已经在超过 1600 家医院完成部署,得到了很多医生和领导的好评。这个产品引领整个 AI 医疗影像行业从之前大家都去做肺结节的同质化竞争时代,进入到了一个能创造很高价值的 2.0 时代。

简单总结一下整个行业目前的现状、挑战以及未来的发展方向。目前,行业条件逐渐成熟和完备,整个行业处于快速上升阶段。

从公司层面来说,从之前大量公司创业到今天少数公司已经脱颖而出,他们完成了从 0 到 1 的验证过程,开始在申请上市,初步获得了资本的认可。

从产品来说,产品本身的价值和商业模式在大量的医院和医生使用过程中已经得到了初步验证,用户的习惯逐步养成,开始有稳定增长的营收。随着 AI 产品在越来越多的医院和医生中得到认可,需求也随之增多。与此同时,AI 影像产品的类型、形态,涉及病种,也在快速地发展和变化,从 1.0 到 4.0 以及更复杂的形态正在快速演化。国家对于医疗行业也给予了大力支持,包括开始给这些 AI 医疗公司颁发三类证,这是一个门槛很高的准入资质,并进行了一些医疗服务收费制度的改革,比如之前我们把一个 AI 影像产品一次性卖给医院可能价格几十万、上百万,这样的方式不太能持续,可能会演化成每使用这个算法为一个病人做一次诊断,就花费一点点成本,从一次性买断转变成按例收费,国家也开始尝试推动这种收费制度的改革。

从整体挑战和发展趋势来说,技术方面的现状是大家还是比较简单地把计算机视觉领域的技术(包括检测、分割等)比较直接地用到了医疗影像的数据任务上,还没有跟先进的机器学习方法做出更好的融合。

我们需要针对这种数据少、数据难收集的问题做更多的小样本学习迁移学习联邦学习。现在在计算机视觉图像领域非常火的自监督学习,利用大量数据做预训练,能够有效地提升预训练模型在不同下游任务上的泛化性能,这个范式在医疗影像领域同样适用,可能是未来的趋势。

由于医疗专业知识本身比较精细,需要跟算法做深度的融合。目前还没有实现这一点,我们需要对人体结构知识、医疗专业知识做一个很好的建模,并跟目前标准的,基于自然图像的分割、检测算法在算法层面完成融合。

医疗本身的结论是需要可解释性的,未来在这方面也会有很多与医疗任务结合的先进 AI 方法,例如现在已经有研究把因果推断和医疗结合起来。

最后,软硬一体化也是未来的一个发展方向,软硬件将更好地融合,充分发挥硬件的能力,提升产品的整体效率。

从产品角度讲,AI + 医疗影像的产品需要从现在的单部位单病种扩充为多部位多病种。未来每次拍一个片子将不只看一种病,而是诊断出可能涉及到的多种病症,大幅提升医疗效率,提高健康服务水平。

产品的设计需要跟医生多年以来形成的工作习惯进行深度的适配,在符合医生习惯的前提下,把 AI 产品的使用方式完美融入到医生的临床工作流程中。

一个产品除了做诊断以外,我们还希望未来它能够全流程覆盖整个诊疗的闭环,从诊前到诊断、治疗、手术、术后的随访,做到全方位的覆盖。现在很多 AI 产品依然是各自为战的零散工具,给医院和医生的使用体验是不太方便的,需要有一个平台化的解决方案,来统一入口和界面,把一个公司甚至不同公司的 AI 产品能够无缝融合起来,提升整个产品的使用体验。

从行业角度、监管角度、临床准入的角度看,我们也有很多需要做的事情,需要在多个因素共同成熟和配合下才能让 AI + 医疗影像的产品进一步发展和成熟。

虽然这个分享主要是关于影像的分析和诊断,但实际上整个医疗健康产业与技术融合是一个很大的愿景,也是行业的共识。我们要让 AI 能够参与临床的决策和手术规划,再进一步从医院内部走向外部,在日常生活、家庭体检等各种各样的场景中提供个性化的、无处不在的精准服务。这个过程可能会比较漫长,我们目前只处于这条道路的左下角,即 AI 看懂和读懂片子的阶段,但这个过程已经开始了,并且在不断发展。


最后,我简单介绍一下数坤科技公司的使命和愿景。我们不仅做医疗影像的分析,我们也希望能够成长为医疗健康智能化 AI 平台。

产业数坤科技医学影像
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

旷视科技机构

旷视成立于2011年,是全球领先的人工智能产品和解决方案公司。深度学习是旷视的核心竞争力,我们打造出自研的AI生产力平台Brain++并开源其核心——深度学习框架“天元”,实现了算法的高效开发与部署。在持续引领技术进步的同时,我们推动AI产业的商业化落地,聚焦个人物联网、城市物联网、供应链物联网三大赛道,为个人用户带来更出色的美学体验与安全保障、让城市空间更有序、并帮助企业实现工业、仓储数字化升级。我们提供包括算法、软件和硬件产品在内的全栈式、一体化解决方案。

https://www.megvii.com
数据可视化技术

数据可视化被许多学科视为现代视觉传达的等价物。为了清晰有效地传递信息,数据可视化使用统计图形、图表、信息图和其他工具。数字数据可以使用点、线或条编码,以视觉传达定量消息。有效的可视化帮助用户对数据进行分析和推理。它使复杂的数据更容易理解和使用。用户可以根据特定的分析任务进行数据可视化,例如进行比较或理解因果关系,并且图形的设计原则(即,显示比较或显示因果关系)来进行可视化。表通常用于用户查找特定测量的地方,而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
三维重建技术

三维重建是指利用二维投影或影像恢复物体三维信息(形状等)的数学过程和计算机技术。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

因果推断技术

因果推断是基于效应发生的条件得出关于因果关系的结论的过程。因果推理和关联推理之间的主要区别在于,前者分析了原因发生变化时效应变量的反应。事情发生的科学被称为原因学。Causal Inference是Causal reasoning一个例子。

小样本学习技术

人类非常擅长通过极少量的样本识别一个新物体,比如小孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”。在人类的快速学习能力的启发下,研究人员希望机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习,这就是 Few-shot Learning 要解决的问题。

推荐文章
暂无评论
暂无评论~