赵泓维作者

肠癌筛查突破!首次AI相关临床随机对照试验成果在《GUT》发布

2月28日,由四川省医院王璞医生、刘晓岗主任、哈佛医学院Tyler Berzin教授等合著的论文(见下图),发布于《GUT》杂志,这一杂志在2018年影响因子为17.016。

本篇文章率先使用了随机对照实验的方式测定AI在结肠镜检查中对于息肉、腺瘤的检查率,目的在于探索AI对于腺瘤检出率(ADR)的提升结果。

ADR被称为结肠镜检查的黄金指标,曾有研究指出,ADR每增高1%,大肠间期癌的风险降低3%,致命性大肠间期癌风险降低5%。

相关指南对50岁以上无症状人群肠镜筛查时的ADR提出了要求,即男性应不低于30%,女性不低于20%。如今,通过增加ADR来降低腺瘤漏诊率已成为许多关注成像技术和医疗器械设计的研究的目标。 

人工智能最近被引入用于息肉和腺瘤检测以及分类,这项技术已在初步研究中显示出令人振奋的结果,而本次论文更是从真实世界的研究出发给出有力的支撑证据。 

这是全球首次随机对照临床试验研究人工智能在肠癌辅助诊断中发挥的作用成果在期刊中发表,过去发布的肠癌AI相关研究成果均以回顾性研究或观察性研究为主。

相比于回顾性研究或观察性研究,本次实验是前瞻性随机对照研究,2017年9月-2018年2月随机纳入患者,同时控制了诸多可能影响实验结果的变量,该实验可清晰的对单一因素进行比较,以寻求人工智能技术对ADR的影响。 

论文第一作者王璞告诉动脉网记者:“由于该实验的严谨性和创新性,这是第一个被国际权威医学期刊认可及发表的研究AI辅助诊断是否能提高核心临床指标的前瞻性随机对照试验。随机对照试验是最为严谨的医学实验方法之一,也是最常用的用于检验新药品的临床效果的主要手段。该项实验最大的意义在于,首次证明了AI辅助诊断设备的使用,确实可以提高核心临床指标。目前大多数运用AI技术的研究还停留在用回顾性的数据验证AI技术的准确性。这是远远不够的。临床医学真正期待的AI技术,是必须能够在大规模前瞻性随机临床实验中显著提高核心临床指标的设备。” 

基于人工智能的结肠镜检查有望大幅提高ADR

本次研究以高性能实时自动息肉检测系统是否可以在真实临床环境中提高息肉和腺瘤检出率为目的展开实验,具体将探索自动息肉检测系统作为内镜医生助手时对医生ADR的的影响。 

整个研究全程均在中国四川省人民医院内窥镜检查中心进行。研究组与对照组均使用高清内窥镜镜(Olympus CF-290和CF-260)和高清监视器对患者结肠进行检查。在受试者筛选过程中,实验人员排除了患有炎症性肠病(IBD)、遗传的结直肠癌(CRC),拥有结直肠手术史和活检禁忌症的患者。 

在结肠镜检查之前,连续就诊的1130位患者按照预先生成的随机序列纳入两组。对照组将进行常规结肠镜检查,而研究组(计算机辅助检测(CADe)组)将采用实时自动息肉检测系统用于辅助内部检测。检测系统连接到内窥镜处理器,同步捕获视频流。 

研究组中的内窥镜医生主要关注主监视器,并通过声音警报提示检查系统检测到的每个息肉位置,整个过程没有护士,受训人员或工作人员助理辅助决策。 

在对照组中,工作人员助手记录了所使用的结肠镜类型(CF-H290 / CF-Q260)、进镜时间、退镜时间和波士顿肠道准备量表(BBPS)。当检测到息肉时,护士协助进行组织学活检,并记录位置、大小和形态特征。 

而在CADe组中,实验以外的工作人员将额外记录系统漏识别和误识别的息肉。漏识别的息肉被定义为由内窥镜医师确认但未被系统检测到的息肉;误识别被定义系统判定为病变,而内窥镜医师经观察后否认。 

实时自动息肉检测系统辅助决策

最终结果显示:相比于对照组,研究组腺瘤检出率数量提升72%,息肉检出数量提升89%。具体而言,CADe组的ADR、PDR及结肠镜检查的息肉和腺瘤平均数显著增加,从形态上看,整体腺瘤检测量的增加主要归结于小腺瘤的增加。

由CADe系统检测到的大多数小腺瘤较小,这支持了传统观点,即在内窥镜视野内医生更容易遗漏小息肉而非更大或更突出的息肉。尽管与较大的腺瘤相比,小腺瘤的恶性风险较小,但总体腺瘤检出率的增加最终可能会降低CRC漏诊风险。

结果还显示,小型增生性息肉的检出率有了显着增加,这一类息肉常常导致医生采取不必要的息肉切除术,增加了医生的工作量。未来,CADe系统可与CADx系统结合使用,以支持检测、诊断和忽略策略,避免过多的工作量。 

从以上数据可以看到,在P value小于0.001,置信区间合理的情况下,人工智能辅助下的PDR从0.291提升至0.4502,提升了61%;ADR从0.2034提升至0.2912,提升了95%。

因此,相比与人为识别病灶,CADe系统的高性能、稳定性和持续性能够促进临床诊断水平极大提高,而自动息肉检测系统与不同经验水平的医务人员协助之间的直接比较也值得进一步研究。 

这个实验做了哪些细节准备

1、深度学习采用系统

本次实验采用的实时自动息肉检测系统由上海忤合医疗科技有限公司(Wision AI)开发。

在研究小组的前期研究发表在Nature生物医学工程2018年10月刊上,对于回顾性数据库,算法的每帧敏感度为94.38%,每帧特异度为95.92%,ROC曲线下面积为0.984。

通过部署多线程处理系统,系统在实时视频分析中处理速度为25帧/秒,延迟为76.80±5.60 ms。这一延迟对于内窥镜医师而言可以忽略。系统监视器与原始内窥镜监视器相邻并平行固定。

王璞表示:“在算法开发过程中,我们对息肉的表面特征做出了特殊的考虑,而不仅是只依赖于息肉的完整形态。论文中的算法与之前这个领域十年来的研究相比有明显特点:这个算法主要依赖病灶的局部特征,所以哪怕息肉只是部分出现在内窥镜的边缘角落,或者只是从肠皱壁后面漏出一点点,或者被肠液或者粪便覆盖只漏出一个部分,这个算法也能够有效预警。而这些恰恰就是最容易被医生漏掉的息肉。”

2、实验人员、样本选择

8名消化内科医生参与了这项研究,包括两名高级内镜医师(20000次以上结肠镜检查),两名中级内镜医师(3000至10000次以上结肠镜检查)和四名初级内镜医师(100至500次以上结肠镜检查)。

本次实验共给予了1130名患者入组资格。在这些患者中,排除了部分符合排除标准大的患者,总计72名(常规组31名,CADe组41名)。最终有1058名符合条件的患者参与了实验,其中536名患者随机分入对照组,522名患者随机分入CADe组。

3、统计分析

论文中的后续统计指出,整个实验过程共检测到767个息肉。腺瘤有422例(55.02%),无柄锯齿状腺瘤有31例(4.04%)。总体而言,对照组中有269个息肉(35.07%),CADe组中有498个(64.93%)。 

对照组和CADe组中每次结肠镜检查检测到的息肉平均数分别为0.51和0.97(p <0.001),对照组和CADe组的PDR分别为0.29和0.45(OR = 1.995,95%CI,1.532-2.544,p <0.001)。在基线临床和人口统计学变量方面,两组之间没有统计学上的显着差异。因此,不考虑潜在的混杂效应。

本次实验共检测到422个腺瘤。对照组和CADe组每次结肠镜检查检测到的腺瘤平均数分别为0.31和0.53(p <0.001)。对照组和CADe组的ADR分别为0.20和0.29(OR = 1.61,95%CI 1.213至2.135,p <0.001)

与对照组相比,CADe组检测到的息肉数量显著高于考虑非带蒂息肉。当考虑非带蒂息肉,小于0.5cm的息肉和结肠的所有节段中的息肉时,除了盲肠和升结肠外,CADe组中检测到的腺瘤数量也显著增加。

优良肠道准备的结果(BBPS≥7):在优秀的肠道准备情况下,CADe组的ADR显示出比常规组高6%的趋势。然而,由于亚组分析的样本量不足,它未能显示出统计学上的显着差异。

在CADe组中,其他结果,包括检测到的腺瘤的平均数,检测到的息肉的平均数和PDR均显着增加。 

自动息肉检测系统误报:CADe组共有39个误报,每个结肠镜检查平均误报0.075。在研究组中检测到的所有息肉中,没有一个被CADe系统遗漏。

本次实验的局限性

论文在结尾部分谈到了此次研究的局限性。首先,由于无法使内窥镜医生和病人采用双盲设计,系统的确切贡献可能难以评估。医生的“竞争精神”及“被观察时的行为”可能影响实验组的ADR结果。这种机制可能解释了CADe组中潜在的混淆因素,即内镜医师可能在已知观察的设置中更加专注。

在这项研究中,研究人员从每个相应的检测时间中减去活组织检查程序的时间,获得的结果相似但不相关(6.07分钟vs 6.18分钟,p = 0.15),这一定程度上能反应两组相似的观察注意力。

在未来,研究人员可以设计双盲研究来探索该系统在增加的ADR中的确切贡献。这样的研究还可以帮助确定内窥镜检查者和系统是否同时检测到息肉,或者内窥镜检查员最初是否错过了息肉,这个问题目前的研究并非旨在解决。

第二个限制是缺乏外部有效性。本研究以中国的患者群体选择样本,基线腺瘤和息肉检出率与西方国家报道相比较低。中西方人群的遗传,饮食,生活方式和习惯差异等因素或许是这一问题的大难。所以,本研究的结果可能不适用于基线ADR较高的世界范围,未来仍需要进一步研究以研究该系统在这些领域的适应性和有效性。 

第三,尽管假阳性率低,但系统的设计者出乎意料地出现了一些假阳性,并且由于检测到药物胶囊,局部出血部位或未消化的食物残渣而发生,导致在手术过程中可能分散注意力。这可以通过向当前系统添加足够的训练数据来纠正。

第四,这项研究没有控制参与内镜医师的疲劳程度,这可能是影响ADR的独立因素,需要进一步的研究来研究这种CADe系统对医生的不同疲劳水平的有效性。

第五,由于初级内镜医师对结肠镜检查的样本量不足,需要进一步研究以显示该CADe系统在不同培训水平中的作用和有效性。

最后,该研究仅使用奥林巴斯结肠镜检查设备进行。因此,还应探索该系统对其他公司制造设备的适应性。

研究结果对结肠检测的后续影响

论文指出,在过去的十年中,高性能和高稳定性的自动结肠息肉检测一直是一个有吸引力的研究课题,其目的是增加ADR。然而,目前的技术尚未产生足够的诊断性能,以便考虑用于临床。为了将自动息肉检测系统考虑用于实际临床应用,它必须具有非常高的敏感度和特异性,足够的实时标准处理时间和屏幕警报系统。 

特异性不足会产生许多误报。相应,敏感度不足不仅不会增加PDR/ADR,还会增加医生负担。

此外,为了使实时检测有效,分析时间必须快,即AI诊断必须避免明显的延迟。由于这些先决条件,目前关于自动息肉检测的大多数研究都是小规模的非临床研究,尽管随着对该领域的兴趣迅速增加,并且随着深度学习的出现,预计未来几年将取得巨大进展。 

如今,人工智能在消化内镜领域的应用,目前主要分为两大方向,一是辅助诊断CADx,通过设备的光学能力,例如几百倍的放大内镜,窄带光NBI,荧光技术,加之深度学习判断病灶的性质,以求代替病理诊断。

然而这种依赖病灶表面的细微特征来预测病理结构的方式还有待考证。虽然一些传统的深度学习模型在这个领域实现了相对高的预测性能,但其与病理结构并不能100%对应,加之各国现行的临床规范有较大改变,所以并未获得大规模应用。

另一个大方向是辅助检测CADe,即AI只提供视野中可见病灶的位置,具体的诊断还需要临床医生当场决断。

这个类型的应用主要解决人类肉眼的局限性,在疲劳、经验不足、注意力分散的情况下,AI检测为内镜医生提供有效辅助。由于对临床规范和实践并无本质影响,这类型的应用只要达到了相应的技术指标将会比较容易被广泛接受。

这项研究属于后者,其临床意义十分显著:在结肠镜检查中,临床医生和设备厂商多年以来的共同目标就是提升ADR(腺瘤检出率),即筛查病人中检出腺瘤的比例。这项研究已经证明了计算机可以作为第二观察者在结肠镜检查中实时为临床医生提示病灶。

此前有临床试验表明配有护士或培训生等非专业人士作为第二观察者的结肠镜检查对ADR的提升达30%,而已经达到专家水准的AI作为第二观察者对ADR的提升将非常值得期待。

当然,最理想的状态是CADe与CADx的结合,即“检测+分析”,以提高ADR/PDR,以及医生的诊断效率。在国内医疗资源稀缺的大背景下,人工智能也许是解决当前矛盾的唯一途径。

本片论文不是结束,而是一个新的开始。在未来,王璞团队将继续进行双盲实验、多组研究……用数据论证医生和AI怎样的合作才能发挥最大的效用,并让敏感性、特异性逐渐向“1”逼近,实现实时自动息肉检测系统从“有效”到“飞跃”的突破。

最后引用王璞在采访中的发言:“就消化科来看,人工智能技术的应用可以提高临床服务水平,降低医疗服务成本及风险。好的AI系统需要在真实的临床环境中验证,现在很多的人机大赛是远远不够的,我认为严谨的前瞻性随机临床试验是验证人工智能技术的最佳方式。在消化内镜领域,除了自动检测息肉,还有息肉窄带光病理诊断、以及食道镜窄带光癌前病变检测与分类等。每项技术都有提高现有临床水平的潜力,关键在于能否在临床使用中切实提高核心临床指标。这正是研究者们所需要的并为之不懈努力的方向。

*文中图片由受访者提供。

动脉网
动脉网

专注医疗产业服务平台

产业深度学习智慧医疗
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

假阳性技术

假阳性是指模型因为种种原因把不应该分类成特定情况的人/物错误地分类到了该分类的情况。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

置信区间技术

在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。

ROC曲线下面积技术

在比较不同的分类模型时,可以将每个模型的ROC曲线都画出来,比较曲线下面积做为模型优劣的指标。若随机抽取一个阳性样本和一个阴性样本,分类器正确判断阳性样本的值高于阴性样本之机率=AUC。简单说:AUC是一种会考虑所有可能分类阈值的评估指标,值越大的分类器,正确率越高。

暂无评论
暂无评论~