健言来源 崔慧莹记者陈梦璇实习生何海宁责任编辑

人机大战:AI能帮到医生吗?

人机大战现场,“TB小新”用23秒完成了20张胸片的阅判,比人类专家快8倍。 南方周末记者崔慧莹摄

本文由机器之心经授权转载自健言(ID:healthytalks ),未经授权禁止二次转载。

“TB小新”用23秒完成了20张胸片的阅判,比人类专家快8倍——就像飞人博尔特与短腿儿小孩的赛跑。

“在喀什的一家医院,有上百万张胸片要在年底前看完。而影像科大夫就几个人,每天加班看得眼睛都花了。”

他们认为,人工智能的发展目标,一定不是代替人,而是帮助人。但每一次尝试,要获得医生、患者乃至社会各界的信任,需要时间。

见证了行业顶尖大脑与人工智能(AI)的数次大战后,人类已经习惯失败了。而这一回,他们打成了平手。

2018年11月15日,在全国结核病院长论坛上,人工智能结核影像辅助诊断系统“TB小新”用23秒完成了20张胸片的阅判,比人类专家快8倍——就像飞人博尔特与短腿儿小孩的赛跑。

但在北京结核病诊疗技术创新联盟常务副理事长李亮眼里,初次亮相的“TB小新”才是“孩子”。它只学习了一个月,在识别胸部影像诊断肺结核(TB)时,却能有87%的准确率。成绩不敌现场3位影像科专家合力达成的93%,但已高出专科医生的平均水平,足够令人惊喜。

大会用“平分秋色”来给这场人机大战盖棺定论。但结果并不重要,真正等待“TB小新”去开拓的星辰大海,是新疆体检普查结核病的数百万张胸片,以及通过人工智能技术,辅助人类提高疾病检出率,节约医疗资源的愿景。

而随之而来的,是“医生会被机器人抢了饭碗”的慌张,亦是“AI能否胜任医疗任务”的忧虑。被多位采访对象提到的观点是——“医生很可能干不过机器”,人工智能在医疗领域掀起的风暴,远比想象中更加迅猛。

沈阳:人机大战,平分秋色

专家准确率高于AI,但AI速度完胜专家。南方周末记者崔慧莹摄

“TB小新”和三位医学影像专家的比赛任务是——20张胸片,分出“结核、非结核、正常”三个类别,用时少、正确率高的获胜。

这并非中国医疗界第一场人机大战。在2017年,亦有AI和84名医生较量甲状腺超声片的看片竞赛。而在近几年,AI已闯入医疗诸多领域,这也成为资本市场的风口。

如此背景之下,“TB小新”的出场显得意味深长。

比赛从下午5:11正式开始,20张胸部影像依次滑过屏幕,墨色底片上嶙峋清晰的,是人类的脊椎和细条纹肋骨。参赛专家之一、河北省胸科医院放射科主任王新举告诉南方周末记者:“因为有比赛的压力,我们也会努力争取时间。”

但速度对比依然悬殊。第5秒时,3位专家还在审度第一张胸片,“TB小新”已经开始了第4张;第23秒,会场爆发出一阵惊呼,“TB小新”已完成答题,三位专家仅完成全部问题的15%。

“没想到它这么快。”广州市胸科医院影像科主任方伟军在比赛后笑道,“对结果还比较满意,至少我们正确率是比它高的,不至于像阿尔法狗一样,一点机会都没给(人类)。”

他的成绩是三分多,正确率100%。在人类军团领跑的好成绩,让他谈起这场人机大战时一脸云淡风轻,但不想“露怯”的顾虑发生在很多医生身上。

“最初以为大家报名会特别积极,没想到最后没几个专家愿意上台参赛。”李亮告诉南方周末记者。更多人选择在台下通过手机参加比赛。最终现场正确率达70%以上的9人,上台接受了奖励。“全国平均水平,恐怕还不如这个数。”

等待准确率统计结果的十几分钟里,李亮就像看着自家孩子登台表演的家长一样,攥住的拳头透出一丝紧张。作为“人机大战”环节的主持人,他先跑到左侧与媒体记者寒暄,又跑到专家评审桌前询问意见,最后把宣布比赛结果的任务,交到了他的伙伴——陈步东副教授,更专业的结核病影像专家手上。

李亮是圈子里“挑头”的人。他今年49岁,正是年富力强的时候。他说,“TB小新”研发目前并无经费支撑。而愿意合作的,是天启慧眼(北京)信息技术有限公司,CEO曹捷告诉南方周末记者:“天启有自主原创人工智能技术是这次合作的前提,也是基础。我们更看重它的战略意义和社会价值,而不是说在项目初期就要从合作伙伴那里获得多少收益。”

来自创新联盟的陈步东、侯代伦等七八位国内结核病影像顶级专家,对2000张基于真实病例,有明确诊断结果的胸片,用红色框逐一细致标注病灶;曹捷则带领整个近20人的团队,基于这些胸片不断对“TB小新”的数据模型进行迭代优化。历时五个多月,“TB小新”终于登台献艺。

新疆:两千公里外的现实需求

新疆肺结核病防治形势比较严峻。南方周末记者崔慧莹摄

这场人机大战背后的现实意义,远在距离北京两千多公里之外的新疆乌鲁木齐。

“今年新疆维吾尔自治区政府大力筛查结核,在自治区内逐步对所有人进行胸片体检,这会产生四百多万张胸片,刚刚大显身手的‘TB小新’将率先走进新疆,帮助我们完成异常胸片的筛查工作。”2018年11月16日,大会第二天,新疆维吾尔自治区胸科医院院长马金山在分享时说。

新疆是全国结核病高发省区之一。2010年第五次结核病流调结果显示:新疆地区结核病患病率为1526/10万,以喀什、和田、克州、阿克苏等南疆地区为主,涵盖约1000万人口。而根据世界卫生组织最新发布的数据,估算中国2017年的结核病发病率是63/10万人。

“今年我们胸科医院牵头,在全疆做了普查,前三季度我们的发病率是215.3/10万。总的发病患者数是51467,比去年的40463增长了27.7%,面临的形势很严峻。”马金山说,“我们下基层时,在南疆地区看到最多的病,被称为三结(节)——肺结核、结石、关节炎。”

李亮2017年也到新疆调研,他在乌什县的一个村子里看到,“一千五百多人的村庄,有20个结核病患者,比例非常高了。”

阿克苏市卫生计生委副主任唐爱民曾在接受采访时说,当地大多数肺结核患者通常采取居家治疗的方式,但由于新疆冬季漫长等特殊气候环境,人们很少保持开窗通风的习惯,这无疑给通过飞沫传播的结核病提供了温床,不少人因此受到感染。

“我们自治区政府也做了很多工作,今年有领导在全疆14个地州调研时,发了62号文,核心工作就一件事——要解决肺结核的防控问题。”马金山强调。

这里提到的62号文,是指2018年6月,新疆发布《关于改进完善全区新时期医疗卫生有关工作的实施意见》,同时针对南疆结核病高发情况,启动了南疆4地州结核病防治专项行动。

专项行动要求结合全民健康体检,开展15周岁以上人群肺结核普查普治工作,对患有结核病的患者分类建档立卡,对活动性肺结核患者进行登记并录入专病信息系统,实施传染期肺结核病患者集中隔离治疗。

“以前新疆的全民体检,忽视了胸片这一项,现在拍片子完成了40%,阅片完成了其中的百分之十几,还有很多工作没有做。”马金山说。

“在喀什的一家医院,有上百万张胸片要在年底前看完。而影像科大夫就几个人,每天加班看得眼睛都花了。”一位不久前曾到当地医院采访的人民政协报记者,在会场交流时告诉南方周末记者。

据她所知,有全国政协委员、研究人工智能的企业、中国志愿医生等各路人马到当地,“都在想办法帮忙解救影像科医生”。

急需救命稻草的,不只是医生,还有马金山这样更有能力把“TB小新”等新技术带回新疆的院长。

会上,他要求现场工作人员把大屏幕定格在一张“从万里高空”俯拍下来的照片上,他指着山峰处最高点说,“李亮院长在这儿”;又走了两步俯下身子指着山脉通向平原的末端说,“新疆在这儿”。层层山脊形成的灰褐色脉络,被他比喻成互联网诊疗系统的互联互通。

“23秒看完20张片子,400万张片子多长时间看完?一天就看完了。”马金山半开玩笑,显得万分期待。

“医生才是核心”

会看胸片的“TB小新”并不是赢在起跑线的孩子。对结核病防控来说,胸部CT影像和分子诊断技术都更加先进,但存在价格贵、难在基层广泛落地等现实困难。

曹捷说,胸片就像结核病筛查的“守门员”,是在国内的基层、偏远地区应用最广泛的一种检查手段,“基层医生资源稀缺,结核检出率不高,而这正是‘TB小新’赋能基层结核防控的真正价值。”

它并不完美,也会出错。在人机大战中,“TB小新”将两张不是结核病的胸片影像,误判成了结核。“敏感度太高了。”有参赛专家告诉南方周末记者。而对于一些相对罕见,没“学习”过的复杂影像,“TB小新”也有可能检不出。

李亮说,“现阶段宁肯让它多诊出一些,也不要漏诊。随着样本量扩大,机器还会不断学习,越来越准。”

根据2018年9月,国家卫健委发布的《互联网诊疗管理办法(试行)》中规定,不得对首诊患者开展互联网诊疗活动。但在类似新疆地区推行的全面体检,对大量胸片进行辅助性的初次筛查,则大有用武之地。有相关领导也对李亮表示了支持。

在影像诊断能力不足的基层地区,送去几个医生救急解决不了根本问题,培养一个优秀的影像科医生也需要漫长的积累时间。

“首先筛出完全正常的胸片,这是节约人力,至少有一半以上的胸片是完全正常的;其次在异常的胸片中,再把高度怀疑结核的筛出来,这是巨大的胜利。很多基层医院的医生,都没见过肺结核病例,诊断能力不足。”李亮说。

最需要医生关注的,是那些显示异常的胸片。“它到底是不是结核病?乡镇诊断不了的,再把片子传到县里、自治区的胸科医院,最后实在看不了,再送到北京来看。这是体现分级诊疗的模式。”

对于“TB小新”的应用场景,李亮还有更广阔的设想:“拍一次胸片,同时进行肺癌、肺结核、肺感染等多种诊断”“建一个全球最大的胸部影像数据库”等等。

他们认为,人工智能的发展目标,一定不是代替人,而是帮助人。但每一次尝试,要获得医生、患者乃至社会各界的信任,需要时间。

科技进步改变医疗行业的最经典的案例,来自美国公司生产的主攻微创手术的手术机器人“达芬奇”。

有统计显示,截至2018年10月,已有四千多台“达芬奇”手术系统在全球范围内实现临床使用,超过500万患者接受过“达芬奇”参与的手术治疗。

2018年1月4日,27岁的南京姑娘韩涵在鼓楼医院做了一场输尿管再造手术。考虑到创口小,利于术后恢复等优势,她选择了比开腹和普通腹腔镜贵两倍的机器人手术。

而恰在最近,3年前英国的首例机器人心瓣修复手术进行了听证。当时原本以为是最尖端医疗AI技术的展示,却没想到变成一场鲜血四溅的惨案:机器人把病人的心脏“放错位置”,戳穿大动脉……听证会上,当年负责手术的主刀医生承认经验不足,有人为操作失误。

新闻经中文媒体报道后,登上了微博热搜。有网友痛批并质问,病人事先知道是机器开的刀吗?韩涵选择了维护“达芬奇”:“知情的,我的手术也是机器人做的。”

在国内参与完成过150多台机器人手术的周宇医生告诉南方周末记者,“机器人手术不是说真的有个机器人去做手术,而是我控制机械臂去做手术,就像我原来用手抓饭吃,现在用筷子,都是吃饱饭,方式不同而已。”

谈到让智慧型的手术机器人、人工智能诊断系统,在医疗领域完全替代人类医生,几乎所有采访对象都认为现阶段没有可能。

尽管在“机器人比人握着手术刀更平稳、人工智能读片比人类诊断更迅速”等方面显示出极大优势,但在处理复杂疾病、需要综合思维的情况下,“医生(人类)才是核心。”李亮说。

(应采访对象要求,文中韩涵、周宇为化名)

本文由机器之心经授权转载自健言(ID:healthytalks ),未经授权禁止二次转载。

原文链接:https://mp.weixin.qq.com/s/BCjJuXWlvccK4AmCo5xdWA

产业医疗机器人
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

暂无评论
暂无评论~