Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

文摘菌作者

斯坦福新成果:X光诊断报告自动生成

“病史:肿胀、疼痛,已获取左踝关节三视图。”

“病情:矿化正常,未发现骨折或骨性病变 ... 软组织正常。”

“结论:左踝关节正常。”

观察X光照片、记录病情、翻看患者病史、给出诊断结果——这是一位放射科医生的日常工作。

长期以来,放射科医生的这项工作既繁琐、又容易出错。幸运的是,斯坦福大学的一项最新研究成果表明,AI技术可以自动生成的放射科报告:在一个盲选实验中,一位放射科医生判断67%自动生成的诊断报告达到、甚至超越了专业放射科医生书写报告的水准。

医生只需在观察X关照片后描述影像信息,简述患者病史,人工智能模型便会自动生成高准确性的诊断总结报告。

近日,由斯坦福Curtis Langlotz和Chris Manning教授指导的团队发表了他们将自然语言处理技术应用于医疗诊断的最新成果。在这项研究中,他们运用自然语言处理模型阅读医生对X光照片的描述,结合患者病史,自动生成精准、流畅的诊断结果。

“我们的深度学习模型能够自动给出诊断结果,生成的总结报告与人类医生的诊断高度吻合。” 该研究的第一作者张宇浩告诉文摘。

诊断报告的自动生成

该研究将诊断报告的自动生成看作了一个“文本概括”问题。长篇的病情记录被视作需要概括的文本,而这一概括过程又需要结合患者的病史信息。

为了解决这一问题,该研究使用了一个基于长短神经网络LSTM)的seq2seq模型作为主结构。

首先,病情记录被一个LSTM编码器转换成向量表示。同时,患者的病史信息也被另一个LSTM网络编码。之后,基于这些病情记录和病史信息的编码信息,一个LSTM解码器逐字生成最终的诊断报告。

这一模型同时具备“复制-黏贴”功能。在解码器生成诊断报告的过程中,可以选择生成词库中的合适词汇,或者直接从病情记录中“复制-黏贴”相关文字。

模型的完整结构如下图所示。

考虑到医疗诊断报告的文本区别于普通文本,在词汇量、词汇用法语义都存在特殊性,该研究在450万放射科报道上预训练了一组全新的GLoVe词向量。结果显示,这一做法能够显著提升诊断报告的质量。

该研究主要使用的数据为87,127份斯坦福医院的X光诊断报告,这些报告囊括了12种不同的身体部位,包括胸部,腹部和四肢等。

诊断报告质量显著提升

为量化生成报告的质量,这份研究使用了ROUGE分数作为评估指标。该指标衡量了生成文本和真实文本的重合度。

研究者们将新模型与S&J-LSA、LexRank、Pointer-Generator等基准模型作了对比。结果显示,研究提出的新模型显著优于其他模型算法。比对模型的详细信息参见原论文。

同时,研究者也请来了一位资深放射科医生来人工评估报告质量。在一个盲选实验中,该医生认为67%自动生成的诊断报告达到、甚至超越了专业放射科医生书写报告的水准。

研究者们也探究了该模型的应用广泛程度。

深度学习模型训练中,一个经常困扰研究者的问题是,在已有数据集上训练好的模型在实际应用场景中会因为数据分布的不同而“大失水准”。

那么,这个模型能否被应用到其他医院的诊断报告上?由于不同机构的放射科医生往往经过不同的训练,并且有不同的写作习惯,将这一模型迁移到其他医院的诊断流程中是一个潜在的有挑战的问题。

为此,研究者们在斯坦福医院数据集上训练完模型后,直接将该模型在2,691份印第安纳大学胸部X光诊断数据集上测试。令人欣喜的是,这一模型同样有不错的表现。

另外,这个模型是否也能够为训练中没有见过的“身体部位”作出诊断呢?在实际应用中,一些在诊疗过程中罕见的身体部位可能在训练过程中完全缺失。

为了研究这一问题,研究者将所有数据按照身体部位分类,并分别抽出每个部位对应的数据,在剩余数据上训练模型。结果显示,“胸部”和“腹部”的诊断严重依赖相关训练数据集,而“膝关节”的诊断则显现出较小的数据依赖性。作者猜测,这是因为训练数据集中存在和“膝关节”相似的身体部位,如“踝关节”、“肘关节”等。

未来计划

通过对机器生成报告的逐条分析,研究者发现模型仍存在一些问题。该模型偶尔会遗漏重要结论,比如必要的后续诊断建议。同时,模型生成的报告仍存在一些的语法错误。

研究者们也正在考虑如何将这一成果于实际诊断有效结合,做到确保诊断质量的同时有效精简放射医生的工作量。

“希望我们的成果能够启发其他研究者们,进行更多医疗诊断报告自动生成的探索。”作者张宇浩告诉文摘。

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业斯坦福
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~