想研究新冠CT找不到数据集?UCSD、Petuum开源COVID-CT 数据集

CT 图像在对新冠肺炎提供准确、快速、廉价的筛查和检测方面很有前景,但很多研究者都苦于找不到合适的数据集。在本文中,来自加州大学圣地亚哥分校、Petuum 的研究者构建了一个开源的 COVID-CT 数据集,其中包含 275 个 COVID-19 检测呈阳性的 CT 图像,有助于使用深度学习方法分析病人的 CT 图像并预测其是否患有新冠的相关研究和开发。

他们在该数据集上训练了一个深度卷积神经网络,获得了 0.85 的 F1。相关数据和代码可见于:https://github.com/UCSD-AI4H/COVID-CT

论文链接:https://arxiv.org/abs/2003.13865

引言

新冠肺炎是一种感染性疾病,对该疾病检测的低效和缺乏成为了控制其传播的主要障碍。目前的检测主要基于逆转录聚合酶链反应(RT-PCR),需要 4 到 6 个小时才能获得结果。与新冠肺炎可怕的传播速度相比,这远不够快。除了效率低下之外,RT-PCR 检测试剂盒也非常短缺。这促使研究者去研究替代的检测方式。这些方式可能更快,比 RT-PCR 便宜,更容易获得,但与 RT-PCR 一样准确。

在众多可能性中,加州大学圣地亚哥分校的研究者对 CT 图像尤其感兴趣。有几篇论文研究了 CT 图像在筛选和检测新冠肺炎时的效果,结果鼓舞人心。然而,出于对隐私的保护,这些研究中所使用的 CT 图像并不会公之于众,这极大地阻碍了基于 CT 图像做精准检测的人工智能方法的研发。

为了解决这个问题,他们构建了一个 COVID-CT 数据集,其中包含 275 个新冠肺炎检测呈阳性的 CT 图像,并向公众开放,以帮助基于 CT 图像的新冠肺炎检测的研发。

研究者从 760 个关于新冠肺炎的 medRxiv 和 bioRxiv 的论文初稿中提取了 CT 图像,并通过阅读这些图像的标题,人工筛选出具有新冠肺炎临床病症的图像。

基于 183 个新冠肺炎 CT 图像和 146 个非新冠肺炎 CT 图像,他们训练了一个深度学习模型,以预测一个 CT 图像是否呈新冠肺炎阳性。

他们在 35 个新冠肺炎 CT 图像和 34 个非新冠肺炎 CT 图像上进行了测试,模型 F1 值为 0.85。结果表明,CT 扫描有望用于筛选和检测新冠肺炎,然而还需要更先进的方法来进一步提高准确性。

创建数据集

本节描述如何构建 COVID-CT 数据集。研究者首先收集了 760 个于 1 月 19 日 至 3 月 25 日期间在 medRxiv1 和 bioRxiv2 上发布的的关于新冠肺炎的论文初稿。这些论文中有许多报告了新冠患者病例并且其中一些展示了患者的 CT 图像。这些 CT 图像附有描述其临床病症的标题。

研究者使用了 PyMuPDF3 提取论文 PDF 文件的底层结构信息并定位到所有嵌入的图表。这些图表的质量(包括分辨率,大小等)大都保存完好。根据结构信息,他们还识别出所有图表的标题。

基于提取的图表和标题,他们首先手动选出所有 CT 扫描图像。然后对于每个 CT 图像,阅读其对应的标题从而判断它对新冠肺炎是否呈阳性。如果无法通过标题判断,则在论文中找到分析此图的文字以做出决定。对于包含多个 CT 子图像的图像,他们将其手动拆分为单个 CT 图像。

最终他们获得了 275 个 CT 扫描图像,标记为新冠肺炎阳性。这些图像大小不同:最小、平均和最大高度分别为 153、491 和 1853;最小、平均和最大宽度分别为 124、383 和 1485。这些扫描来自 169 例患者。图 1 显示了新冠肺炎 CT 扫描图像的一些示例。

图 1:新冠肺炎呈阳性的 CT 扫描图像示例。

方法

研究者基于这个数据集开发了一个基线方法。尽管他们所使用的关于新冠肺炎的 CT 图像数据集是目前最大的公开可使用的新冠 CT 数据集,然而它依旧较难达到训练模型所需的数据量。在如此小的数据集上训练深度学习模型十分容易导致过度拟合:模型在训练数据上表现良好,但是在测试数据上泛化不理想。

为了解决训练数据不足的问题,研究者采用了迁移学习的方法:使用 NIH 发布的 ChestX-ray14 数据集来预训练 DenseNet,然后在 COVID-CT 数据集上对预训练后的 DenseNet 进行微调。另外,他们还进行了数据扩充,包括随机仿射变换、随机裁剪和翻转。随机仿射变换包括平移和旋转(角度依次为 5,15,25)。

实验

实验设计

表 1:数据分割统计



研究者收集了 195 个检测新冠肺炎呈阴性的 CT 扫描数据,来训练一个二分类模型,用于预测一个 CT 图像是新冠阳性还是阴性。其中,他们根据病人将其分为训练集、验证集和测试集。

表 1 总结了每个数据集中新冠阳性和新冠阴性图像的数量。每个 CT 图像的大小都调整为 224*224。在验证集上对超参数进行调优。优化算法为 Adam, 学习率为 0.0001,batch size 为 4。他们使用五个指标来评估模型:(1) 准确性; (2)Precision; (3) 召回率; (4)F1; (5)AUC。对于这些指标,越高越好。

实验结果

表 2:在测试集上的结果 (%)


表 2 展示了这个方法的准确度、Precision、召回率、F1 和 AUC。尽管 Precision 较高,然而召回率的结果并不令人满意,因此,需要使用更先进的方法来提高召回率。
理论新型冠状病毒Petuum
相关数据
学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

仿射变换技术

仿射变换,又称仿射映射,是指在几何中,一个向量空间进行一次线性变换并接上一个平移,变换为另一个向量空间。 一个对向量平移,与旋转放大缩小的仿射映射为 上式在齐次坐标上,等价于下面的式子 在分形的研究里,收缩平移仿射映射可以制造制具有自相似性的分形

推荐文章
暂无评论
暂无评论~