UCSD推出CovidDialog: 新冠肺炎医患对话数据集

截至2020年4月6日,COVID-19的广泛传播已导致1,345,048人感染和74,565人死亡。医护人员为此精疲力尽,恐慌也在四处蔓延。为了解决这些问题,我们迫切需要能够为公民提供与COVID相关的咨询的医疗对话系统。为促进此类系统的研究和开发,我们建立了两个医学对话数据集– CovidDialog –包含有关COVID-19和其他相关肺炎的医患对话。其中包括一个包含603个咨询和1232个回答的英文数据集和一个包含399个咨询和8440个回答的中文数据集。

数据集地址:https://github.com/UCSD-AI4H/COVID-Dialogue

1. 引言

2019新型冠状病毒病(COVID-19)目前正在全球蔓延,截至2020年4月1日,已造成80多万人感染与4万人死亡。在疫情大流行的情况下,各国的医疗资源极为稀缺,并且医务人员也面临着巨大的工作强度和压力。更糟糕的是,恐惧像病毒一样传播开来。对COVID-19的恐惧反应有可能会危及生命。例如,有轻微咳嗽症状的健康人去医院咨询医生,极有可能在医院被COVID-19的患者所感染,这不仅令人遗憾,而且增加了医疗工作的负担。

疫情大范围快速传播的情况促使我们建立一个对话系统,回答患者提出的有关COVID-19的问题。目前,有几个在线平台可以让那些担心自己可能被COVID-19或其他肺炎感染的患者咨询医生,医生可以在这个平台上提供建议。然而,与大量渴望咨询医生的患者相比,在线平台上的医生数量还远远不够。此外,医生不能做到24小时不休息地回答问题。一个能够自动实时回答患者提出的有关于COVID-19问题的对话系统将大大减少医生的工作量。同时,人们的恐慌也会得到缓解,因为他们的问题可以随时随地得到解答,他们的担忧也可以及时得到缓解。缓解医疗压力,缓解人们的焦虑并且有效地辅助医疗工作,这样的对话系统不仅具有广泛的需求,且具有广阔的应用前景。

为了促进针对COVID-19的对话系统的研究与开发,我们构建了两个医疗对话数据集,其中包含医生和患者之间关于COVID-19和其他肺炎的对话: (1) 一个是包含了603个咨询和1232个语句的英文数据集; (2) 另一个是中文数据集,包含399个咨询和8440个语句。这些数据集是公开的。

2. 英文数据集

CovidDialog英文数据集包含关于COVID-19和其他相关肺炎的603次咨询,有1232个语句。对话中的平均、最大和最小话语数分别为2.1、17和2。语句中平均、最大和最小的单词数分别为49.8、339和2。每次会诊都以简短描述病人的病情开始,然后是病人和医生之间的对话。最初的对话是从在线医疗论坛中爬取所得,包括icliniq.com1, healthcaremagic.com2, and healthtap.com3.

3.中文数据集

中文对话框数据集包含399个关于COVID-19和其他相关肺炎的咨询,有8440个语句。对话中平均、最大和最小的话语数分别是15.5、182和2。语句中平均、最大、最小汉字数分别为26.2、405和4。每次会诊包括三个部分: (1) 病人的病情和病史描述; (2) 医患对话; (3) (可选)医生给出的诊断和治疗建议。在病人的病情和病史的描述中,包括: 现在的疾病,现在疾病的详细描述,需要医生的帮助,疾病发生的时间,药物,过敏与旧疾。图2展示了一个范例咨询。数据来源于haodf.com4,这是一个在线医疗服务平台,包括医疗咨询、预约医生等等。

4. 结论

为了应对医疗专业人员繁重的工作任务和公众的恐慌,有必要开发医疗对话系统,为人们提供关于COVID-19相关主题的咨询。为了便于针对COVID靶向的对话系统的研发,我们分别建立了两个与COVID靶向相关的中英文对话数据集。此数据集对公众开放。
图片 1.png图1:英文CovidDialog数据集中的咨询示例。 它包括对患者的医疗状况的描述以及患者与医生之间的对话的简短描述。
图片 2.png图2:中文CovidDialog数据集中的咨询示例。 它包括(1) 患者的医疗状况和病史的描述,(2)医生与患者之间的对话以及(3)医生给出的诊断和治疗建议。

工程新型冠状病毒抗疫数据集CovidDialog
相关数据
对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

推荐文章
暂无评论
暂无评论~