大数据医疗时代的人工智能与隐私保护

近年来,随着大数据挖掘与分析等方法的逐渐成熟,人工智能技术已经在医疗领域广泛应用。本文详细讨论了在医疗数据采集端与人工智能应用端隐私保护所面临的各项问题,从技术的角度、法律的角度以及伦理道德的角度分别分析了医疗隐私安全,并最终提出了四条建议,为医疗行业隐私保护的理论和实践发展提供了可行路径。

1.大数据医疗时代的人工智能

大数据很早就开始为医疗行业保驾护航了,但到底什么是大数据医疗,这里首先做一个定义。学术界通常通过4V来描述大数据:海量数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)和较低的价值密度(Value)[7]。从不同领域出发,对大数据的理解也各不相同。在医疗领域,这4V也同样成立:医疗数据正以史无前例的速度不断更迭(Volume);病种繁多,病人各异,医疗数据必须快速流转(Velocity);医疗数据有文字、有影像,甚至各个医院还有各种不同格式的文件(Variety);对医疗数据的聚通用还远远不够(Value),要想办法提高对医疗行业数据的“加工能力”,通过“加工”实现数据的“增值”。

大数据医疗伴随着新的人工智能技术的进步而蓬勃发展,例如用人工智能来进行预测和生成推荐系统,其中最典型的应用之一是图像分析。目前国内诊断病人CT 图像还普遍采用两个医生同时查看的形式,当两个医生对该图像得出相同的判断时容易认定,但当两个医生得到的结论不同时则需要讨论。这种方法是为了提高诊断的准确率,但是耗费人力。卷积神经网络(Convolutional neural networks CNN)是一种典型的深度学习算法,已经在医学图像领域拥有广泛的应用。CNN可以接受各种医学图像的训练,包括放射科、病理科、皮肤科和眼科等。CNN获取输入图像,并使用简单的操作(如卷积、汇集和完全的连接层)将其顺序转换为扁平向量,输出向量的元素表示疾病存在的概率,因此可以辅助医生进行诊断,在很大程度上缓解医生的工作量[8]。另外一个人工智能的医疗大数据应用是预测治疗路径,例如通过多种类多形式数据预测一个内伤患者发生大出血的概率并建议采取干预治疗,或者预测一个重伤人员在一年内死去的概率从而建议从传统治疗转为临终关怀[6]。

在真实的应用场景中,人工智能辅助医疗要通过大量的数据积累,包括疾病诊断记录、病人用药效果、基因数据、家庭病史、行为数据甚至社会环境状况数据等。在国内,要实现上述数据积累,最重要的壁垒是打通各个医院和社区间的数据交换共享渠道。美国基于此考虑建设了一个电子健康记录系统(Electronic health records EHRs),十年内积累了1000万名病人的记录。EHR的潜在应用价值是巨大的,如果好好加以利用,这相当于积累了20万年医生的智慧和1亿年的疾病情况[9]。在这样的技术不断突飞猛进的同时,我们享受到了科技进步带来的好处,但我们不禁要问,在人工智能学习分析大背景数据的同时,病人的隐私被侵犯了吗?存在道德风险吗?我们的现行法律能否保障我们在治疗中和治疗后的权益?

2.健康隐私

个人隐私向来是一个很难定义的概念。因为个人隐私无法像上文中的大数据一样用几个“V”就可以描述,个人隐私的定义要与其内涵强关联,与行为人强关联,涉及到内涵溢出的目的、频率以及具体信息[6]。当这些关联规则被违背时,我们可以说个人隐私被侵犯了。隐私侵犯可以发生在错误的行为人接触到信息时,或者内涵溢出的目的动机不符合预设时,或者内涵溢出的频率超出规定时等。健康隐私的内涵包括但不限于患者的隐私在病历中的详细记载,病情、个人史、家族史、接触史、身体隐私部位、异常生理物征等病理和个人生活秘密。侵犯个人健康隐私是否成立不应基于信息量或对象数据集的大小,因为即使对象不大其后果仍可能是很严重的。在人工智能医疗应用过程中的个人隐私问题主要可出现在图1所示各环节。主要造成溢出的过程是数据汇聚和人工智能应用两个环节,以下分别予以讨论。

图1人工智能应用中主要涉及隐私安全问题各环节。

3.数据汇聚的过程中产生的隐私问题

在数据汇聚过程中的隐私问题主要指担忧隐私被直接侵犯的情况,或者可以理解为如图1所示输入和存储中造成的内涵外溢。这可以是可预测的结果,比如乙肝病毒库的隐私泄露可能导致当事人找工作受到歧视。有的结果是不可预测的,比如一个人总是担心自己的隐疾被泄漏出去而导致精神紧张甚至抑郁症。也要考虑到另一种情况,即是很多隐私是在当事人不知情的状况下泄漏的,比如某些公司刻意收集网络上的个人隐私状况或非法入侵某些医疗机构数据库窃取数据,即使这些泄漏数据并未被直接加以利用给当事人带来损失,甚至记录也已被删除,然而此种情况也应属于医疗数据安全问题,可能有潜在的危害,应该被予以重视。

数据汇聚过程中的隐私问题也涉及很多法律和道德问题。健康隐私数据的来源包含很多方面:电子病历、医疗保险、智能健康终端设备和社交媒体等等。美国关于隐私安全的立法较早,1974年即通过《隐私权法》(The Privacy Act),后在2003年生效《健康保险携带与责任法》(Health Insurance Portability and Accountability Act, HIPAA)。通过HIPAA规定了很多EHR的隐私保护细则,对使用EHR系统也有明确的规定,是否可以对EHR加以利用取决于信息是如何建立的、谁在维护以及当事人情况[10]。中国法律暂未对个人健康隐私有进一步明确的规范,只是在《中华人民共和国网络安全法》第四十四条强调了“任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。”以及正在审议中的《中华人民共和国基本医疗卫生与健康促进法》第二十一条提到:“国家保护与公民健康有关的个人隐私,确保个人健康信息安全。除法律法规规定或本人同意外,任何组织和个人不得获取、利用和公开公民个人健康信息。”从这两条法律法规的对比可见,我们的相关法律和规范还比较宏观,缺乏对具体情况的考虑。我国在2018年5月1日开始实施的《信息安全技术个人信息安全规范》,是一部相对比较完整,从个人信息的收集、保存、使用等角度提出保护个人信息安全应遵循的原则。然而,我们还缺少针对医疗隐私保护的详细的法律法规,现阶段在健康数据系统还没有打通的情况下矛盾尚不明显,一旦有了国家范围内类似美国EHR的数据共享系统,隐私保护问题将被无限放大,我们应该提前做好预防。

有的人会问,在数据原始采集过程中有一个关键的问题,即为了研究的目的或更多人的利益着想,某些健康隐私是否可直接被脱敏后再进行存储和使用。然而首先脱敏的方法和标准没有定性,其次,现阶段的某些技术达到了即使脱敏后也可以通过多数据集的比对重新配对数据的程度,从而使脱敏失效[11]。

4.人工智能数据使用过程中产生的隐私问题

如图1所示,人工智能的数据输出包含多种方面,比如智能辅助诊疗,预测诊疗手段、精准切除以及各种基因处理方法等。在数据输出过程中的隐私安全问题不可回避,其直接造成的一类后果就是带来歧视。例如在聘用过程中如果雇主通过某些渠道的诊疗手段泄漏获悉拟聘用人员有慢性病或一些较难治疗的疾病,有很大可能会招致聘用失败,而这是违反《劳动法》的。特别是针对一类在聘用时其实并没有疾病但属于染病高风险人群(可能是基因数据的分析结果或是家庭病史甚至社区和性取向等带来的高风险等),这样的信息泄露很显然是不公平的。最近一项针对临床试验参与者的调查发现,6.6%的参与者“非常担心”,14.9%的参与者“有点担心”,即“如果信息与我联系起来,我会受到歧视”。但正如调查报告作者承认的,特定的特征研究人群的主观导向,尤其是他们已经决定参加临床试验的事实,可能会影响到他们的决定从而最终影响预测结果的准确性[12]。

另一类在人工智能预测结果中产生的隐私侵犯可能不会直接带来严重的后果,但因为担心自己的隐私权受到侵犯,可能会使人精神紧张、暴躁甚至产生精神疾病。比如在自动比对基因库的过程中发现的一类问题可能会引致思考别人看到会怎么办的想法,从而导致一些焦虑。

5.总结并提出建议

首先不能因噎废食,应该区分性对待隐私所有权问题。包括脱敏程度,数据使用者以及使用目的。例如疾控中心可以用流感应对数据对比医院发热病人状态,来重新考核现行流感控制措施,这样做确实在未经许可时侵犯了健康隐私(未予泄漏),但其目的是为潜在的发病做更好的服务。

其次须采用一些创新的方法去追求医疗隐私问题的平衡性。新的人工智能技术不断涌现,某些隐私数据在积累时尚不能考虑到其应用场景和应用范围,所以也不能提前征求被采集者的意见,而当需要使用其数据时,很多情况下难以做到一一征求意见,特别是在看似无害的数据使用情况下。因此,利用新的人工智能技术,在数据汇聚的过程中即做好甄别和预判数据使用权限工作,提前征求当事人意见,则可避免许多矛盾。

第三,如上文所示,加强医疗数据安全领域立法,特别是细致的、针对信息是如何建立的、谁在维护以及当事人情况的法律法规的建立是有急切需求的。

最后,建议成立国家、省、市级“关键数据安全委员会”,对医疗数据如何开放共享,如何判定隐私泄漏责任权属以及新技术的应用等问题,起到关键指导作用。

参考文献

1.Stanford Health. Harnessing the power of data in health. Stanford Medicine 2017 Health Trends Report (2017).

2.Russakovsky, O. et al. Imagenet large scale visual recognition challenge. Int. J. Compute. Vis. 115, 211-252 (2015).

3.Litjens, G. et al. A Survey on deep learning in medical image analysis. Med. Image Anal. 42, 60-88 (2017).

4.Esteva, A. et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature 542, 115-118 (2017).

5.Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. Nat. Med. 24, 1342 (2018).

6.Nicholson, P. II & Glenn Cohen, I. Privacy in the age of medical big data. Nat. Med. 25, 37-43 (2019).

7.魏琴,欧阳智,袁华 《数融未来:图解大数据+产业融合》(贵州人民出版社,贵阳,2018)。

8.Esteva, A. et al. A guide to deep learning in healthcare. Nat. Med. 25, 24-29 (2019).

9.National Committee on Vital and Health Statistics and its Privacy, Security, and Confidentiality Subcommittee, U.S. Department of Health and Humam Services. Health information privacy beyond HIPAA: a 2018 environmental scan of major trends and challenges. https://ncvhs.hhs.gov/wp-content/uploads/2018/05/NCVHS-Beyond-HIPAA_Report-Final-02-08-18.pdf (2017).

10.Terry, N. P. Existential challenges for healthcare data protection in the United States. Ethics, Med., & Pub. Health 3, 19–27 (2017).

11.Gymrek, M. et al. Identifying personal genomes by surname inference. Science 339, 321–324 (2013).

12.Mello, M. M., Lieou, V. & Goodman, S. N. Clinical trial participants’ views of the risks and benefits of data sharing. N. Engl. J. Med. 378, 2202–2211 (2018).

中国人工智能开放创新平台
中国人工智能开放创新平台

平台由贵阳市政府、英特尔及中国产业创新联盟共同打造,致力于深化AI产业结构发展,扶持AI初创企业,打造AI生态圈,集合众多海内外高校导师及行业大牛,撰稿深度分析专业技术及应用,为 智能+注入源源不断的活力。

产业医疗大数据
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

暂无评论
暂无评论~