Carlo Daroda, Leonardo Cicala作者

“一般数据保护条例”对数据分析及挖掘的影响

摘要:本文旨在分析2016/679( “GDPR”)欧盟法规对个人数据的挖掘,管理,存储,分析及使用的影响。突出强调在现行立法方面引入的创新,分析新的欧洲敏感数据收集和管理法规所带来的机遇和问题,尤其重视大规模数据收集和管理技术,即“大数据”下的个人数据隐私。

简述

本文试图解释新欧洲法规对个人数据保护的作用及影响,通过分析与过去使用的相关法规的主要差异,以及数据分析领域的创新方式,解释大数据领域给数据保护政策带来的结构性影响,以及对企业和个人的一些启示。

1. 通用数据保护条例(以下简称GDPR):与2003年颁布的隐私条例的区别

通用数据保护条例2016/679(GDPR)是欧洲有关数据保护的立法。该条例于2016年5月4日在欧盟官方公报上发布,于2016年5月24日生效,但考虑到实际情况,正式实施于两年后开始,即从2018年5月25日开始。

该法规旨在协调国际上电子数据传输间的保护与监管。欧洲立法者认识到,个人数据隐私保护是欧盟公民的一项基本权利,因此认为,应当同等对待所有公民的个人数据隐私,并通过立法的形式辅助相关智能科技方式,消除国际数据传输中存在的待遇差异。

GDPR部分修改并整合了先前在“196/2003关于保护个人数据守则”第1号法令中规定的条款。欧盟数据保护局已公布了GDPR的主要创新和变化。新条例引入的主要变化总结如下:

•引入了“ Privacy by Design”和“ Privacy by Default”原则,这意味着一切数据相关的行为必须从一开始就按照立法者制定的规则进行保护,从源头上开始进行数据保护;

•适用的法律是相关数据主体的法律。因此,即使数据所有者位于欧盟以外,也将受到欧洲数据保护立法的约束;

•同意个人数据被使用的前提应该是自由,具体和知情的,使用的诉求和方式也必须是明确的。只有在每次单独使用个人数据时,用户的许可都在不含歧义的方式授权时,它才有效;

•引入了“问责制”原则,即必须记录所有数据使用进行的处理,保证问题可溯源;

•建立了“数据活动登记册”,该文件记录数据所有者、数据处理者之间有关个人数据传播、使用的所有活动;

•对于已经出现的违规行为(数据泄露),受损方有权利将受损情况传达给担保机构,机构不得有任何不合理的延迟,并且在可能的情况下,在其知晓之日起72小时内,排除可能会由于侵犯主体个人数据对其权利和自由构成风险的一切因素;

•为数据所有主体引入了新的权利,例如:数据的可携带性,被遗忘权;

•引入了数据保护官(DPO)的概念,他们是针对某些特殊情况下的专业数据控制者,他们帮助建立数据使用机构与担保人的联系,该工作对相关的技术有极高的要求。

上述论证中,在数据挖掘和处理方面的创新被认为是最明显和最具影响力的,将在以下段落中进一步讨论。

 2. 大数据:技术与未来展望

近年来,随着社交网络和物联网(IoT)的发展与普及,数据分析技术应用在生活与工作的方方面面,同时也朝着越来越庞杂的方向发展。由此所产生的数据多种多样,需要先进的技术和强大的计算能力来支持这些大型文件的处理。如果分析得当,大量可用数据将成为公司和机构的宝贵信息资源。事实上,通过数据分析,生产商甚至可以重建消费者的消费习惯,监控消费者的动作或定义偏好。换句话说,大数据智能化可以帮助评估我们生活的多方面特征。

由此可知,挖掘及使用数据(例如用于商业目的)和侵犯数据所有者隐私之间的关系微妙而又脆弱,所需的利弊权衡也是显而易见的。当然,在欧洲,这方面的立法思考由来已久,立法者一直认为,保护个人隐私是一项应被重视的基本事项。例如,“里斯本条约”将保护个人数据的权利带回了个人的基本权利范围。而我们常听的GDPR,正是为了满足这一需求而创建的。

而GDPR又会对大数据及人工智能的发展与应用产生什么影响?我们首先要明确,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。而大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。通常,数据分析过程属于数据驱动类型,即由数据本身指导分析过程,因此没有固定的方法,但它们根据挖掘的数据而有所不同。例如,可以在从描述性分析开始的研究的逻辑过程中,寻求一种标准化形式,这对于理解潜在现象和消除异常值是有用的。通常,数据收集的下一步是创建预测模型,以便分析和预测当前现象的未来发展情景。到目前为止,描述的步骤可以被认为是统计分析的经典步骤。但是,使用现代数据分析工具处理异构大数据(结构化或非结构化)能够组合其他功能,这种称为“Prescriptive Analysis”(常规性分析),使我们能够理解创建和定义信息过程。数据分析过程的最后一步为“ Automated Analytics”(自主分析),即基于从先前步骤获得的输出创建逻辑,生成特定模型或创建由分析过程产生的具体规则,形成自主数据学习模式,达到智能化自主分析的结果。

关于个人数据保护的最新立法,在数据安全性和可追溯性方面提出了若干问题。其中包括必须让利害关系方了解处理其数据的目的,如果他/她决定不同意或授权撤销,数据使用方必须保证消除与他相关的所有数据。这样的规定导致数据使用方需要对数据使用的时间轴进行管理,一旦完成数据采集和使用,甚至不能简单地删除了之:许多公司不得不重新设计其系统架构,从而维持高成本的数据管理和维护工作。

由于转码表的集成和非关系数据库的实施,数据的假名化也被证明不易于实施。

根据最新立法中第11条在57款的概述,通过第三方加入的方式,或许可以在数据分析和数据保护之间找到更温和的过渡,即允许持有者使用个人数据实施大数据和数据分析活动,无需任何识别或处理(由第三方加工或过滤),消除对利益相关方的任何可能涉及身份的提及,因此(理论上)不会触犯相关方的权利。

很明显,该标准可以允许开发基于共同和客观特征的聚合数据分析技术。换句话说,该标准可以将用于商业目的的分析技术改造成更接近于用于科学目的的典型数据分析的操作方法。

3. 对数据分析演变的影响(基于EU-US数据保护协议体系

新欧洲个人数据保护条例第45条规定第二点规定:“当需要通过控制个人数据维护公共利益或履行为保护公共利益所需的义务,可以进行对个人数据进行处理,但该权力的行使必须依据国际公认准则或是欧盟成员国内的法律。上述条款有助于欧盟与其他国家之间达成协议,以保护在海外设有办事处的公司的商业运作,以便这些公司处理或存储欧盟公民的个人数据,同时也为欧盟的监管提供便利。

同时,欧盟委员会于2016年7月12日通过了一项关于名为的Privacy Shield的决定,该协议规定了欧盟与美国之间的数据传输。该协议保护了欧盟成员国及成员的基本权利,允许其个人数据被转移到美国,并为跨大西洋进行数据传输的公司制定了明确的规则。

该协议规定:

l 对传输数据的公司有义务严格遵守保护数据隐私协议;

l 对美国政府获取数据制定了严格的安全措施;

l 具体规定了数据保护的工具(包括传输,存储和使用);

l 对监督其实施的协议进行联合年度审查。

GDPR的实施,对该部门的数据分析产生了重大影响。之前被遗忘的权利被重新赋予了意义,使运营公司能够预先知晓个人数据管理逻辑。例如,有关方可以要求对取消、加密或停止追踪当前数据及数据所有人,有权利清除数据或纠正数据中涉及个人隐私领域的保护功能,其存储在搜索引擎和社交网络中的数据需要保证以上诉求的可视化,以确保数据可以得到保护和监控,若个人数据已经被公布,需要保证数据能够被清除,且该过程合法化,预防再次被获得或被公布。这些新问题直接影响到新安全解决方案的设计,比如非关系数据库的开发或数据匿名化技术,这是一种旨在防止识别数据主体的处理方法。当然,匿名提供的数据不属于数据保护立法的适用范围。从实际的角度来看,这个目标可以通过应用不同的技术来实现,这些技术可以基本上分为两个系列:

1. 随机化,即修改数据的真实程度,以消除同一人在不同数据类型中存在的相关性。属于这一类的技术类似数据置换,即增加统计噪声和差别隐私;

2. 泛化代表了第二类匿名化技术,包括通过修改各自的规模或数量级来稀释有关人员的属性。例如,考虑年龄范围的指示而不是主体的精确年龄,甚至是只大体区域而不是居住城市等等。

随着以上技术的发展,的确可以大大降低相关方的隐私风险,在过去几年中不难发现,基于匿名数据的汇总处理,将数据用于社交效用目的的服务的倍增。实际上,如果一方面匿名数据不允许所表示的特征被追溯到感兴趣的主题,那我们可以认为,数据本身的信息所反映的内容也没有受到影响。

4. GDPR第11条:新条例是大数据发展的挑战还是方向?

GDPR第11条规定:“如果控制者不需要或者不再需要认证其所掌控的个人数据的数据主体,那么若仅仅根据本章程的要求和规定,控制者就没有义务保存、获取或者处理额外的信息来认证数据主体。如果有本条第一款所提到的情况,那么在可能的情况下,控制者应当告知数据主体,说明自己并无对数据主体进行认证的职责。只有在数据主体出于行使自身权利需要,而且提供额外的身份证明信息的情况下,第15条至第20条才能得以适用。”

第11条引起了解释性问题,而这些问题因第57款而变得更加尖锐。事实上,根据第57款中定义的内容:“如果控制人处理的个人资料不允许控制人识别自然人,则数据管理员无义务获取额外信息,以识别数据主体,其唯一目的是为了遵守任何规定。但是,管理员不应拒绝接受数据主体提供的其他信息,以支持其行使其权利。识别应包括数据主体的数字识别,例如通过认证机制,例如相同的凭证,由数据主体用于登录数据控制器提供的在线服务。”似乎立法者注意到,当所有者获取个人数据的情况时,或许是因为他们提到已识别或可识别的人,但他们没有兴趣收集和使用,甚至允许这种识别的元素,因为他希望它们识别方式付诸实施。在刚刚描述的案例中,所有者似乎无法通知感兴趣的各方,因为他没有有用的信息来识别他们。然而,即使在这个假设中,持有者也不能拒绝提供那些能够传达识别所需要素的人。

换句话说,所有者可以在不获取数据的识别元素的情况下获取数据。对于上述情况,我们不能谈论假名化和匿名化,因为不排除感兴趣方向所有者提供标识符以删除其个人数据的可能性。

5. GDPR的后续影响及企业解决方案

最为重要的约束包括两个方面: 

  其一,根据 GDPR 的要求,处理个人数据必须要有合法理由和方式,而对于"合法"的定义非常严苛。 

  除了拓宽“个人数据”的范围、并将高度保护个人隐私的「数据可携权」和「被遗忘权」明确写入法条之外,GDPR还强调了数据保护要由「属地」向「属人」转变。 

  这意味着,条例的适用范围不再局限于欧盟境内,任何企业只要向欧盟市场提供商品服务,收集或处理个人数据,都受到管辖。无疑,这对从事数据收集和处理的企业及其产业链,都提出了极高的要求。 

  其二,GDPR 中明确定义了数据主体的权利,在为个人有效行使权利提供法律保障的同时,也对企业处理和使用数据提出了苛刻的要求。 

  这意味着,那些拿客户数据打标签做画像的创业,将被要求公开其基本算法逻辑和运算结果。除此之外,目前热门的大数据分析公司,因个人资产保护范围更广,想运用 AI 工具做资料分析的运作空间,也将大大缩水。为此,来自剑桥和伦敦大学学院的创业团队 MediaGamm 则给出一条不错的思路模型。这是一家在线用户行为预测公司,基于特定的算法对广告技术公司的竞价算法进行优化,帮助广告主深度挖掘媒体数据,进而优化广告投放方案。MediaGamm CEO Rael Cline 在接受采访时表示,“我们必须做出改变以确保能遵守 GDPR,其中包括限制我们持有授权数据的时间,以及确保在客户要求删除特定记录时能够应答。”Rael Cline 还也提到了应用Look-a-like相似人群扩展的方式来提升用户精度,与此同时,降低对于用户基数的要求。这和当下提倡的小规模数据模型很相似。

例如,在线广告行业中,随着同意(企业新隐私条款)的用户数量的减少,可以应用人工智能来对这些已同意的用户的行为进行建模,然后根据共享属性找到相似的用户。

在云服务层面,云计算倡导多层次连接和互用组合的理念与 GDPR “有迹可循”的要求存在着不可调和的矛盾。GDPR 对数据的控制者和数据的处理者都提出了同样的要求,共同承担起数据安全保护的责任,但这同时涉及到云服务的提供商和云计算的客户两个环节的权益。在云服务的基础设施服务、平台、应用三个层级间,数据的流通和空间的共享等复杂多线程问题究竟该取得哪些人的同意还很难说清楚。

  更多公司机构指出,欧盟的 GDPR 主要用来限制个人资料使用,却没有建立一套规则协助重度使用资料的公司运作。

就当下而言,最为重要的是还是为用户争取到最基本的删除权、知情权等。例如,阿里云表示,其产品规划中遵从默认隐私设计(Privacy by Design)规范,已提供帐号删除功能,全球客户可以自助操作完成。所有新发表的云产品上线之前,也都通过安全与隐私设计的双重评估。同时,微软透露,已经为 GDPR 项目投入 1600 多名工程师,他们将为全球客户提供正在为欧洲建设的符合 GDPR 的工具,微软的客户可以查看、删除和移动他们的个人数据。

6. GDPR思考与小结

GDPR对普通民众有何影响?对于欧盟公民而言,无疑是大好消息,他们的数据从此将处于妥善的保护之中,而且对自己的数据还有主动权,可以选择被遗忘或者迁移等。

对于非欧盟用户而言,也能享受到一些红利。有很多大公司借此次 GDPR 的契机,将数据保护政策扩展到全球用户,因此,很多非欧盟用户也能享受到一定程度的保护。但是,他们获得的相关权利并没有法律的保护。就算遇到违规情况,非欧盟用户也无法申诉。

对于国内公民而言,情况则有些复杂。某互联公司的欧洲执行官曾匿名表示:“中国的用户如果看到自己的数据能换来某些利益,他们都不会介意分享自己的信息。哪怕是朋友圈那种砍价或者点赞抽奖的蝇头小利都会让他们趋之若鹜。”

这番话不禁让人为国内用户感到悲哀。一方面,企业不尊重用户隐私保护,很多人无可奈何;另一方面,用户自己也没有隐私保护意识。两个方面互相作用,造成国内严峻的隐私保护现状。

也许此次 GDPR 正式实施之后,能展现国内外关于数据保护在政策方面、意识方面以及实施层面的区别,进而引起一部分人的重视。这也不失为 GDPR 对全球安全环境的正面作用了。在全球化的今天,任何涉足海外的企业,都应该意识到GDPR的重要性,甚至在未来,越来越多的国家也会仿照GDPR颁布本国的个人数据隐私保护条例,那么,企业如何做到未雨绸缪、对数据进行合规保护?对此,我们提出以下建议:

1. 对企业目前所管理的个人数据进行全面的风险评估;

2. 评估和整理目前企业数据有多少是敏感数据,以及有关敏感数据的来源,并严格限定敏感数据的生命周期,如果企业不需要保存敏感数据,可以通过合理的形式进行清除;

3. 数据可溯源,确保数据供应链的安全,与企业发生信息交换的所有环节必须合规并有据可查;

4. 制定完善的措施和响应计划,以及制定符合GDPR法规的数据安全流程;

5. 进行全企业宣讲,并重新评估企业现有的数据安全、数据保护/保留、以及数据访问技术,确保数据治理计划可行有效。

参考文献

1. https://www.garanteprivacy.it

2. https://ec.europa.eu

3. The EU General Data Protection Regulation: How will it impact the regulation of research biobanks? Setting the legal frame in the Mediterranean and Eastern European area. Simone Penasa, Iñigo de Miguel Beriain, Carla Barbosa, Anna Białek, Theodora Chortara, André Dias Pereira, Pilar Nicolás Jiménez, Tomasz Sroka, Marta Tomasi, 04.2018. 

4. An Empirical Study of Reserve Price Optimization in Real-Time Bidding, Shuai Yuan, Jun Wang, Bowei Chen, Peter Mason, 2014. 

5. Learning Continuous User Representations through Hybrid Filtering with doc2vec, Simon Stiebellehner, Jun Wang, Shuai Yuan, 2014. 

作者简介:

Carlo Daroda

意大利知名咨询公司Prometeia企业合伙人,财富与资产管理领域的首席专家。毕业于罗马第一大学经济与商务专业,并先后就职于KPMG, GENERALI及Deloitte,于2008年加入Prometeia,主要负责财富管理领域的咨询和设计项目,以及相关软件解决方案的实施。

Leonardo Cicala

满分毕业于巴里大学的金融市场经济学专业。作为IPE商学院全额奖学金得主,获得高级金融和风险管理硕士学位,并在意大利-美国基金会的赞助下,同时在读“商务与意大利制造”硕士学位。目前就职于意大利咨询公司Prometeia,负责意大利邮政金融管理解决方案的项目工作。

中国人工智能开放创新平台
中国人工智能开放创新平台

平台由贵阳市政府、英特尔及中国产业创新联盟共同打造,致力于深化AI产业结构发展,扶持AI初创企业,打造AI生态圈,集合众多海内外高校导师及行业大牛,撰稿深度分析专业技术及应用,为 智能+注入源源不断的活力。

产业数据挖掘数据分析大数据GDPR
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

关系数据库技术

关系数据库,是创建在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加·科德于1970年首先提出的,并配合“科德十二定律”。现如今虽然对此模型有一些批评意见,但它还是数据存储的传统标准。

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
暂无评论
暂无评论~