信息泄露事件频发,拷问AI时代的数据安全

一、数据泄露事件频发,个人企业损失惨重

随着大数据时代的到来,数据信息在给我们生活带来便利的同时,个人信息泄露的问题也日渐凸显,尤其是网络黑色产业链日益猖獗,让我们的个人信息形如裸奔。

华住酒店集团共140G约5亿条个人信息遭泄露、并在境外黑市中以8个比特币标价售卖的新闻刚过去不久,最近顺丰也传出被用户在“暗网”上以两个比特币售卖3亿条快递数据的消息。尽管顺丰回应暗网所售非顺丰数据,不过,有机构实测发现,网上兜售的数据真实性较高,在随机拨打的20条信息中,有17人姓名、电话、地址与文件内容一致,且也曾用过顺丰收发快递。另外,今年八月底,浙江绍兴越城警方破获的一起案件也涉及了公民30亿数据遭剽窃的严峻问题。新三板上市公司瑞智华胜及其关联公司通过非法软件清洗流量、获取用户的cookie,然后从中提取公民个人信息、相关账号密码、搜索的关键词等内容,涉及了百度、腾讯、阿里、京东等全国96家互联网公司产品的数据。

不只是国内,数据泄露已成为困扰全球企业和个人用户的难题。仅2018上半年,在全球范围内泄露的数据超过千万条以上、并造成严重影响的事件不下10起。例如今年3月爆发的给Facebook带来无尽麻烦的 “剑桥分析”丑闻,其中超过8700万名用户的数据遭到泄露。随着对Facebook应用程序更深入的审查,“剑桥分析”可能只是冰山一角。6月27日,安全研究员Inti DeCeukelaire透露了另一个名为Nametests.com的应用程序,它已经暴露了超过1.2亿用户的信息。目前,Facebook已接受英国信息专员办公室(ICO)开出的50万英镑罚单,然而这可能只是开始。

至于数据泄露所造成的影响,目前个人信息泄露带来的直接危害主要是各类骚扰电话、诈骗电话的增加。此外,大规模的信息泄露事件发生时,泄露的数据库会不断完善黑客手中的密码字典,令几乎所有人的密码失效。阿里安全归零实验室提供的数据显示,因用户信息泄露而产生的电信诈骗案件处于频发状态,仅在2017年4月至12月的8个月中就观测到电信诈骗超过43万起,案发资损达1亿9千万元,受害人员超过5万人。2017年,全国公安机关共破获电信网络诈骗案件13.1万起,查处违法犯罪人员5.3万名。

除了个体用户,企业也是数据泄露的受害者。大多数网络攻击都是以窃取钱财为目的,据《2018数据泄露损失研究》评估显示,大型数据泄露代价高昂,百万条记录可致损失4000万美元,5000万条记录可致损失3.5亿美元。遭遇数据泄露事件的公司企业平均要损失386万美元,同比去年增加了6.4%。

二、为什么数据容易发生窃取和攻击?

在愈发频繁的数据泄露事件中,企业数据库安防力量薄弱、责任意识淡薄以及数据市场需求旺盛等因素为大规模数据泄露埋下伏笔。

1. 防力量薄弱,防范意识不强。360互联网安全中心发布的《WannaCry一周年勒索软件威胁形势分析报告》显示,去年勒索病毒爆发前夕,各机构有58天的时间可以进行补丁升级等安全布防工作,但一些机构错误认为自身隔离措施足够安全、打补丁太麻烦,致使其最终遭受勒索病毒攻击。同时,一些企业认为自己并非互联网行业主要参与者,不会成为被攻击对象,因此在用户数据保管上没有做好安全措施,最终导致大批量用户数据泄露。此次华住集团数据泄露,可能原因就是开发人员安全意识不强,将公司程序代码上传到了GitHub(一个软件托管平台)上,加之酒店数据库密码过于简单才导致。

2. 用户数据市场需求旺盛。随着互联网的迅速发展,网络平台的人口红利逐渐消失,当用户普及度已经足够,剩下的只是如何利用信息赚钱的问题,因此根据用户画像进行精准信息推送就显得尤为重要。如今,不管功能是否相关,下载任何软件都需开通讯录权限、地理位置权限、摄像机权限等等,类似“××,你的手机联系人在某APP上将你设置为‘念念不忘的对象’,详情见××APP”这种短信,大概有5亿人都曾收到过。中国消费者协会在8月29日发布的《APP个人信息泄露情况调查报告》显示,遇到过个人信息泄露情况的人数占比为85.2%。

三、应该制定更为严厉、健全的数据保护法

分析这些数据泄露事件的起因,大多是由于开发人员安全意识不强,或者因为公司存在“内鬼”导致。但开发人员安全意识不强的背后,则是整个企业对信息安全的重视程度不够。而企业及其负责人对信息安全的不重视,则是源于我国目前针对信息保护的法律法规还不健全,对于信息泄露缺乏强有力的惩罚措施,往往只会在出事之后做一些补救措施。根据周鸿祎在2018 ISC互联网安全大会上发表的观点:针对信息泄露事件,需要提前作出预警,事件发生后进行补救其实没有意义。

从世界范围来看,加强数据保护与利用相关立法已成趋势。美国通过修订《儿童在线隐私保护法案》为儿童等特殊敏感信息提供更加严格的法律保护;欧盟、新加坡等以专门立法形式,加强对个人信息的法律保护。今年5月25日,《欧盟一般数据保护条例》(GDPR)生效实施,进一步加强了对个人信息的保护力度。与此同时,大数据技术和产业的兴起引发了对数据开放的强烈需求,许多国家或地区通过立法规范和促进包括政府在内的公共部门提供透明、公平的信息再利用服务。

至于我国,近年来涉及数据保护与利用的立法活动主要围绕个人信息保护并且是基于个人信息安全而展开的。在我国现行的法律法规中,与个人信息及隐私的保密和保护相关的主要包括刑法、民法、网络安全法、消费者权益法、邮政法、统计法等。其中针对个人信息保护的责任认定及处罚主要集中在刑法、民法、网络安全法等大法当中,然而这些大法因为涉及内容较广,针对个人信息保护的责任认定和处罚缺乏可操作的细节,量刑也相对较轻。根据公布的案例,腾讯微信、新浪微博、百度贴吧等都因涉嫌违反《网络安全法》被立案调查,BOSS直聘网因涉嫌信息泄露被网信办责令整改,这些就算目前比较重大的执法案件了,但最后法律责任很多是赔礼道歉而已。

另外,个人信息保护固然是数据保护与利用立法的重中之重,但并非全部,尤其是在大数据人工智能成为国家发展战略的背景下。大数据技术与人工智能技术相辅相成,都需要海量数据作为支撑。因此,如何保证既能维护数据安全,严厉打击针对数据或者滥用数据而导致的违法犯罪行为,又可以使海量数据资源所蕴含的信息价值得到充分利用成为立法的关键。

同时,数据安全合规责任的落实还要考虑为中小企业提供一定的政策保障。数据安全合规责任的落实需要相应配置的人力、资金和技术,中小企业可能难以达到法定要求,或者成本过高。因此,需要国家提供一定的配套政策,激励和保障中小企业能够现实地具备数据安全合规能力。如欧盟委员会在发布《一般数据保护条例》的同时,还提供一定的资金用于帮助企业特别是鼓励中小企业并推出旨在帮助其实现合规的“实用在线工具”。

在互联网几乎已经成为现代人类生活的必需之后,在大规模地数据泄露事件面前,个人用户作为弱势群体,除了勤更换账号密码、不在陌生网站或服务商输入个人敏感信息外,其实很难起到什么作为。

因此,作为互联网服务的提供商,企业在数据保护面前有着不可替代的责任;作为人民安居乐业的依靠,政府对企业行为有毋庸置疑的严格监管义务。当互联网、人工智能的浪潮带来全球居民生活方式发生彻底改变,当自动驾驶、智能家居、AI医疗等成为构建智慧城市的标配时,健全完善的规章制度是让这个智能社会正常运转的准绳。

四、去中心化的恶果

对于最近几起数据泄露事件,还有一点值得注意的是贩卖者在“暗网”上兜售数据,只接受比特币或门罗币进行交易。

从9年前诞生起,比特币就一直运作良好,从未因政府或监管者或硬件问题而停止运行过。比特币通过去中心化设计实现了抵制审查,这个特性赋予了比特币非常高的价值,同时也会导致大量的问题。比如基于虚拟货币的经济犯罪频发,区块链的技术特性和跨国作案导致在取证查案的过程中会面对极大的复杂性和阻力。就以这次华住案为例,黑客用比特币的方式在境外网站上售卖非法数据,给警方带来了很大的办案难度。

随着基于虚拟货币的犯罪案件持续发生,在未来,或许去中心化的区块链技术也必须接受中心化的政府或机构的监管。完全的去中心化是不现实的,也是种灾难。对于虚拟货币的监管必须持续加码,并建立国际间的合作组织来共同将这个主张无政府主义的技术栓住,使它不能作恶,在可控的范围内实现它的技术目的。

原本区块链技术作为一种非常有前景的底层技术,吸引各大互联网巨头纷纷开发布局。依赖其去中心化、不可篡改的特性,可以应用于保险、物流、选举、公益等各行各业,也包括酒店管理,可以极大改善用户敏感数据保护中存在的安全隐患,提供金融级的数据安全保障。而如今,区块链技术恰恰是以为盗取酒店用户数据的销赃手段出现,结果令人惋惜。

或许,无论是大数据还是区块链,任何一种新技术、新理念在诞生之初都是美好的,只是随着不断的发展,野蛮生长的同时往往伴随着滥用情况。只有完善法律法规,才能让它如诞生之初所希望的一样造福于人类。

此前,“Y Combinator中国01号员工”陆奇在媒体采访中提到了一个理想中的“数据生态”:“我希望以后会有一个数据生态,让与人有关的数据最终属于个人,他有权利决定在什么情况下、出于什么目的,让某个企业使用他的数据。在这个生态里,创业公司也可以得到用户的支持,例如用户对教育有热忱并且希望支持教育公司创业,他就可以将自己的数据开放给这家公司使用。”

实现这个理想的“数据生态”是一个道阻且长的过程,也许来势汹汹的GDPR是一个先行的实践,最终的平衡很可能要在很多的争论和矛盾中才能逐渐达到吧。

产业AI数据泄露
2
相关数据
人工智能技术
Artificial Intelligence

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

比特币技术
Bitcoin

比特币是一种用去中心化、全球通用、不需第三方机构或个人,基于区块链作为支付技术的电子加密货币。比特币由中本聪于2009年1月3日,基于无国界的对等网络,用共识主动性开源软件发明创立。比特币也是目前知名度与市场总值最高的加密货币。 任何人皆可参与比特币活动,可以通过称为挖矿的电脑运算来发行。

大数据技术
Big data

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

区块链技术
Blockchain

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

自动驾驶技术
self-driving

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

返回顶部