“造假”和“打假”是一场永无止境的猫鼠游戏,只有提前考虑对方可能的招数,才不会陷入被动。
随着纸质类证明逐渐被电子版取代,「办假证」小贩的阵地也从电线杆搬到了线上。从健康证到身份证,从毕业证到资格证书,只要你有需求,这些人都会想办法帮你办到。
图注:某PS广告给出的篡改「手持身份证」照片案例。
对于需要对注册者进行资质审核的平台来说,“假证”泛滥是一个亟待解决的问题。在商业社会极速运转的今天,平台为了提效、降成本,往往只要求旗下商家或用户提供证件图片。与以往纸质类证件相比,图片形式的证件更容易实现无痕篡改。只要你PS技术够高,完全有可能骗过审核人员,甚至骗过算法。因此,“造假”和“打假”的猫鼠游戏也在平台和黑灰产之间持续上演。
知己知彼,百战不殆。对于平台来说,只有了解更多的造假手段,才能提高算法的检测能力,识别出更多的假证件图像。为此,阿里安全联合清华大学举办了全球首个针对证件资质文档类图像的伪造图像对抗攻击竞赛。该比赛由深圳大学、中国图象图形学学会、中国图象图形学学会数字媒体取证与安全专委会协办支持。
这是阿里和清华大学联合主办的「安全AI挑战者计划」第五期赛事,旨在打造全球最顶尖的安全AI赛事,面向未来培养更多新基建安全技术人才。
为什么说这是中国最顶尖的安全AI赛事?从出题方来看,AI安全的国内前沿研究学者聚集在清华大学,而阿里巴巴则拥有最广泛的应用场景,两个顶尖团队的结合确保了比赛的质量和各方面支持;从难度来看,「安全AI挑战者计划」主打高难度、高创新、高趣味、高回报的题目任务和运营玩法,每一期都能够实现超预期的累加技术成就;从成果来看,2019年8月到2020年6月,安全AI挑战者计划成功举办了第一期人脸对抗识别比赛、第二期ImageNet图像对抗比赛、第三期辱骂场景文本对抗比赛、第四期通用目标检测的对抗攻击,吸引了全球200多所高校、100多家企业的6000多支队伍参加。
最新一期比赛将于9月7日开启!
上一期比赛中,选手的任务是向原始图像中添加对抗补丁,使得典型目标检测模型无法检测到图像中的物体。这次,挑战难度再次升级:选手需要对真实的证件文档类图像中的指定候选区域进行伪造篡改,使得篡改后的图像成功欺骗4种经典的图像篡改检测模型,同时还要骗过人眼。
本期比赛分为两个赛道,赛道一于9月7日正式启动,赛道二于10月12日启动,两个赛道均为期三周。这种短平快赛制可以很大程度上避免选手产生疲劳感或丧失比赛兴趣。曾经参加过比赛的选手评价说,“比赛的时间和形式都很合理,数据集也是针对实际应用场景,具有现实意义,整个比赛体验不错,只需提交生成的图片,不仅方便,需要的计算资源也不多,适合广大学生参赛。”
区别于以往的图像对抗攻击比赛侧重于自然内容图像,此次比赛更关注能够用于表征权利人权益的证明材料图像。比赛采用的数据为10类真实的证件文档类图像。获胜团队可以得到奖金,还可以获得阿里安全校招绿色通道等奖励。
史上最难证件图像篡改对抗
与自然图像相比,证件文档类图像的篡改鉴别难度要更大一些,其难度主要体现在三个方面。
首先,当前的图像篡改鉴别大多利用图像生成过程内在特性,篡改区域的此类特性被破坏。然而,在资质文档类图像中,这种图像生成过程引入的特性没有自然图像那么显著,所以同样的篡改操作在资质文档图像比在自然图像中更难被发现。
其次,检测算法和对抗攻击总是处在一个动态博弈的过程中,而且有些时候算法在明,攻击在暗。现有的检测算法主要分两大类:第一类是基于传统信号处理提取特征的方式,第二类是基于深度学习的方式。但无论是哪一种方式,一旦攻击者知道了平台所用的检测方法,他们就可以有针对性地对图像进行反复修改,让算法失去作用。
最后,证件文档类图像对抗攻击的数据集是非常少的,目前还没有一个专门的大型数据集可以拿来训练,这就给算法的提升带来了很大困难。
阿里表示,此次比赛形成的数据集将在后期开放给社会,以促进整个行业的发展。同时,他们也希望进一步推广这类技术在业界的应用,为业界培养更多媒体内容安全方面的人才。
指定篡改区域要过人眼和算法两道法门
前面已经说过,本期比赛要求参赛者对原始图像的指定区域进行篡改。为什么要指定区域呢?这还要从证件文档类图像的特殊性说起。
如今,合成人脸、自然风景照的算法都已经比较成熟,自然度和逼真度也很高。但是,如果用这些方式来合成证件文档类图像就会存在两方面的问题。首先,这类合成证件文档类图像很难做到视觉无痕,骗过人眼;其次,即使它们能骗过人眼,也很难骗过算法,因为现有的检测算法对于这一类完全合成的图像检测准确率非常高,大部分能达到99%。
合成行不通的话,对抗样本可以考虑吗?阿里的安全专家表示,“对抗样本是鼓励的,但我们鼓励的是肉眼不可见痕迹的对抗性样本”。在真实的审核场景中,篡改后的图像不光要过算法这一关,还要能逃过人工审核,而一般的对抗样本(比如第四期比赛中的补丁)很容易被人眼看出破绽。
与真实场景相对应,在这次比赛中,出题方设置了两方面的评价指标:检测算法指标和视觉指标。如果你篡改后的图像面目全非或视觉质量非常差,那么即使在抗检测方面拿到满分,你的最后得分也只能是中等偏下。
因此,综合以上各种考虑,出题方选择让参赛者对指定候选区域进行篡改。
那这些区域是怎么选出来的呢?阿里安全专家表示,「我们假设自己就是黑灰产,给你张图,你要改哪些地方才能给你带来『收益』」。以经营许可证为例,能带来收益的篡改包括有效期、经营项目、经营者名称等,因此,他们就圈出了这些区域让参赛者发挥。
经典篡改检测算法绝不含糊
检测算法是一个关键的破题点。阿里的安全专家表示,目前可以透露的是一种名为ELA的早期经典算法。ELA 的全称是 Error Level Analysis(误差等级分析),可以识别图像中不同压缩级别的区域。在JPEG图像中,整个图像应该大致处于同一级别,如果图像某一部分的error level和其他部分有着明显的差别,则这部分可能经历了篡改。参赛者可以自行分析ELA算法使用了什么特征,然后通过各种方法在像素层面进行修改。
其他检测算法也都比较经典,大多利用图像邻域关系,如对邻域关系做特征统计,此外也有一些深度学习方法。
200万奖金等你拿,还有阿里绿通
挑战者计划第二季总奖金池为200万元,本期总奖金为254000元,并包含近10万的奖品福利,两个赛道的入围队伍奖励如下:
- Pioneering Award:通过比赛发表高水平学术论文,前两位获得1万元现金奖励。
- 奇思妙想奖:阿里巴巴20周年限定勋章礼盒(奖励给思路有创意的同学,上不设限)。
- 荣誉证书:前十名队伍和奇思妙想奖,都将获得阿里和清华共同颁发的顶级证书
- 线下颁奖:优秀队伍将受邀参加国内顶级学术会议——「AI与安全研讨会」。
- 绿色通道:总成绩排名Top20的队伍,可获得阿里安全校招绿色通道。
- 安全AI特训营:Top20选手将获得差旅全包到阿里安全总部的游学机会。
- 潮物周边:价值759的日式手工黄铜酒杯、价值599的纯牛皮精英书包、限定潮T、清新茶具、洋气香薰机等。
- 邀请好友奖:邀请对应数量同学报名挑战者计划第五期比赛,即可获得手办等奖品(9月26号之前)。
详细信息请参见:https://tianchi.aliyun.com/competition/entrance/531812/introduction
主办方会提供哪些帮助?
为了让参赛的同学更加顺利地完成比赛,阿里安全将在多方面提供支持,包括前期指导、算力支持、社区答疑等。
在比赛前期,组委会会收集行业的一些典型问题或解题指导,并将其沉淀成文档放到比赛的论坛上。选手们可以下载其中的数据和指南。
在比赛中期,阿里安全会为排名靠前的选手提供一批免费服务器,供选手解决算力不足的痛点。如果在比赛过程中遇到问题,选手可以在线上社区进行提问,阿里安全的专家也会及时答疑。
当下,安全人才仍是稀缺资源。统计数据显示,到2020年,网络安全人才缺口达到140万。多位业内专家认为,这与网络安全专业人才攻防历练脱离实际场景、缺乏系统性密不可分。当前安全行业对人才需求旺盛,培养一个优秀的安全专业人才周期很长,需要在丰富的实际业务场景中经过多年体系化的历练。
今年4月2日,阿里安全宣布面向全国高校在校生发布「青色计划」招募令,以期与高校通过科研、产品等合作方式,培养未来安全人才,填补安全人才缺口。「安全AI挑战者计划」正是「青色计划」的核心人才培养途径之一。截止目前,该比赛已经收到了2000万条恶意样本,沉淀了40多个具有前沿创新性的参赛源码和方案,激发出高校学生在安全AI领域极大的创造力,也为实际业务问题的解决贡献了力量,最大程度地填补和缓解AI安全人才缺口。
阿里安全首席架构师钱磊表示:「在阿里安全,基于复杂业务场景的攻防对抗几乎每天都在发生。当数字技术正在构建前所未有的新世界,阿里安全团队面对的是互联网企业中最丰富的业态和风险,毫无疑问,这是训练和提升人才专业能力最好的练兵场。」
清华大学著名教授朱军评价说:「安全AI挑战者计划是我们针对目前机器学习算法鲁棒性不足、容易受到恶意攻击的问题,主动地挖掘目前机器学习算法的安全漏洞,以期构建更加安全和可信的AI系统的一次尝试。我们希望通过这种努力,发展新的机器学习算法,并逐步将AI的安全问题体系化、标准化,逐渐形成一个优秀的线上社区,凝聚对抗样本乃至AI安全方面的研究者与开发者,通过大家的共同努力提升机器学习算法的安全性和可靠性。」
如果你也想报名参赛,可以点击以下链接:https://tianchi.aliyun.com/competition/entrance/531812/introduction