中国西北大学和北京大学的研究结果是否将终结CAPTCHA验证码时代?

在互联网上进行沟通时,你如何证明自己不是机器?这是一个棘手的问题,但多年以来的解决方案就是你能够成功地读取一系列机器无法识别的扭曲字符。这种安全工具称为CAPTCHAs。

CAPTCHA项目是Completely Automated Public Turing Test to Tell Computers and Humans Apart (全自动区分计算机和人类的图灵测试)的简称,卡内基梅隆大学试图将其注册为商标,但2008年请求被驳回。CAPTCHA的目的是区分计算机和人类的一种程序算法,是一种区分用户是计算机和人的计算程序,这种程序必须能生成并评价人类能很容易通过但计算机却通不过的测试。用于阻止自动垃圾邮件发送者到停止机器人在社交媒体网站上创建欺诈性配置文件的所有内容。在过去的20多年里,它已经发挥作用 - 可能到现在为止。

在中国西北大学、北京大学和英国兰开斯特大学研究人员的共同努力下,计算机科学家开发出了一种能够在短短0.5秒内破解文本CAPTCHA系统的人工智能。它已在不同的33个CAPTCHA计划中成功测试,其中11个来自世界上最受欢迎的网站,包括eBay、微软、谷歌和维基百科。该论文发表于今年的ACM会议上,并是最佳论文奖的入围者。

兰卡斯特大学计算与通信学院副教授Zheng Wang表示:「我们认为我们的研究可能会对CAPTCHA文本进行死刑判决。

尽管已经提出了几种攻击,基于文本的CAPTCHAs1仍被广泛用作安全机制。其中一个普遍使用文本验证码的原因是很多以前的攻击是针对特定方案的,需要劳动密集型的建设耗时的过程。

但是此次研究人员开发的攻击基于深度神经网络图像分类器。深度神经网络在图像识别方面表现出令人印象深刻。但是,成功的模型通常需要数百万个手动标记的图像才能学习。这项最新工作的新颖之处在于它使用生成对抗网络(GAN)来创建此训练数据。该系统不需要收集和标记数以百万计的CAPTCHA示例,而只需要500个就可以学习。然后,它可以使用它来生成数百万甚至数十亿的合成训练数据,以创建其成功的图像分类器。结果是比迄今为止所见的任何CAPTCHA识别器系统具有更高的精度。

这种方法对于需要大量训练数据的任何图像识别任务都是有用的。然而,CAPTCHAs在某种程度上是独一无二的,因为它们不断发展。基于文本的早期CAPTCHA是该技术的第一次迭代。但是,到目前为止,您可能更习惯于广泛使用的基于交通标志的CAPTCHA。这种不断变化使收集训练数据变得很痛苦。

「这种方法意味着,当攻击者收集到足够的训练数据时,CAPTCHA 计划将会发生变化,这将使这些努力无效。」Zheng Wang 说,「我们的工作提供了一种以更低的成本生成 CAPTCHA 识别器的新方法。因此,它对 CAPTCHA 计划构成了真正的威胁,因为它可以更快地学习 CAPTCHA 解算器。」

信息来源:https://www.digitaltrends.com/cool-tech/ai-cracks-captcha-05-seconds/

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业图像识别图像分类深度神经网络CAPTCHA北京大学西北大学
3
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~