近日,来自史蒂文斯理工学院和纽约理工学院的研究者开发了一种新型 GAN 方法,可使破解密码更加简单。研究者称该技术可用于打击黑客。
上周,美国老牌征信公司 Equifax 称遭到黑客的蓄意攻击,系统内 1.43 亿用户的个人信息被泄露。这当然令人担忧,但更严重的是,如果黑客想要通过破解密码的形式获取你的网上数据,可能用不了一个小时,你就完了。现在,有一个更坏的消息:科学家借助人工智能打造了一款应用(需要结合现有工具),可破解包含 4300 万 LinkedIn 用户资料的集合中超过四分之一的密码。研究者称这一技术还可用于打击黑客。
来自纽约 Cornell Tech 主攻计算机安全的科学家 Thomas Ristenpart 说(他并未参与研究),该项工作可以帮助普通的用户和公司测量密码长度,也可以用来生成假密码以检测违规行为。
最强大的密码破解程序 John the Ripper 和 hashCat 使用了若干项技术。其中一个简单粗暴,直接随机尝试大量字符组合直到成功破解密码。但是其他方法涉及利用先前泄露的密码进行推算,并借助概率方法猜测密码的每一个字符。在一些网站上这些程序的破解率高达 90%。但是它们需要数年的手动编码才能展开攻击计划。
该项新研究旨在通过深度学习加速进展。史蒂文斯理工学院的研究者使用生成对抗网络开始了这项研究。GAN 包含两个人工神经网络,生成器试图生成逼真的人工输出(比如图像),而鉴别器则负责辨识真伪。二者之间相互博弈直到鉴别器无法辨识出生成器输出的真伪。
Giuseppe Ateniese,来自史蒂文斯理工学院的一名计算机科学家,也是这篇论文的作者之一。他把生成器和鉴别器分别比作帮助警察绘制罪犯素描的艺术家和目击证人;素描试图绘制准确的罪犯画像。GAN 曾被用于制作逼真的图像,但是并未被应用到文本中。
Stevens 团队创建了一种叫做 PassGAN 的生成对抗网络,并将它与两种版本的 hashCat、一种 John the Ripper 版本进行对比。科学家为每个工具提供数千万来自游戏网站 RockYou 的泄露密码,让它们自行生成数亿个新密码。然后科学家计算与领英(LinkedIn)的泄露密码匹配的新密码数量,来衡量它们破解密码的成功率。
PassGAN 生成的密码与 LinkedIn 密码集匹配的比例是 12%,其他三个竞争对手的比例在 6% 到 23% 之间。但是,最佳表现来自 PassGAN 和 hashCat。研究者在本月发布到 arXiv 上的论文中提到,二者结合起来能够破解 LinkedIn 密码集中 27% 的密码。即使是 PassGAN 生成的失败的密码看起来也很像真实密码,如 saddracula、santazone、coolarse18。
使用 GAN 帮助猜测密码是一种「新颖」的做法,一位在纽约大学学习技术的计算机科学家 Martin Arjovsky 认为。这篇论文」确认了这一事实:存在一些清晰、重要的问题,可用简单的机器学习方法来解决,并且能够带来巨大的优势。」他认为。
Ristenpart 还认为:「我不清楚达到这样的成果是否需要复杂的 GAN。」他说,或许更简单的机器学习技术也能向 hashCat 提供同样的帮助。(Arjovsky 同意此观点。)确实,卡耐基梅隆大学介绍的一种高效的神经网络近期发挥了作用,Ateniese 计划在将论文提交同行评议之前直接将其与 PassGAN 进行对比。
Ateniese 说,即使在实验中,PassGAN 帮助了 hashCat,他「确定」未来的迭代会超过 hashCat。部分因为 hashCat 使用固定的规则,无法自行输出超过 6.5 亿密码。而 PassGan 可以自己创造规则,无限制地创建密码。「我们说话的瞬间,它正在生成数百万个密码。」Ateniese 说。他还认为 PassGAN 将随着神经网络层数增加、在更多泄露密码上进行训练,得到进一步改善。
他比较了 PassGAN 和 AlphaGo,认为:「AlphaGo 设计了专家未曾见过的新策略,因此我个人认为,如果你向 PassGAN 提供足够的数据,它也能够提出人类从未想到过的规则。」
如果你担心自己的安全,专家建议创建强密码,比如密码设置的长一些(但仍然要好记),使用双重验证。
论文:PassGAN: A Deep Learning Approach for Password Guessing
论文链接:https://arxiv.org/abs/1709.00440
当前最优的密码破解工具 HashCat 与 John the Ripper (JTR) 每秒可帮助用户生成数十亿的密码以破解密码哈希(password hash)。除了直接的词典攻击外,这些工具还可以通过密码生成规则扩展词典。尽管这些规则在当前密码数据集上表现良好,创建为新数据集而优化的新规则是一个体力活,需要专家的参与。
本文提出使用基于机器学习的理论式密码生成方法代替人类的密码规则。该研究的成果即 PassGAN,一项利用 GAN 改善密码破解的全新技术。PassGAN 通过一系列的泄露密码训练 GAN 生成破解密码。由于 GAN 的输出紧密分布在训练集上,使用 PassGAN 生成的密码很可能匹配未被泄漏的密码。由于从密码数据而不是人为分析自动推断密码分布信息,PassGAN 可观地提升了基于规则的密码生成工具的效率,从而可以毫不费力地利用新的泄漏密码生成更丰富的密码分布。
我们的实验证明该方法很有发展前景。我们在两个大型密码数据集上评估 PassGAN 时,发现 PassGAN 超出 JTR 的规则 2 倍,能够与 HashCat 的规则进行竞争——少于 2 倍。更重要的是,当我们把 PassGAN 和 HashCat 的输出结合起来之后,发现比 HashCat 自己匹配的密码多出 18%-24%。这是一个重要的结论,因为它证明 PassGAN 生成的密码数量是目前工具无法企及的。
原文链接:http://www.sciencemag.org/news/2017/09/artificial-intelligence-just-made-guessing-your-password-whole-lot-easier