DeepMind,伦敦大学学院新研究:通过区间界限传播实现对符号替换的验证稳健性
来自 DeepMind 以及伦敦大学学院的研究团队近日发表了一篇名为「通过区间界限传播实现对符号替换的验证稳健性」的研究。以下是该论文的完整摘要:神经网络是许多当代 NLP 系统的一部分,但它们的经验成功是以对抗性攻击的脆弱性为代价的。先前的研究使用对抗训练和数据增加来部分缓解这种脆弱性,但由于离散文本扰动引起的搜索空间的复杂性,这些不太可能找到最坏情况的对抗样本。本研究从相反的方向处理问题:正式验证系统对预定义的一类对抗性攻击的鲁棒性。研究人员着眼于同义词替换或字符翻转扰动下的文本分类,并建议将这些输入扰动建模为单形,然后使用区间界限传播 - 一种形式化的模型验证方法。研究团队还修改了传统的对数似然训练目标,以训练可以有效验证的模型,否则这些模型将具有指数搜索复杂性。由此产生的模型在标称精度方面只显示出很小的差异,但是在扰动下已经大大提高了验证的准确性,并且在最坏对抗情况的对手中提供了有效的可计算的正式保证。