FB & 纽约大学新论文:用 Transformer 表征蛋白质序列
近日,Facebook 和纽约大学联合发表了一篇论文「生物结构和功能从无监督学习扩展到 2.5 亿蛋白质序列」。以下是论文摘要:在人工智能领域,由无监督学习实现的数据规模和模型能力的结合导致了表征学习和统计生成的重大进步。在生物学中,测序的预期增长有望提供前所未有的自然序列多样性数据。学习进化蛋白质序列变异的自然分布是生物学预测和生成建模的合理步骤。为此,我们使用无监督学习来训练跨越 2.5 亿个序列的 860 亿个氨基酸的深层语境模型,涵盖进化多样性。得到的模型将原始序列映射到生物特性的表示,而没有标记或先前的领域知识。学习的表示空间组织从生物化学到蛋白质组水平的多个生物粒度水平的序列。学习恢复有关蛋白质结构的信息:二级结构和残基 - 残基接触可以通过学习表示的线性投影提取。利用少量标记数据,进一步改善了识别三级接触的能力。学习全序列多样性而不是单个蛋白质家族可以增加关于二级结构的可恢复信息。我们通过使它们适应仅来自序列的变异活动预测来展示网络,其结果与使用进化和结构衍生特征的现有技术变体预测器相当。