作者 | 安徽大学苏延森教授团队与湖南大学曾湘祥教授团队
编辑 | ScienceAI
今天为大家介绍的是安徽大学苏延森教授团队与湖南大学曾湘祥教授团队合作发表在工程技术领域Top期刊《IEEE Computational Intelligence Magazine》的文章「Evolutionary Multi-Objective Optimization in Searching for Various Antimicrobial Peptides」。
文章介绍了一种用于同时优化肽的抗菌活性和多样性的多目标进化优化方法。该方法利用基于分解的框架搜索具有良好多样性的抗菌肽,并应用局部搜索策略以提高所识别的抗菌肽的质量。实验表明,该方法在多种抗菌肽的设计方面优于现有方法。所生成的抗菌肽具有较高的抗菌活性,且彼此之间以及和数据集中已有的抗菌肽之间存在一定的差异。
一、研究背景与意义简介
随着抗生素的广泛使用,病原微生物对常规抗生素的耐药性已成为一个重大的公共卫生问题。近年来,抗菌肽因其具有广谱抗菌活性和较强的杀菌作用,显示出其作为新型治疗药物的潜力,也因此受到研究人员广泛关注。尽管一些天然抗菌肽已用于耐药病原体的临床试验,但因其往往存在不稳定性、半衰期短、副作用大、溶血活性严重和蛋白降解等缺陷,亟需设计新型抗菌肽。
抗菌肽的设计即为在巨大的序列空间中寻找具有高抗微生物活性的氨基酸序列。假设肽序列长度等于30,那么可能的氨基酸组合数量达到20^30(或10^39)。抗菌肽的设计方法包括虚拟筛选和全新药物设计。虽然这些方法可以生成全新的抗菌肽,但所生成的抗菌肽多样性较低,限制了对新型抗菌肽的探索。抗菌肽的设计可以看作是一个多模态优化问题,其中,「多模态」意味着可能存在多个全局最优解(即抗菌活性最高的肽的肽)和良好的局部最优解(即具有高抑菌活性的肽)。为了发现新型抗菌肽,该问题的解序列应该较好地分布于序列空间。然而现有方法难以求解该问题。
针对上述问题,作者提出了一种进化多目标抗菌肽设计方法(简称为AMPEMO)。AMPEMO将抗菌肽设计问题转化为两目标优化问题,即最大化抗菌活性和已发现抗菌肽的多样性,其中,通过基于深度学习的代理模型准确预测肽的抗菌活性;通过基于生态位共享方法的肽相似性评估算法评估序列间的多样性。此外,设计了基于分解的进化多目标算法,在目标空间中通过权向量将问题分解为许多子问题。将在优化过程中具有高抗菌活性和良好多样性的肽存于精英档案。同时,引入了局部搜索策略,进一步提高了多肽的质量。
二、模型与方法
作者所提出的AMPEMO将抗菌肽设计转化为一个多目标优化问题,设计多目标进化优化算法求解该问题。图1的左侧展示待优化的两个目标,其中第一个目标(f1)是肽的抗菌活性,通过深度学习方法预测;第二个目标(f2)是肽的多样性,通过利用生态位共享法来评估。在图1的右侧,展示求解该问题的多目标进化算法流程。
三、实验与结果
AMPEMO与四种最先进的基于计算智能的全新抗菌肽设计方法(LSTM RNN,AMP-LM,AMPGAN v2和LSTMAMP)以及标准进化算法(sEA)和传统生态位方法(nEA)进行了比较。训练模型的数据集由Daniel等人提供,其中包含1778 个来自于APD3的已被实验验证的抗菌肽和1778个来自于UniProt的经实验验证的非抗菌肽。实验中,首先检验了各方法在设计序列长度范围为[7,48]的抗菌肽的性能(图 2 )。其次,由于AMP-LM、AMPGAN v2和LSTMAMP不能生成固定长度的抗菌肽,因此仅比较AMPEMO与LSTM RNN在生成具有固定长度的抗菌肽的性能。
性能指标:利用Scalable niching method (SC)、Pure Diversity (PD)、Dissimilarity to Dataset (DD)、Self-Organizing Map (SOM)等四种指标评价性能。
设计可变长度的抗菌肽:表1显示了各方法所得的SC、PD和DD的平均值,其中'†'表示比较方法在统计上明显比AMPEMO差。注意,AMPEMO*是无局部搜索策略的AMPEMO 变体。由表1可见,LSTM RNN、AMP-LM、AMPGAN v2 和LSTMAMP 的效果明显优于sEA和nEA,然而由上述方法所得抗菌肽的多样性明显低于AMPEMO。AMPEMO在每个性能指标上都优于其他方法,说明AMPEMO具有良好的抗菌肽设计能力。
图3显示了由AMPEMO、AMPEMO*和sEA 获得的平均SC、PD和DD,以研究它们在进化过程中的搜索行为。由图3可见:(1)随着评价次数的增加,AMPEMO和AMPEMO*得到的SC和PD 值普遍增加,sEA得到的SC和PD值则呈下降趋势。(2)三种方法得到的DD值都随着评价次数的增加而减小。然而,AMPEMO和AMPEMO*所获得的值以较慢的速度下降,并保持在较高的水平。(3)在局部搜索后,AMPEMO通常获得比AMPEMO*更大的SC和DD值。这些观察结果表明,所提出的进化多目标方法在获得的抗菌肽多样性方面优于进化单目标方法,其中局部策略也发挥了重要作用。
设计固定长度的抗菌肽:在这一小节中,研究了比较方法设计固定长度序列的能力。由于sEA和nEA性能不佳,不予考虑。此外,AMP-LM、AMPGAN v2和LSRMAMP不能产生固定长度的序列。因此,仅对AMPEMO、LSTM、RNN进行比较。
图4、图5和图6分别显示了AMPEMO和LSTM、RNN获得的关于肽长度的平均SC、PD和DD。从图中可见:(1)在每个测试实例(即每个长度)上,AMPEMO获得的平均SC和PD优于由LSTM、RNN获得的值。(2)随着长度的增加,由于搜索空间更大,使得两种方法所得的平均SC变差。(3)大多数情况下,AMPEMO获得的平均PD大于1,即AMPEMO获得的抗菌肽多样性高于随机产生的肽。(4) AMPEMO所得的平均DD值优于LSTM、 RNN。当长度很长时,已知抗菌肽的数量很少,这导致难以估计获得的抗菌肽和已知抗菌肽之间的差异,因此AMPEMO和LSTM、RNN得到的结果接近。综上,当序列长度较小时,AMPEMO可以生成具有固定长度且具有良好多样性的抗菌肽。
四、结论
论文中作者提出了用于抗菌肽设计的AMPEMO。AMPEMO将抗菌肽设计问题转化为一个双目标优化问题,并设计多目标进化优化算法进行求解。将AMPEMO与标准进化算法、基于生态位的进化算法和四种最先进的基于计算智能的方法(LSTM RNN、AMP-LM、AMPGAN v2和LSTMAMP)进行了比较,以设计具有可变长度和固定长度的抗菌肽。实验结果表明,AMPEMO算法在搜索抗菌肽方面优于已有方法。未来将从生物学上验证AMPEMO鉴定的抗菌肽的真实特性。
论文链接:https://ieeexplore.ieee.org/abstract/document/10102386