抗疫已进入决战阶段,一方面,防控和治疗仍是当前最重要的工作,另一方面,科研机构和相关企业也正在积极寻求更多可用于对症治疗的药物。多项新型冠状病毒相关研究相继展开,但相比于其他类型的疾病,抗病毒药物的研发和临床试验都更加困难,目前还未发现针对新型冠状病毒明确有效的特效药。
由华中科技大学同济医学院基础医学院、华中科技大学同济医学院附属武汉儿童医院、西安交通大学第一附属医院、中科院北京基因组研究所、华为云组成的联合科研团队,针对 2019 新型冠状病毒的多个靶标蛋白,对 8506 种上市或者正在进行临床试验的药物中进行超大规模计算机辅助药物筛选工作,目前已取得第一阶段成果。
研究筛选出了五种可能对 2019 新型冠状病毒(2019-nCoV)有效的抗病毒药物,分别是 Beclabuvir,沙奎那韦(Saquinavir),比特拉韦(Bictegravir),洛匹那韦(Lopinavir),多替拉韦(Dolutegravir)。
本文将对该研究的 2019 新型冠状病毒所有关键蛋白质同源模建结果和方法进行详细介绍。
1、以SARS-CoV蛋白质结构作为模板构建2019-nCoV蛋白质三维结构
蛋白质同源建模是指当未知结构的蛋白和已知结构的蛋白质在一级序列上比较相似的时候,可以把已知结构的蛋白作为模板,通过计算机的模拟和计算,基于未知结构蛋白的一级序列预测其三维空间结构。
同源建模基于两个假设:1. 蛋白质的结构由其氨基酸序列唯一决定,如果已经知道一级序列,在理论上就可以获取其二级结构以及三级结构。2. 蛋白质的三级结构在进化中相比于其一级序列更加保守。如果两个蛋白质的氨基酸序列有 50% 相同,那么约有 90% 的 a-碳原子的位置偏差不超过 3 Å。
鉴于 2019-nCoV 和 SARS-CoV 非常近似,氨基酸的序列一致性达到了 76.47%。同时 SARS-COV 的蛋白质的三维结构基本上已经被解析出来,所以研究者以这些已知的蛋白质三维结构作为模板,构建了 2019-nCoV 的蛋白质结构。
2、数据和方法
2019-nCoV蛋白质一级序列提取
2019-nCoV 的基因组序列参考 NCBI 上已公开的序列:NC_045512.2。由于基因组注释数据的缺失,无法直接获取其所有功能蛋白质的一级序列。研究者将 SARS-CoV 的各个蛋白对应的序列比对到 2019-nCoV 基因组上,选择 best match 的比对区域,作为该蛋白对应的在 2019-nCoV 的一级序列。通过这种方法,获得了 2019-nCoV 的共计 20 个蛋白质的序列,包括非结构蛋白 16 个(NSP1-16)与结构蛋白 4 个(S,M,N,E)。
同源建模:Swiss model
Swiss-model 是自动化蛋白质同源建模工具,使用的过程中需要用户输入目的蛋白的序列,也可以同时指定参考蛋白质模板,在没有指定模板的情况下,系统会自动选择匹配度最高的模板。
- Step 1: 输入蛋白质序列
在 swiss-model 主页 (https://swissmodel.expasy.org/) 点击「Start modeling」并上传蛋白质的 fasta 序列。点击「Search For Templates」,开始搜索最模板蛋白。
- Step 2: 选择合适的模板蛋白
Swiss-model 会给出通过一级序列匹配到的模板蛋白,以及每一个模板蛋白的匹配度和模板蛋白的参数,基于以下标准选择最优的模板蛋白用于同源建模:
- 目的蛋白和模板蛋白一级序列一致性要求:identity>30%;优先选择 identity 最高的模板蛋白;
- 优先选择 SARS-COV 的模板蛋白用于同源建模;
- 当 identity 比较相似的时候,优先选择通过高精度 X-ray 方法构建晶体结构的模板;如果没有 X-ray,需要点进 PDB 看蛋白结构分辨率,优先选分辨率高的;
- 如果 Oligo State 存在有 Homo 和 heter,就两个都要选择。
- Step 3:同源建模
选定好最优的模板蛋白之后,点击页面的「Build Models」,即可自动的做同源建模;对于序列比较短的蛋白(<100 残基),该过程通常花费几分钟;对于序列比较长的蛋白(>1000 残基),该过程通常花费约二十分钟左右;建模完成后,可直接下载模板蛋白和目的蛋白的三维空间结构用于后续的分析。
- Step 4:分子动力学模拟
同源建模得到的蛋白质结构可以用于分子动力学(Molecular Dynamics)模拟。分子动力学模拟可以通过 GROMACS 等工具完成,这一步骤通常比较耗时。华为云医疗智能体平台提供了加速版的 GROMACS,加速后的 GROMACS 消耗的时间为传统版本的 1/6。
3、建模结果统计
针对 2019-nCOV 的 20 个蛋白质一级序列,有 15 个蛋白和 SARS-COV 的蛋白质有比较高的同源性,identity>70%;通过蛋白质三维工具可视化之后,也可以看到这些蛋白质的三维空间构象和模板蛋白比较相似;
其中有一个蛋白质,NSP4,在 SARS-COV 中没有很好的同源蛋白,是以小鼠肝炎病毒的 A59 进行建模,其 identity>60%;
另外有四个蛋白质的同源建模效果不是很好,其中 NSP2,NSP6 和 M 均没有很好的目的模板,匹配度最好的蛋白质序列的 identity < 30%;所以建模的结果不太理想;同时 NSP11 蛋白质的长度只有 11 个残基,长度太短,不满足建模要求;
目的蛋白的长度,模板蛋白的选择和同源建模的参数整理在以下的表格中供参考:
4、数据和可视化
模板蛋白和同源建模得到的 2019-nCoV 蛋白质三维结构都以 PDB 格式进行保存,华为云医疗智能体平台的 Notebook 工具已经内置了可视化所需要的插件和工具,用户可以交互式拖动和展示感兴趣的蛋白质三维结构。
以上涉及到的数据、算法和工具,目前都已经集成在华为云医疗智能体平台。同时,联合科研团队也正在对筛选出来的五种抗病毒药物进行细胞学验证,并推动后续一系列药物临床试验。