信使 RNA(mRNA)疫苗正应用于包括新冠、带状疱疹在内的各类疾病的预防治疗。由于 mRNA 是单链结构,导致其不稳定、易降解,免疫原性会因此遭到破坏。这也是疫苗储存、使用过程中最主要的障碍之一。
能否突破这一障碍,成为了推动各类疾病预防治疗发展的关键。
幸运的是,科学家研究发现,优化 mRNA 的二级结构稳定性可延长它的半衰期;同时,结构稳定性与密码子优化相结合,可提升蛋白质表达。因此,mRNA 设计算法必须同时优化结构稳定性和密码子使用,从而提高 mRNA 疫苗和药物的效力。
然而,由于同义密码子的存在,导致mRNA 设计空间非常大,比如 SARS-CoV-2 Spike 蛋白对应有约 10 的 632 次方条 mRNA,这是传统 mRNA 设计方法难以逾越的挑战。
百度美国研究院的研究人员通过将该问题简化为计算语言学中的经典问题:寻找最佳 mRNA 的过程可类比于在发音相似的语句中找到最可能的句子,以此开发了一个名为 LinearDesign 的算法,该算法可以联合优化二级结构稳定性和密码子使用,在寻找新冠 mRNA 疫苗的最稳定 mRNA 序列时仅用时 11 分钟。
百度邀请斯微生物(上海)公司进行生物学实验验证,包括细胞和动物实验。在头对头实验验证中,与传统的密码子优化的基准相比,百度团队的设计显著改善了体外 mRNA 半衰期和蛋白质表达,使体内抗体反应增强了高达 128 倍。
这是百度生物计算领域最近取得一项重要突破,论文于 2023 年 5 月 2日发表在国际顶级学术期刊《自然》杂志上,这是中国科技企业首次以第一完成单位的身份发表论文于《自然》正刊,也是 AI 应用于 mRNA 领域首篇 CNS 主刊论文。
考虑到此项研究对生物医药研究,尤其是 mRNA 疗法的重要价值,论文还被获准成为 Accelerated Article Preview (AAP) 加速发表论文。此前只有少数像 AlphaGo、AlphaFold 2 等极具影响力的论文能够获准以 AAP 形式快速上线。这也体现了百度在科研领域的实力和创新能力,也标志着中国科技企业在全球科研领域的地位攀升。
依托基于飞桨的生物计算平台-螺旋桨 PaddleHelix,百度正在基于文心生物计算大模型,为生物医药领域的研发者们提供如 LinearDesign 一样的算法工具。百度文心大模型已经形成了大模型技术体系,包括自然语言处理、视觉、跨模态、生物计算等。最近火爆的文心一言就是文心大模型家族一员,是百度自主研发的知识增强大语言模型。据了解,文心一言的企业服务生产力已经被广泛认可和应用。
LinearDesign 的设计思路
百度研究人员直面当前 mRNA 设计中的症结所在。目前 mRNA 设计有两个主要目标,即稳定性和密码子最优性。为了优化稳定性,研究人员需要在编码目标蛋白质所有可能的 mRNA 序列中,找到具有最低“最小折叠自由能变化 (MFE)” 的 mRNA 序列。研究人员使用了两个从自然语言中借用的思想——DFA(lattice)表示和网格解析(lattice parsing)——来解决这个问题。
Design Space Representation: DFA (Lattice) 受计算语言学中处理歧义的“词格(word lattice)”表示的启发,研究人员使用类似的网格(计算理论中称之为确定有限自动状态机,即 DFA) 表示每个氨基酸的密码子选择(图2a)。在为每个氨基酸构建密码子 DFA 后,将它们连接成单个 mRNA DFA(图2b);其中从起始状态到最终状态的每条路径,均代表编码该蛋白质的可能 mRNA 序列。
稳定性:RNA的稳定性与其折叠(RNA folding)后的最小自由能(MFE)紧密相关。单个RNA序列 的折叠问题可以等效为自然语言处理中的单个句子解析(parsing), 利用随机上下文无关语法(SCFG)来表示RNA折叠模型。但对于 mRNA 设计,最大的问题是,如何将 DFA 中的所有 mRNA 序列一起折叠?研究人员借用了“lattice parsing”的思想,将单序列分析概括为同时处理 lattice 中的所有句子,从而找到最有可能的句子。类似地,研究人员使用 lattice parsing 同时折叠 mRNA DFA 中的所有序列以找到最稳定的序列。从计算理论的角度,lattice parsing 可以看做是 SCFG 与 DFA 之间取交集的操作。
密码子最优性:为了同时优化稳定性和密码子最优性,研究人员将 DFA 扩展到加权 DFA (WDFA),从而在边权重上整合密码子最优性,继而利用 lattice parsing 在 WDFA 上进行联合优化求解。这也可以看作是 SCFG 和 WDFA 之间取交集。
论文共同一作张贺博士表示:自然语言处理中的语音识别问题与 计算生物学中的 mRNA 设计问题在本质上有着相似之处,最底层的数学逻辑是一样的。mRNA 序列,它本身是由四个碱基组成的,就像是一个个单词组成的句子。比如,给定一个蛋白质序列,那么你可以把这个蛋白质序列想象成一个语音。这个蛋白质序列会对应成千上万个海量的 mRNA 候选序列,所有这些候选序列都可以翻译成给定的蛋白质序列。这就好比我们有很多个句子的文本,它对应着某段语音。
“我们这个算法的优点之一是,它有非常明确的优化目标,具体来说是对 mRNA 的稳定性和密码子偏好,这两个已经被证明其重要性的特征进行优化,具有非常强的解释性。而且我们可以保证利用这个算法生成的序列,就是在海量序列里面全局最优的序列,至少在计算层面上是全局最优的序列。”张贺老师补充道。
可在个人电脑上运行,LinearDesign 为何如此高效?
成效是检验解决方案的重要指标。LinearDesign 算法在效果与部署效率上交出了自己的答卷。
从效果上看,LinearDesign 算法进行超高效运算,是因为它采用了一个计算机科学领域非常经典的动态规划算法,其最重要的特点是可以通过合并等效状态,无损地对海量搜索空间进行压缩。
例如新冠 mRNA 疫苗的设计,它的候选序列有 10 的 632 次方之多;假如进行枚举,假设每秒一个可能也需要 10 的 617 次方亿年。研究人员利用动态规划算法,无损地对海量的 mRNA 序列搜索空间进行压缩,将一个需要指数级复杂度的方法,变成了一个多项式复杂度的算法,运算时间便大大缩短,甚至在 11 分钟便可计算得出最稳定的新冠 mRNA 疫苗序列。
在部署效率上,有人可能会问“如此高效的运算,是不是需要很高的算力?需要好多个 A100?”
“我们的算法对于算力的要求并不高。它可以在云平台服务器,甚至是个人电脑上运行。”张贺解释道,“另外,这个算法有非常强的普适性,比如说它对于目标序列的长度几乎没有限制,只要你的计算机内存足够大,就可以跑。我们曾经做个简单的测试,一台普通的 mac 笔记本,跑两千以内的蛋白序列是完全没有问题。所以说,几乎一台小小的个人电脑就能满足需求。”
助力医药研发,LinearDesign 潜力巨大
在帮助研究者高效优化 mRNA 序列之外,LinearDesign 算法还有助于提升疫苗的有效性。研究人员对 LinearDesign 生成的 mRNA 序列进行了生物实验验证,证明其在对疫苗性能至关重要的三个属性方面优于传统的密码子优化基准:即化学稳定性、翻译效率和免疫原性。研究人员还选取了这里选取了新冠和带状疱疹(VZV)两种 mRNA 疫苗证明算法的普适性。
在新冠 mRNA 疫苗头对头实验中(图4),对比疫苗公司进入临床实验的新冠 mRNA 疫苗序列,LinearDesign 设计的序列稳定性(mRNA分子半衰期)最多提升 5 倍以上,蛋白质表达水平(48 小时)最多提升 3 倍,抗体反应最多提升 128 倍。在带状疱疹 mRNA 疫苗头对头实验中(图 5),对比于传统密码子优化方法设计的带状疱疹mRNA疫苗序列,LinearDesign 设计的序列其稳定性(mRNA 分子半衰期)最多提升 6 倍以上,蛋白质表达水平(48 小时)最多提升 5.3 倍,抗体反应最多提升 8 倍。
LinearDesign 生成的 mRNA 可以显著提升 mRNA 疫苗的有效性和保护力,这将有助于生物医药公司快速研发更有效的 mRNA 疫苗,并降低研发成本。
此外,理论上来讲,所有蛋白类的药物都可以通过 mRNA 递送到体内,在体内翻译成蛋白来发挥药效。因此,LinearDesign 可以广泛应用于 mRNA 疗法,并可用于单克隆抗体和抗癌药物等等。
“未来我们期待,并且也相信迭代算法能够大规模应用在药物研发的管线上。对此我们提供了多种方式,包括私有化部署、云平台服务等等,非常灵活。可以为各种药企、创业公司、科研机构提供定制化的算法库。”张贺补充道。
论文的共同通讯作者、俄勒冈州立大学教授兼 coderna.ai 创始人黄亮表示,此项目是跨学科合作的成功范例,涉及了人工智能、计算语言学、计算生物学、分子生物学、合成生物学、免疫学等多个学科,是人工智能用于生物医学的一个里程碑。
论文链接:https://www.nature.com/articles/s41586-023-06127-z