iPOP:首个基于个性化大数据的个性化医学研究

该研究是关于 Mike Snyder 教授的「整合性个人组学图谱」(integrative personal omics profile,iPOP);Mike Snyder 教授是该论文的通讯作者,也是斯坦福大学遗传学系主任。这是首项针对个人的健康与疾病状态进行的大规模 iPOP 研究。该论文于 2012 年发表在 Cell 上。


664c81d3337f40e227e9956c305977f1.jpg


背景


在基因组的层面上,我们与我们的邻居或者朋友具有 99.9% 的相似性。但正是这 0.1% 的不同,让我们每个人都与众不同。这些微小的遗传变异对于我们的健康具有巨大的影响。因此,疾病的发生过程和我们对于治疗的反应都与我们的基因组序列紧密相关。除了我们的基因组,人与人之间的差异也体现在 RNA、蛋白质和代谢产物的层面上。


长时间段的 iPOP 数据的收集


通过在 14 个月中持续收集 Snyder 教授的血液组分,将来自基因组、转录组、蛋白质组、代谢物组、抗体的图谱的结合起来,最终形成了 iPOP 数据集(图 1)。研究者使用了多种技术(包括全基因组测序、RNA 序列、人类细胞因子检测和质谱分析)来生成这一巨大的数据集(其包含采集自 20 多个时间点,总共超过 30 亿个数据点)。简单来说,基因组图谱提供了个体的基因组序列和种系变异。此外,转录组、蛋白质组、代谢物组和抗体图谱使得人们可以观测到个体在一段时间内基因表达趋势的动态变化。


0a8e787bdba442d6b5a915ffaa41a3f4.jpg

图 1. iPOP 的实验流程和数据分析方法。PBMC:外周血单核细胞(peripheral blood mononuclear cell)。


在该研究过程中,Snyder 教授受到了两次病毒性感染:(1)第一次是开始于第 0 天的人鼻病毒(human rhinovirus,HRV)感染;(2)第二次是开始于第 289 天的呼吸道合胞病毒(respiratory syncytial virus,RSV)感染。它为研究者提供了在病毒感染的反应期间研究基因表达动态变化的绝佳机会。


iPOP 预测与疾病和药物相关的变异


此前的数十年研究已经鉴定了众多与疾病和药物使用相关的遗传变异(即生物标志物)。因此,研究者首先分析了与疾病和药物应答有关的遗传变异。他们发现 Synder 教授的基因组序列包含多种与疾病相关的罕见变异,包括 2 型糖尿病以及一些与药物应答有关的变异(图 2)。


fec319ff001606acf2edaa3b73c4eda5.jpg

图 2. 一些重要的与疾病和药物相关的遗传变异示例


用 iPOP 监测糖尿病风险并帮助治疗


在此项研究之前,Snyder 教授并没有与糖尿病相关的已知风险因素,并且从实验一开始时血糖水平是正常的。如上所述,Snyder 在研究过程中受到了 RSV 感染(从第 289 天开始)。显而易见,体内免疫反应激活了。令人意外的是,在其身体对病毒产生应答的同时,胰岛素信号通路表达水平下降,并且血糖水平同时升高,这是开始罹患糖尿病的标志(图 3)。在 RSV 感染后长达数月(第 301 天后),血糖水平持续处于高位。


3514e658050c16c2f31e2bb7a2fc6ce0.jpg

图 3. 本研究中的血糖水平趋势。有两次病毒感染:从第 0 天开始的 HRV 感染(红色箭头),以及从第 289 天开始的 RSV 感染(绿色箭头)


Snyder教授在改变饮食和运动后,监测显示血糖水平呈逐渐下降的趋势。 这些结果表明,基因组序列可用于预估健康个体的患病风险,并且疾病的生物标志物(本文中的血糖)可用于监测和检测该疾病的治疗情况。


整合性组学分析提供更多的生物医学信息


为了进一步利用转录组和基因组数据,作者对每个时间点的转录组、蛋白质组和代谢组学数据进行了整合分析,观察它们与不同生理状态的相关性(图 4)。特别地,他们着眼于系统地寻找随时间变化的相关模式。为了处理时间序列中的数据异质性和缺失数据,他们使用了一种傅立叶谱分析方法(Lomb-Scargle 变换)来为每个时间序列曲线构建周期图。Lomb-Scargle 方法已被成功应用于天文学中以处理非均匀采样的时间序列数据,也被用于多种形式的生物学问题上。


62669ffe25300b78e6c934247902a964.jpg

图 4. 转录组、蛋白质组和代谢组数据的整合分析。数据点被聚类以鉴定疾病相关的生物学通路


该数据集的整合分析证实了之前的发现。它表明,在感染 RSV 后的发病以及后续的应答过程中,机体产生了一个全身性的反应,包括在 RSV 感染后第 18 天有一个明显的应答。在随后的时间点中,多种与感染或者应激应答有关的生物学通路,以及与高血糖水平有关的生物学通路均受到影响,其中包括包括胰岛素应答通路。


结论


iPOP 提供了一个针对健康状态的多维视角,包括健康状况、对病毒的应答、疾病恢复以及糖尿病发病。总而言之,该研究证明利用基于 iPOP 的方法是有助于实现个性化医学的:从基因组序列鉴定疾病风险,并且通过其他分子组分指标监测疾病状态。


通过多种高通量技术将基因组信息与检测生理状态的常规方法结合起来,将有助于个性化医学的实现。从这项研究产生的丰富数据将是个性化医学发展领域的宝贵资源。


最后,该论文的作者创建了一个网站,以方便人们使用 iPOP 资源(http://snyderome.stanford.edu)。

7530daeba8951adbb09e6138646e4feb.jpg

图 5. 提供 iPOP 数据和结果的网站

入门大数据医疗健康基因机器学习产业