Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

腾讯AI Lab 3篇蛋白质组论文入选国际顶级期刊,为阐释生命提供重要技术参考

图片

编辑 | ScienceAI

只有蛋白质组才能从根本上阐释生命。

3月20日,腾讯 AI Lab实验室3篇蛋白质组论文相继入选国际顶级学术期刊,论文分别在蛋白质组的检测、分析以及探索发现方面提出全新的研究方案,为人类从根本上阐释生命提供重要技术参考。

科学界曾经认为,只要绘制出人类基因组序列图,就能了解疾病的根源,但事实并非如此。相同的基因往往有不同的表达,比如,人体不同组织器官的基因组是一样的,但是各个组织器官的蛋白质组不完全一样。人和鼠的基因组的差别仅为1%,但是其形态、性状差别非常大,这就是蛋白质组不一样的体现。

中国科学院院士贺福初有一个比喻:基因组和蛋白质组的关系就像词典与文章、元素表与化工厂。基因组学中微小的差异,在蛋白质组学中可以被千倍甚至近万倍地放大。因此,要真正阐释生命,必须从蛋白质组中寻找答案。

蛋白质组学是指大规模地对蛋白质的表达水平、翻译后修饰、蛋白质相互作用等进行研究。 针对蛋白质组的研究不仅可以全景式地揭示生命活动的分子本质,还能阐明生命在生理或病理条件下的变化机制。蛋白组学测序技术发展迅速,相应的数据分析计算方法也方兴未艾。对此腾讯AI Lab从数据库、AI建模和AI辅助临床分析三个角度,通过AI技术助力蛋白组学研究。

首次推出世界数据量最大单细胞蛋白组数据库

目前针对蛋白质组学的研究已经深入到单细胞级别,虽然单细胞蛋白质组学能够直接在单细胞水平上测定蛋白质含量,提供了超越单纯从转录组分析所能推断的关于细胞表型的宝贵洞见。然而,缺乏足够的大规模集成数据库,阻碍了研究人员获取和探索单细胞蛋白质组数据,阻碍了这一领域的进步。

为了填补这一不足,腾讯 AI Lab提供了一个综合性的数据库,即单细胞蛋白质组数据库SPDB(https://scproteomicsdb.com/),该数据库详细展示了单细胞蛋白质组数据,当前版本包括133个基于抗体的单细胞蛋白质组数据集,涉及超过3亿个细胞和超过800个标记/表面蛋白质,以及10个基于质谱的单细胞蛋白质组数据集,涉及超过4000个细胞和超过7000种蛋白质。

SPDB目前已经成为世界上数据量最大,覆盖技术和数据集最为广泛的单细胞蛋白组知识库,标准化的数据处理和用户友好的网络界面,基于数据集级别和蛋白质级别的数据搜索和探索功能,为人类探索蛋白质组学的详细洞见,提供了重要的数据参考。

图片

(图片来源:https://academic.oup.com/nar/article/52/D1/D562/7416372)

该技术可以供生命科学工作者和医生对世界上最全的单细胞蛋白组进行数据探索,也可以供生物信息和AI科学家对单细胞蛋白组提供更多的算法和工具,从而促进该领域的科学新发现和工具开发。本论文《SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution》也因此入选生物信息学领域数据库方面专业期刊Nucleic Acids Research。

全新的多功能算法,提升单细胞蛋白质组测序分析准确率

和基因检测类似,要研究蛋白质组,需要精准的检测技术。目前蛋白组学检测技术已经发展至单细胞分辨率。单细胞蛋白质组学测序技术,为揭示细胞中蛋白质-蛋白质相互作用、翻译后修饰和蛋白质形态动态的研究带来了新的启示。然而,肽段定量的不确定性、数据缺失、严重的批次效应和高噪声,阻碍了单细胞蛋白质组数据的准确分析和使用。

腾讯AI Lab研究人员提出了一种新颖的多功能算法scPROTEIN,它由基于多任务异方差回归模型的肽段不确定性估计,以及基于图对比学习设计的单细胞蛋白质组数据分析的细胞嵌入学习组成。scPROTEIN在一个统一的框架中估计了肽段定量的不确定性,去噪了蛋白质数据,消除了批次效应,并编码了单细胞蛋白质组特异性嵌入。该方法为首个针对单细胞蛋白组表征的框架,创造性解决了单细胞蛋白组学数据的特殊挑战。

随着单细胞蛋白组检测技术在生命科学和精准医疗领域的普及,该方法可以作为数据处理中重要的步骤,为基于单细胞蛋白组的肿瘤发生发展机制研究、药物靶点发现和肿瘤早筛和微环境研究提供重要的AI辅助作用。基于这项技术的《scPROTEIN:A Versatile Deep Graph Contrastive Learning Framework for Single-cell Proteomics Embedding》论文也入选Nature旗下方法学专业期刊Nature Methods。

图片

(图片来源:https://www.nature.com/articles/s41592-024-02214-9)

全新的反卷积方法,助力肿瘤辅诊和预后分析

同样入选Nature旗下专业期刊Nature Machine Intelligence的还有《Deep domain adversarial neural network for the deconvolution of cell type mixtures in tissue proteome profiling》,这篇论文从更为宏观的角度来分析特定组织中不同细胞类型的比例。例如,常用于分析肿瘤组织样本中不同细胞类型,该方法已经广泛适用于肿瘤微环境解释和临床诊断/分类等领域。

过去蛋白组学研究产生大量的数据,这些数据是组织中所有细胞的平均值,难以直接反映不同类型细胞的比例,而细胞比例对于肿瘤微环境分析较为重要。对此,腾讯AI Lab研究人员以单细胞蛋白组为参考,基于AI方法对现有的组织蛋白组数据进行反卷积(一种数学方法),从组织蛋白质组数据中挖掘出细胞类型比例这一新信息,应用大量现有的蛋白组数据,获取其中的肿瘤微环境信息,助力肿瘤辅诊和预后分析。

这种专为组织蛋白质组数据设计的基于深度学习的反卷积方法(scpDeconv),使用自动编码器利用整体蛋白质组数据的信息,从而提高单细胞蛋白质组数据的质量,并采用领域对抗模型来连接单细胞和整体数据分布,将标签从单细胞数据迁移到整体数据。大量实验验证了scpDeconv在反卷积来自不同物种/来源和不同蛋白质组技术产生的蛋白质组数据方面的性能。该方法是首个针对蛋白组进行反卷积的算法,解决了蛋白组独特的数据挑战。

图片

(图片来源:https://www.nature.com/articles/s42256-023-00737-y)

上述三篇论文分别展示了腾讯AI Lab为解决蛋白组学中数据库、AI建模和AI辅助临床分析问题而进行的一系列探索,为高效精准分析蛋白组数据、理解肿瘤微环境和发现生物学新机制打下坚实基础。

腾讯AI Lab在AI for Science特别是生命科学领域深耕数年,具有丰富的知识和技术积累,研究领域包括单细胞多组学、蛋白质结构设计、蛋白质折叠、AI制药、空间组学和免疫组库等,已发表scBERT和猕猴大脑图谱等研究成果。腾讯AI Lab成立于2016年,实验室强调研究与应用并重发展,以“学术有影响,工业有产出”为目标,基于扎实的学术研究,将AI能力运用在游戏、内容、虚拟人以及医疗、医药、基因计算等多个场景中。

论文链接:

https://academic.oup.com/nar/article/52/D1/D562/7416372
https://www.nature.com/articles/s41592-024-02214-9
https://www.nature.com/articles/s42256-023-00737-y

参考文献

[1] Wang F, Liu C, Li J, et al. SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution [J]. Nucleic Acids Research,  2024, 52(D1): D562-D571.
[2] Wang F, Yang F, Huang L, et al. Deep domain adversarial neural network for the deconvolution of cell type mixtures in tissue proteome profiling[J]. Nature Machine Intelligence, 2023, 5(11): 1236-1249.
[3] Li W, Yang F, Wang F, et al. A Versatile Deep Graph Contrastive Learning Framework for Single-cell Proteomics Embedding[J]. Nature Methods, 2024. 
理论
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

异方差技术

异方差(Heteroscedasticity)指一系列的随机变量其方差不相同。 当我们利用普通最小平方法(Ordinary Least Squares)进行回归估计时,常常做一些基本的假设。其中之一就是误差项(Error term)的方差是不变的。异方差是违反这个假设的。如果普通最小平方法应用于异方差模型,会导致估计出的方差值是真实方差值的偏误估计量(Biased standard error), 但是估计值(estimator)是不偏离的(unbiased)

数据迁移技术

数据迁移(又称分级存储管理,hierarchical storage management,hsm)是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的 数据按指定的策略自动迁移到磁带库(简称带库)等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一 级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
推荐文章
暂无评论
暂无评论~