Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

图学习+分子表示学习,飞桨刷新药物分子性质预测榜单

百度飞桨凭借图学习框架 (PGL) 和生物计算平台螺旋桨(PaddleHelix),登顶权威榜单 OGB 多项分子性质预测任务,在 AI 药物发现领域取得新的技术突破。

化合物的生物活性筛选是现代药物研发中关键的一环,其主要目的是在大量候选化合物中发现针对某种药物靶点具有活性的分子。传统的活性筛选方法需要合成大量化合物用以进行生物实验,整个流程的成本高、周期长、成功率低。而通过 AI 技术进行药物的虚拟筛选有望代替传统的活性筛选方法,加速中间步骤从而大幅度降低研发成本。

国际权威榜单 Open Graph Benchmark(OGB)上的 HIV 和 PCBA 数据集包括多种生物活性实验。其中,HIV 数据集关注不同化合物是否能够抑制 HIV 病毒在细胞内的复制,PCBA 数据集关注不同化合物针对 100 多种疾病靶点的有效性。以其中能增强功能性 SMN2 蛋白表达的化合物为例,这些化合物能够改善因 SMN1 蛋白突变失效引起的脊髓肌肉萎缩。成功预测化合物这类性质对于发现针对多种疾病的有效药物具有重要意义。

近日,飞桨在 OGB 该两项分子性质预测榜单登上榜首,在 AI 药物发现领域取得了新的技术突破。

飞桨登顶 OGB 分子性质预测数据集 HIV 和 PCBA

基于飞桨能力实现分子性质预测

飞桨基于图学习框架 PGL,使用深度图神经网络(GNN),配合生物计算平台螺旋桨 PaddleHelix 对药物发现领域的理解,设计自监督学习任务学习化合物分子表示,并应用到分子性质预测中。核心技术包括:

分子表示学习

为了将化合物分子作为图神经网络方法的输入,需要首先将化合物分子特征化。OGB 已经针对每个化合物提供了一系列基于图结构的结点和边的特征,可以对应到化合物的原子和化学键,但这些特征都较为微观,无法表示化合物分子的宏观化学特性。飞桨通过表示学习的方法,首次将分子的宏观化学特性(官能团、分子指纹等信息)和图神经网络相结合,取得了融合宏观化学特征的分子表示,并利用这个分子表示取得了 ogbg-molhiv 的榜首。

图学习技术

APPNP 是基于个性化 PageRank 改进的特征传播算法,通过迭代的方式来近似 Personal PageRank 的解析解。APPNP 算法不引入额外的模型参数,能够很好地调节局部信息和多阶邻居关系。飞桨通过结合 GINE plus 和 APPNP 技术,在不引入额外的模型参数下,获得更好的模型表达能力,并取得 ogbg-molpcba 榜首。

飞桨图学习框架 PGL

百度深度学习平台飞桨 PaddlePaddle 开源图学习框架 PGL v2.0 版本,全面支持动态图机制,可支持百亿规模大图,用户可以通过 PGL 实现高效而又满足工业应用需求的图神经网络。PGL 支持的百度内外部业务也是遍地开花,全面覆盖推荐系统、搜索引擎、智慧金融、智能地图、安全风控、生物医药等场景。


生物计算螺旋桨 PaddleHelix

螺旋桨 PaddleHelix 是基于百度深度学习平台飞桨的生物计算平台。提供了包括 RNA 二级结构预测、大规模分子和蛋白质表示学习、药物靶点亲和力预测、ADMET 成药性预测等,在新药研发和疫苗设计环节具有广阔应用前景的技术能力。


螺旋桨 PaddleHelix 可以帮助生物学、药物化学、计算机交叉学科背景的学习者、研究者和合作伙伴更便利地构建 AI 算法模型。螺旋桨 PaddleHelix 生物计算平台将保持开源开放原则,与合作伙伴共建共享,未来形成一套完整的面向行业的生物计算生态和服务。

想获取更多算法的技术细节,欢迎关注 PGL【http://github.com/PaddlePaddle/PGL】和 PaddleHelix【http://github.com/PaddlePaddle/PaddleHelix】,比赛相关代码已同步开放。
产业生物计算百度飞桨
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

百度机构

百度是全球领先的人工智能平台型公司。百度大脑是中国领先的“软硬一体AI大生产平台”,是百度AI的集大成,对外全方位输出超过270多项核心AI能力,服务230万开发者。飞桨是中国首个全面开源开放、功能完备的产业级深度学习平台,是中国自主研发的“智能时代的操作系统”。百度智能云是百度AI To B 业务的重要承载者和输出者,是产业智能化领导者。小度助手是中国领先的对话式人工智能操作系统,拥有中国市场最繁荣、开放的对话式人工智能生态,今年6月,小度助手语音交互次数超过58亿次。作为全球领先的、最活跃的自动驾驶开放平台,百度Apollo代表中国最强自动驾驶实力,被知名研究公司Navigant Research列为全球四大自动驾驶领域领导者之一。目前聚焦在以自动驾驶、汽车智能化、智能交通为核心的三大赛道。自动驾驶技术方面,超过十项中国第一,实力领跑行业。智能交通方面,百度 “ACE交通引擎”是全球首个车路行融合的全栈式智能交通解决方案。

https://www.baidu.com/
自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~