Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

路雪 张倩 淑婷编译

从零开始自学设计新型药物,UNC提出结构进化强化学习

搜索关键词「AI、诊断」,微信上出现一大堆关于 AI 医疗的文章,从失明到肺病再到癌症,AI 似乎无所不能。前不久,来自北卡罗来纳大学埃谢尔曼药学院的一个团队创造了一种人工智能方法 ReLeaSE,能够从零开始自学设计新型药物分子。近日,该研究已被发表在 Science Advances 上。

生成具备期望属性的新型化合物 SMILES 字符串的深度强化学习算法工作流程。(A) 生成 Stack-RNN 的训练步。(B) 生成 Stack-RNN 的生成器步骤。在训练过程中,输入 token 是一个当前处理的简化分子线性输入系统(SMILES)字符串(来自训练集)中的一个字符。该模型根据前缀(prefix)输出下一个字符的概率向量 pΘ(a_t|s_t − 1)。参数 Θ 的向量通过交叉熵损失函数最小化进行优化。在生成器步骤中,输入 token 是前一步生成的字符。然后从分布 pΘ(a_t| s_t − 1) 中随机采样字符 a_t。(C) 生成新型化合物的强化学习系统的一般流程。(D) 预测模型机制。该模型将 SMILES 字符串作为输入,然后提供一个实数(即估计属性值)作为输出。该模型的参数使用 l2 平方损失函数最小化进行训练。Credit: Science Advances (2018). DOI: 10.1126/sciadv.aap7885

北卡罗来纳大学埃谢尔曼药学院(UNC Eshelman School of Pharmacy)创造的人工智能方法能够从零开始自学设计新型药物分子,这有望大幅加快新型药物的研发速度。

该系统名为「结构进化强化学习」(Reinforcement Learning for Structural Evolution),又称 ReLeaSE。ReLeaSE 既是一种算法,也是一种计算机程序,它将两种神经网络合二为一,二者可被分别视为老师和学生。老师了解大约 170 万种已知生物活性分子化学结构词汇背后的句法和语言规则。通过与老师合作,学生逐渐学习并提高自己的能力,创造有望作为新药使用的分子。

ReLeaSE 的创造者 Alexander Tropsha、Olexandr Isayev 和 Mariya Popova 均来自 UNC 埃谢尔曼药学院。UNC 已经为该技术申请了专利,该团队上周在 Science Advances 上发表了一份概念验证性研究。

「这一过程可以借鉴语言学习过程来描述:学生掌握分子字母表及语言规则之后,他们就能自己创造新『词』(也就是新分子)。」Tropsha 说,「如果新分子实用且达到预期效果,老师就会批准。反之,老师就会否决,强制学生避开糟糕的分子并去创造有用的分子。」

ReLeaSE 是一种强大的药物虚拟筛选工具,这种计算方法已经被制药业广泛用于确定可用的候选药物。虚拟筛选让科学家可以评估现有的大型化学库,但该方法只对已知的化学物质有效。而 ReLeaSE 具备独特的能力,可以创建和评估新型分子。

「使用虚拟筛选的科学家就像餐馆中点菜的顾客那样,能点的菜通常仅限于菜单上有的。」Isayev 说道,「我们想为科学家提供一个『杂货店』和『个人厨师』,做出任何他们想要的菜式。」

该团队利用 ReLeaSE 生成具有他们指定特性(如生物活性和安全性)的分子,还可以使用该方法设计具有定制物理特性(如熔点、水溶性)的分子,以及设计对白血病相关酶具有抑制活性的新型化合物。

Tropsha 称:「对于一个需要不断寻找新方法来缩短新药进入临床试验所需时间的行业来说,该算法极具吸引力,因为它能设计出具有特定生物活性和最佳安全性的新化学实体。」

论文:Deep reinforcement learning for de novo drug design

论文链接:http://advances.sciencemag.org/content/4/7/eaap7885/tab-pdf

摘要:我们设计并实现了一种新的计算策略,用于从零开始设计具有期望属性的分子,称为ReLeaSE(Reinforcement Learning for Structural Evolution,结构进化强化学习)。基于深度学习强化学习方法,ReLeaSE集成了两个深度神经网络——生成和预测神经网络,这两个神经网络被单独训练,但都用于生成新的目标化学库。ReLeaSE仅使用简化分子线性输入系统(SMILES)字符串来表示分子。生成模型通过堆栈增强的记忆网络来训练,以产生化学上可行的SMILES字符串,预测模型则用来预测新生成化合物的期望属性。在该方法的第一阶段,使用监督学习算法分别训练生成模型和预测模型。在第二阶段,两种模型使用RL方法一起训练,以偏向于产生具有所需物理和/或生物特性的新化学结构。在该概念验证研究中,我们使用ReLeaSE方法设计化学库,该化学库偏向于结构复杂性,偏向于具有最大、最小或特定物理属性范围的化合物,如熔点或疏水性,或者偏向于对Janus蛋白激酶2具有抑制活性的化合物。本文提出的方法可用于找到产生对单一或多个期望属性进行优化了的新化合物的目标化学库。

原文链接:https://phys.org/news/2018-07-artificial-intelligence-drugs.html

理论人工智能深度强化学习神经网络
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~