人工智能遇上新药研发,它能给医药行业带来什么?

两年前,将人工智能(AI)用于药物研发的初创公司只有30家左右,而现在这个数目已经飙升到了148家。这一统计虽然还不完全,但是它反映了AI在药物研发中的迅猛发展。今年,美国著名的硅谷银行(Silicon Vally Bank, SVB)第一次推出了对数字健康领域的投资统计,在今年上半年,对这一领域的投资已达到52.6亿美元,超过了2017年全年的投资总数,2019年全年投资总数有望超过100亿美元!

可以说,AI技术的成熟出现在医药产业发展的关键节点上,由于新药物靶点和作用机制越来越少,医药公司需要更多的投入和精力才能产出和以前相当的“first-in-class”药物。克服这一障碍的方法包括提升研发效率,和深耕已有数据来发现新的洞见。AI在这两个方面都可以大展身手。

然而,业界资深人士也表示,在AI迅猛发展的同时,我们需要警醒AI的研究方向是否走偏了。对AI能力的过度炒作可能会为这一领域带来“AI的冬天”。今天药明康德内容团队将结合公开资料,探讨AI在药物研发中的潜力和局限。

图片来源:Pixabay理解复杂的规则

给予足够多的数据,机器学习算法能够从中发现规律,然后利用这些规律来作出预测或者对新的数据进行分类。它们在这方面的表现远远快于任何人类。当代的药物研发团队面对的挑战是需要系统性地对海量数据进行分析,这些挑战已经不是可以单靠人脑来完成的工作。AI尤其擅长处理应用复杂的规则对大量数据进行分析。麻省理工学院(MIT)计算机科学家,杨森(Janssen)公司的科学顾问Regina Barzilay博士表示:“例如,当我们在学习化学的时候,我们学习了很多规则并且理解了化学反应的机制,然而有些时候,这些规则非常非常的复杂。如果我们能够为计算机算法提供很多数据,并且将需要解决的问题正确地呈现出来,它们有可能捕捉到人类无法捕捉到的规律。“

以药物毒性为例,在过去50年里,世界范围内有超过450款药物在获批上市之后因为毒副作用撤市,其中肝脏毒性是最常见的原因。例如在1993年上市的治疗皮肤真菌感染的特比萘芬(terbinafine)在上市之后被发现可能导致肝脏毒性。截至2008年,已经有3例因为肝功能衰竭而死亡的病例和70例其它肝脏毒性被证明是由于特比萘芬造成的。然而,药物在肝脏中的代谢过程非常复杂,也非常难于预测。

这是机器学习可能帮助解决的典型问题,而且我们已经拥有了训练AI的数据。美国联邦政府的Tox21项目,通过美国环保局(EPA)、国家卫生研究院(NIH)和FDA的合作,构建了一个包含大量分子和它们对人类关键性蛋白毒性的数据库。这一数据库可以被用来训练AI,发现化合物结构、特征和功能与可能出现的毒副作用之间的关系。

名为Cloud Pharmaceuticals的生物技术公司已经将这些数据整合到该公司的化合物筛选过程中。这家公司去年与大型药企葛兰素史克(GSK)达成一项研发合作协议。“使用这一数据集训练机器学习算法之后,当新分子出现时,AI能够预测它是不是会具有毒性。”Cloud公司联合创始人兼首席科学官Shahar Keinan博士说。

设计更好的新药

除了发现潜在毒性以外,机器学习算法还可以预测候选化合物在不同物理和化学环境下的反应,从而帮助药物研发人员理解它们在人体不同组织中的行为。滑铁卢大学(University of Waterloo)的物理化学家Scott Hopkins博士正在与辉瑞(Pfizer)公司合作,训练算法来评估候选分子吸收或者丢失水份的能力。

“如果一个药物分子非常迅速地吸收水份并且不会让水份流失,这意味着这种药物在水中很容易溶解,”Hopkins博士说:“它在胃中会很快溶解并且进入血液循环。”这一算法通过分析89种小分子候选药物结构与可溶性的关系,能够准确预测出类似分子的关键性特征。这项研究已经在Nature Communications上发表。

对药物潜在毒性和生化特征的筛查虽然是药物开发中不可缺少的步骤,但是对于AI研究人员来说,在药物研发中的“圣杯”是从头生成一个新治疗性分子的结构

药明康德的合作伙伴Insilico Medicine公司,正在使用称为“生成对抗网络“(generative adversarial network, GAN)来开发全新的小分子化合物,治疗癌症、代谢性疾病和神经退行性疾病等严重疾病。这一算法由两个互相对抗的深度神经网络构成。

第一个深度神经网络的任务是根据一系列化合物应该具有的功能和生化特征标准(例如溶解性、靶点,或者生物利用度),生成分子结构。而另一个深度神经网络的作用是对第一个神经网络输出的结构进行“批评“。

“它们之间在相互竞争,“Insilico公司首席执行官Alexander Zhavoronkov博士说:”经过无数次的迭代,它们能够学会生成一些全新的结构。“

Insilico公司计划针对多个孤儿药靶点开发候选药物分子。

图片来源:Insilico公司官网

人工智能的局限性

虽然人工智能在药物开发领域取得了很大的进步,但是它们还无法取代人类的作用。AI在药物开发中的作用就像一个智能厨房。“你可以有智能微波炉、咖啡机和其它智能工具,但是它们都没法为你做出一道晚餐,“Barzilay博士说:”你需要将这些工具整合在一起来做出一道晚餐,它们只能够帮助你做的更快更好。“

AI的表现受到输入数据质量的限制。在今年的药明康德全球论坛上,业界的专家也表示,很多时候,用于训练机器学习算法的高质量数据并不存在。而低质量的数据可能导致算法从数据中获取虚假的信号,导致了“垃圾进,垃圾出“的扩大化。 现今存在的公开数据往往由于格式、代表性等多种原因,无法成为高质量的数据。对于有的AI药物研发公司来说,解决这一难题的办法是自己生成高质量的数据。例如,insitro和Recursion公司都在根据解决特定问题的需求,生成自己的数据。

药明康德相关阅读:未来需要怎样的大数据与AI? | 药明康德全球论坛实录

而对于Gary Marcus博士来说,他的担忧是对AI能力的过度炒作可能带来与实际不符的期望值。而看看AI开发的历史就可以看到,AI领域的开发已经在1974-1980年,和1987-1994年,经历过了两个发展的“冬天“。由于期望不能够得到实现,AI研究的政府和私人投资都大幅度减少。

▲Gary Marcus博士(图片来源:Gary Marcus博士个人网站)Gary Marcus博士是纽约大学心理学和神经科学教授,也是机器学习初创公司Geometric Intelligence的创始人和首席执行官。在他看来,深度学习(deep learning)是非常出色的算法工具,然而它相当于一种超级记忆。能够把所有想知道的东西都记下来当然不是件坏事,但是当遇到不常见的情况时,它缺乏灵活性,表现并不算好。

他担心的是,我们过于依赖深度学习这一种人工智能的构架。即便深度学习是一个完美的“锤子”,但是在医药领域需要解决的问题却不全是“钉子”。试图使用一种工具来解决所有问题是不恰当的,面对需要解决的问题的多样性,我们也需要有更为灵活和细致入微的思考方式。基因泰克研发掌门人Michael Varney博士也在日前的访谈中表现出对人工智能过度炒作的忧虑。

提供更多的可能性

虽然业界人士表示,使用人工智能在药物研发方面的应用存在着过度的炒作,但是他们仍然对人工智能可能带来的可能性非常兴奋。无论是Marcus博士还是Varney博士,都在积极开发和使用人工智能工具,协助新药研发的过程。

如果能够将药物发现的效率提高5倍到10倍,从经济学角度上讲,研究人员可以探索更具风险的研发项目,因为失败的成本大大降低了。“华盛顿大学(Washington University)的S. Joshua Swamidass博士说。他带领的团队使用机器学习,最终在2018年解开了特比萘芬导致肝脏毒性之谜。”想像一下,那样我们可以有能力探索多少种难治疾病的创新疗法!

参考资料

[1] Artificial Intelligence Shakes Up Drug Discovery. Retrieved August 24, 2019, from https://www.the-scientist.com/bio-business/artificial-intelligence-shakes-up-drug-discovery-65787

[2] AI startups are racing into drug development. Here’s 5 burning questions about which will survive. Retrieved August 24, 2019, from https://www.statnews.com/2019/08/22/artificial-intelligence-drug-development-startups-growth/

[3] Machine learning brings cell imaging promises into focus. Retrieved August 24, 2019, from https://www.nature.com/articles/d41573-019-00144-2

[4] Bera et al., (2019). Artificial intelligence in digital pathology — new tools for diagnosis and precision oncology. Nature Reviews Clinical Oncology, https://doi.org/10.1038/s41571-019-0252-y

[5] Warning of an AI winter, a skeptic argues deep learning in medicine needs a reboot. Retrieved August 24, 2019, from https://www.statnews.com/2019/08/21/ai-winter-deep-learning-oversold-in-medicine/

药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业新药研发
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

暂无评论
暂无评论~