药神来了?一文了解人工智能药物研发现状

「没人在会议上提及 IBM 的沃森。」

沃森是医疗 AI 产业化的先行者,曾在肿瘤诊治方面被寄予厚望。但近两年来,它风波不断。

从去年开始,包含 MD 安德森肿瘤中心在内的多个客户终止了与沃森的合作,理由是:沃森的诊疗效果始终不达预期,成本太高。今年 5 月,IBM 对其医疗业务进行裁员,包括部分研发人员和营销人员。7 月,美国健康医疗媒体 STAT 爆出 IBM的内部文件称,沃森经常给出不准确的癌症治疗建议,甚至开错了药品。

沃森在肿瘤治疗方面表现不佳,其与辉瑞合作的药物开发试验也「凉了」。

而对其他 AI+新药研发企业而言,数据的来源与质量是悬在其头上的「达摩克利斯之剑」。

「没人在会议上提及 IBM 的沃森」

「没人在会议上提到 IBM 的沃森,只是说它在肿瘤治疗方面表现不佳。」《Forbes》在一篇文章中提到。

撰文的是巴布森学院(全球最著名商学院之一)信息技术与管理专业的杰出教授、麻省理工学院数字经济计划的数字研究员和高级顾问 Tom Davenport(汤姆·达文波特)与瑞士巴塞尔大学医院临床流行病学和生物统计学研究所的博士候选人 Kimberly Alba McCord(金伯利·阿尔巴·麦考德)。

10 月底,他们参加了 Corey Lane Partners 在哈佛医学院举办的一个生物制药人工智能应用峰会。会后,他们用文字记下了自己的会议观察,并发表在《Forbes》上。

「沃森的人工智能套件似乎不再被视为促进药物开发的一个重要因素。」他们还在文章中提到,「辉瑞的一位知情人士透露,他们使用沃森进行药物开发的试验仍在进行中,但公司正在『 冷却』这项技术。」

新药研发是一个系统工程,从靶点的发现与验证,到先导化合物的发现与优化,再到候选化合物的筛选及开发,最后进入到临床研究。

药物研发的基本流程,图片来源:tdi.ox.ac.uk

研发费用高、研发周期长、研发成功率低一直是压在制药企业身上的「三座大山」。

塔夫茨药物开发研究中心(Tufts Center for The Study of Drug Development)的数据显示:开发一种新药的平均成本为 26 亿美元;一种新药上市的平均时间约为 12 年;大约只有 10% 的候选药物能从第一阶段测试走向市场。德勤的数据显示:2017 年,美国最大的生物制药公司的投资回报率下降至 3.2%,令人沮丧。

新药研发亟需一场变革。

AI 重塑药物研发

过去 20 年,计算机处理能力的持续快速增长,大量数据集的可用性以及先进算法的开发,大大推动了机器学习的发展。由此,专注于具体任务的「狭义人工智能」得以实现。

新药研发领域数据密集,这让人工智能有了用武之地。

「2007 年 6 月 12 日,是 AI 历史上值得铭记的一天。」

这一天,一个名叫 Adam(亚当)的机器人发现了一种酵母基因的功能。

通过搜索公共数据库,Adam 提出哪些基因编码了酿酒酵母反应催化酶的假设,并在实验室中利用机器人技术来检验其假设。英国亚伯大学和剑桥大学的研究人员各自检验了 Adam 关于 19 种基因有何功能的假设。其中 9 个假设是新的和正确的,只有 1 个假设是错误的。

《Nature》称之为:「终结了人类对科学新发现的垄断。」

目前,人工智能被应用在新药研发的各个领域。来自 TechEmergence 的一份报告研究了所有行业的人工智能应用,结果表明:人工智能可以将新药研发的成功率从 12%提高到 14%,可以为生物制药行业节省数十亿美元。

动脉网·蛋壳研究院的报告显示:截至 2018 年 10 月 25 日,国内外共有 53 家 AI+新药研发公司(排除未公开融资额的公司)获得融资,累计获得融资总额共计 13.1 亿美元。其中,国外有 47 家公司获得融资,累计总额共计 10.6 亿美元,国内有 6 家公司获得融资,累计融资总额 2.5 亿美元。这表明:AI+新药研发已经进入快速成长期。

来源:动脉网; 实际上,10 月 25 日,晶泰科技宣布完成 4600 万美元(约合 3.2 亿元人民币)的 B+ 轮融资。AI 不仅能够挖掘出不易被发现的隐性关系,构建药物、疾病和基因之间的深层次关系;也可以对候选化合物进行虚拟筛选,更快地筛选出具有较高活性的化合物,为后期临床试验做准备。

许多公司使用 AI 来识别隐藏在大数据中的线索。据统计,有 100 多家初创企业在探索用 AI 发现药物,传统的大型制药企业则是以合作的方式(如阿斯利康与 Berg,强生与 Benevolent AI,默沙东与 Atomwise,武田制药与 Numerate,赛诺菲和葛兰素史克与 Exscientia,辉瑞与 IBM Watson 等)或自主研发的方式入局。

来源:动脉网比如,Roche 的子公司 Genentech 使用 GNS Healthcare 公司的 AI 系统,帮助 Roche 开发癌症治疗药物;

百度和腾讯参与投资的 Atomwise 运用超级计算机、AI 和复杂的算法模拟制药过程,来预测新药品的效果,同时降低研发成本,与它合作的,则是老牌医药巨头默克药厂(Merck);

国内,获谷歌、腾讯投资的晶泰科技与辉瑞签订战略研发合作,融合量子物理与人工智能,建立小分子药物模拟算法平台,显著提高算法的精确度和使用广泛度,驱动小分子药物的创新;

正大天晴与阿里云合作,借助阿里云的医疗 AI,正大天晴获得了一种全新的化合物筛选方法。数据结果显示,与传统计算机辅助药物设计方法相比,这套机器学习模型的筛选准确率可提高 20%。

Berg 和 Insilico 这样的初创公司比大型制药公司走得更快。初创公司的一些领导者抱怨,大型制药公司耗费了大量的时间在「踢轮胎」上(Kicking the tires:用最基本、最直觉式的方法检验一个物品或事情。据说,当汽车刚成为商品时,大部分人不懂得如何检验一部车的好坏,但是都会不自主地去踢一踢前轮),但收入却很少。 

有消息称,辉瑞公司现在已经有超过150个AI项目在进行中,只是核心是药物研发的很少。

入局者:瞄向药物靶点环节的 AI 企业众多

动脉网·蛋壳研究院对国内外 78 家涉足新药研发的 AI 企业进行调研后发现:

AI 在新药研发领域主要应用于靶点发现、化合物合成、化合物筛选、晶型预测、患者招募、优化临床试验设计和药物重定向 7 大场景。

AI 在化合物合成和筛选方面比传统手段可节约 40%~50% 的时间,每年为药企节约 260 亿美元的化合物筛选成本。在临床研究阶段,可节约 50%~60% 的时间,每年可节约 280 亿美元的临床试验费用。即 AI 每年能够为药企节约 540 亿美元的研发费用。

来源:动脉网在李伟(北京生命科学研究所博士、瑞璞鑫(苏州)生物科技有限公司药物化学主管)和黄牛(北京生命科学研究所高级研究员)看来,某些技术在药物研发的某些阶段的确能够起到重要提速的作用,譬如已进入新药研发多年的高通量筛选和计算机辅助药物分子设计等曾经期待的「颠覆性」技术。

但药物靶点对于整个新药研发项目的重要性不言而喻,然而,当前的新药研发还缺乏优质靶点。

人的身体是由细胞组成的,细胞由化学小分子和生物大分子共同组成,相互级联作用构成一个复杂庞大的网络,不同的生理功能可以看成这个巨大网络中一条条串联的线路。

除了外科损伤,大多数疾病缠身是由于这个网络上某个线路发生了异常,这就好像某条交通线发生了堵塞一样。吃药的目的就是打开这个拥堵点。这个拥堵点也就是药物分子需要作用的「靶点」。

因此,有很多公司重点在药物靶点环节发力。根据动脉网·蛋壳研究院对 78 家涉足新药研发 AI 企业的调研,其中,靶点发现环节的 AI 企业数量多达 39 家,占企业总数的 50%。

常见的是,利用人工智能分析海量的文献、专利和临床结果,找出潜在的、被忽视的通路、蛋白和机制等与疾病的相关性,从而提出新的可供测试的假说,以期望发现新机制和新靶点。

比如,Berg Health 就是基于人工智能的 Interrogative Biology 平台技术,通过分析海量病人和正常人样本(如蛋白相互作用网络)来寻找治疗疾病的新靶点和诊断疾病的生物标志物。

IBM Watson 新药发现系统通过分析海量文献寻找潜在的关联性来产生新的假说推动新药研发。

然而,李伟和黄牛认为,「生物系统本身就很复杂,人工智能之前的传统方法也同样磕磕碰碰,毫无疑问人工智能可以帮助生物学家产生新的假说,但是否会是更好的假说仍面临极大的挑战。」

之所以得出这样的结论,其中一个原因是:数据质量参差不齐。

「bad data in,bad data out」

在制药和生命科学中,数据是人工智能的关键。

「bad data in,bad data out」在 10 月底举办的那场生物制药人工智能应用峰会上多次被提及。尽管各个企业都在努力改进自己的算法和 AI 基础设施,但大家都清楚知道:高质量数据才是取得成功的关键。

研发新药的成本是高昂的,人工智能被应用于药物研发的各个阶段,但若是数据质量不高(数据不明晰甚至含有错误信息,充满不确定性),即使使用非常可靠的算法,也不会取得好结果,反而会浪费大量的资源和时间。

意识到这个问题后,数据收集者和企业便在收集数据上发力了。

IBM 曾在 2016 年斥资 26 亿美元收购医疗数据公司 Truven。

2018 年 2 月,制药巨头罗氏以 19 亿美金收购肿瘤大数据公司 Flatiron Health 的全部股份。

据悉,Flatiron Health 拥有大量癌症领域的真实世界数据,包括从病患临床记录、基因组等数据,能够帮助肿瘤学家和医生做出更好的临床诊断,选择最佳的治疗方案。同时,Flatiron Health 也能为罗氏乃至整个行业的肿瘤药物研发提供所需的技术和数据分析能力,帮助其做新药研究决策,为肿瘤学研发设立全新的标准,加速新药上市进程。

生物制药人工智能应用峰会上,有几位演讲者提到,制药公司倾向于囤积数据,并根据其数据库的数量来评估未来的成功。

但赛诺菲首席数据官 Milind Kamkolkar 认为,当下,通过知识共享开展合作以及提高已有数据的质量应该比积累数据更为重要。

但是,寻找药物化合物的竞争是激烈的,没有任何一家公司愿意向竞争对手提供他们辛辛苦苦得来的数据。

也许,在不久的将来,主要的医疗保健和制药利益相关者将不得不与数据所有者 (即医疗保健提供者、病人和其他医疗保健消费者) 进行谈判,以决定谁能够利用数据做些什么。

产业沃森药物研发医疗
1
相关数据
高通机构

高通公司(英语:Qualcomm,NASDAQ:QCOM)是一个位于美国加州圣地亚哥的无线电通信技术研发公司,由加州大学圣地亚哥分校教授厄文·马克·雅克布和安德鲁·维特比创建,于1985年成立。两人此前曾共同创建Linkabit。 高通公司是全球3G、4G与5G技术研发的领先企业,目前已经向全球多家制造商提供技术使用授权,涉及了世界上所有电信设备和消费电子设备的品牌。根据iSuppli的统计数据,高通在2007年度一季度首次一举成为全球最大的无线半导体供应商,并在此后继续保持这一领导地位。其骁龙移动智能处理器是业界领先的全合一、全系列移动处理器,具有高性能、低功耗、逼真的多媒体和全面的连接性。目前公司的产品和业务正在变革医疗、汽车、物联网、智能家居、智慧城市等多个领域。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

IBM 沃森技术

沃森是能够使用自然语言来回答问题的人工智能系统,由IBM公司的首席研究员David Ferrucci所领导的DeepQA计划小组开发并以该公司创始人托马斯·J·沃森的名字命名。

推荐文章
暂无评论
暂无评论~