「没人在会议上提及 IBM 的沃森。」
沃森是医疗 AI 产业化的先行者,曾在肿瘤诊治方面被寄予厚望。但近两年来,它风波不断。
从去年开始,包含 MD 安德森肿瘤中心在内的多个客户终止了与沃森的合作,理由是:沃森的诊疗效果始终不达预期,成本太高。今年 5 月,IBM 对其医疗业务进行裁员,包括部分研发人员和营销人员。7 月,美国健康医疗媒体 STAT 爆出 IBM的内部文件称,沃森经常给出不准确的癌症治疗建议,甚至开错了药品。
沃森在肿瘤治疗方面表现不佳,其与辉瑞合作的药物开发试验也「凉了」。
而对其他 AI+新药研发企业而言,数据的来源与质量是悬在其头上的「达摩克利斯之剑」。
「没人在会议上提及 IBM 的沃森」
「没人在会议上提到 IBM 的沃森,只是说它在肿瘤治疗方面表现不佳。」《Forbes》在一篇文章中提到。
撰文的是巴布森学院(全球最著名商学院之一)信息技术与管理专业的杰出教授、麻省理工学院数字经济计划的数字研究员和高级顾问 Tom Davenport(汤姆·达文波特)与瑞士巴塞尔大学医院临床流行病学和生物统计学研究所的博士候选人 Kimberly Alba McCord(金伯利·阿尔巴·麦考德)。
10 月底,他们参加了 Corey Lane Partners 在哈佛医学院举办的一个生物制药人工智能应用峰会。会后,他们用文字记下了自己的会议观察,并发表在《Forbes》上。
「沃森的人工智能套件似乎不再被视为促进药物开发的一个重要因素。」他们还在文章中提到,「辉瑞的一位知情人士透露,他们使用沃森进行药物开发的试验仍在进行中,但公司正在『 冷却』这项技术。」
新药研发是一个系统工程,从靶点的发现与验证,到先导化合物的发现与优化,再到候选化合物的筛选及开发,最后进入到临床研究。
研发费用高、研发周期长、研发成功率低一直是压在制药企业身上的「三座大山」。
塔夫茨药物开发研究中心(Tufts Center for The Study of Drug Development)的数据显示:开发一种新药的平均成本为 26 亿美元;一种新药上市的平均时间约为 12 年;大约只有 10% 的候选药物能从第一阶段测试走向市场。德勤的数据显示:2017 年,美国最大的生物制药公司的投资回报率下降至 3.2%,令人沮丧。
新药研发亟需一场变革。
AI 重塑药物研发
过去 20 年,计算机处理能力的持续快速增长,大量数据集的可用性以及先进算法的开发,大大推动了机器学习的发展。由此,专注于具体任务的「狭义人工智能」得以实现。
新药研发领域数据密集,这让人工智能有了用武之地。
「2007 年 6 月 12 日,是 AI 历史上值得铭记的一天。」
这一天,一个名叫 Adam(亚当)的机器人发现了一种酵母基因的功能。
通过搜索公共数据库,Adam 提出哪些基因编码了酿酒酵母反应催化酶的假设,并在实验室中利用机器人技术来检验其假设。英国亚伯大学和剑桥大学的研究人员各自检验了 Adam 关于 19 种基因有何功能的假设。其中 9 个假设是新的和正确的,只有 1 个假设是错误的。
《Nature》称之为:「终结了人类对科学新发现的垄断。」
目前,人工智能被应用在新药研发的各个领域。来自 TechEmergence 的一份报告研究了所有行业的人工智能应用,结果表明:人工智能可以将新药研发的成功率从 12%提高到 14%,可以为生物制药行业节省数十亿美元。
动脉网·蛋壳研究院的报告显示:截至 2018 年 10 月 25 日,国内外共有 53 家 AI+新药研发公司(排除未公开融资额的公司)获得融资,累计获得融资总额共计 13.1 亿美元。其中,国外有 47 家公司获得融资,累计总额共计 10.6 亿美元,国内有 6 家公司获得融资,累计融资总额 2.5 亿美元。这表明:AI+新药研发已经进入快速成长期。
AI 不仅能够挖掘出不易被发现的隐性关系,构建药物、疾病和基因之间的深层次关系;也可以对候选化合物进行虚拟筛选,更快地筛选出具有较高活性的化合物,为后期临床试验做准备。
许多公司使用 AI 来识别隐藏在大数据中的线索。据统计,有 100 多家初创企业在探索用 AI 发现药物,传统的大型制药企业则是以合作的方式(如阿斯利康与 Berg,强生与 Benevolent AI,默沙东与 Atomwise,武田制药与 Numerate,赛诺菲和葛兰素史克与 Exscientia,辉瑞与 IBM Watson 等)或自主研发的方式入局。
比如,Roche 的子公司 Genentech 使用 GNS Healthcare 公司的 AI 系统,帮助 Roche 开发癌症治疗药物;
百度和腾讯参与投资的 Atomwise 运用超级计算机、AI 和复杂的算法模拟制药过程,来预测新药品的效果,同时降低研发成本,与它合作的,则是老牌医药巨头默克药厂(Merck);
国内,获谷歌、腾讯投资的晶泰科技与辉瑞签订战略研发合作,融合量子物理与人工智能,建立小分子药物模拟算法平台,显著提高算法的精确度和使用广泛度,驱动小分子药物的创新;
正大天晴与阿里云合作,借助阿里云的医疗 AI,正大天晴获得了一种全新的化合物筛选方法。数据结果显示,与传统计算机辅助药物设计方法相比,这套机器学习模型的筛选准确率可提高 20%。
Berg 和 Insilico 这样的初创公司比大型制药公司走得更快。初创公司的一些领导者抱怨,大型制药公司耗费了大量的时间在「踢轮胎」上(Kicking the tires:用最基本、最直觉式的方法检验一个物品或事情。据说,当汽车刚成为商品时,大部分人不懂得如何检验一部车的好坏,但是都会不自主地去踢一踢前轮),但收入却很少。
有消息称,辉瑞公司现在已经有超过150个AI项目在进行中,只是核心是药物研发的很少。
入局者:瞄向药物靶点环节的 AI 企业众多
动脉网·蛋壳研究院对国内外 78 家涉足新药研发的 AI 企业进行调研后发现:
AI 在新药研发领域主要应用于靶点发现、化合物合成、化合物筛选、晶型预测、患者招募、优化临床试验设计和药物重定向 7 大场景。
AI 在化合物合成和筛选方面比传统手段可节约 40%~50% 的时间,每年为药企节约 260 亿美元的化合物筛选成本。在临床研究阶段,可节约 50%~60% 的时间,每年可节约 280 亿美元的临床试验费用。即 AI 每年能够为药企节约 540 亿美元的研发费用。
在李伟(北京生命科学研究所博士、瑞璞鑫(苏州)生物科技有限公司药物化学主管)和黄牛(北京生命科学研究所高级研究员)看来,某些技术在药物研发的某些阶段的确能够起到重要提速的作用,譬如已进入新药研发多年的高通量筛选和计算机辅助药物分子设计等曾经期待的「颠覆性」技术。
但药物靶点对于整个新药研发项目的重要性不言而喻,然而,当前的新药研发还缺乏优质靶点。
人的身体是由细胞组成的,细胞由化学小分子和生物大分子共同组成,相互级联作用构成一个复杂庞大的网络,不同的生理功能可以看成这个巨大网络中一条条串联的线路。
除了外科损伤,大多数疾病缠身是由于这个网络上某个线路发生了异常,这就好像某条交通线发生了堵塞一样。吃药的目的就是打开这个拥堵点。这个拥堵点也就是药物分子需要作用的「靶点」。
因此,有很多公司重点在药物靶点环节发力。根据动脉网·蛋壳研究院对 78 家涉足新药研发 AI 企业的调研,其中,靶点发现环节的 AI 企业数量多达 39 家,占企业总数的 50%。
常见的是,利用人工智能分析海量的文献、专利和临床结果,找出潜在的、被忽视的通路、蛋白和机制等与疾病的相关性,从而提出新的可供测试的假说,以期望发现新机制和新靶点。
比如,Berg Health 就是基于人工智能的 Interrogative Biology 平台技术,通过分析海量病人和正常人样本(如蛋白相互作用网络)来寻找治疗疾病的新靶点和诊断疾病的生物标志物。
IBM Watson 新药发现系统通过分析海量文献寻找潜在的关联性来产生新的假说推动新药研发。
然而,李伟和黄牛认为,「生物系统本身就很复杂,人工智能之前的传统方法也同样磕磕碰碰,毫无疑问人工智能可以帮助生物学家产生新的假说,但是否会是更好的假说仍面临极大的挑战。」
之所以得出这样的结论,其中一个原因是:数据质量参差不齐。
「bad data in,bad data out」
在制药和生命科学中,数据是人工智能的关键。
「bad data in,bad data out」在 10 月底举办的那场生物制药人工智能应用峰会上多次被提及。尽管各个企业都在努力改进自己的算法和 AI 基础设施,但大家都清楚知道:高质量数据才是取得成功的关键。
研发新药的成本是高昂的,人工智能被应用于药物研发的各个阶段,但若是数据质量不高(数据不明晰甚至含有错误信息,充满不确定性),即使使用非常可靠的算法,也不会取得好结果,反而会浪费大量的资源和时间。
意识到这个问题后,数据收集者和企业便在收集数据上发力了。
IBM 曾在 2016 年斥资 26 亿美元收购医疗数据公司 Truven。
2018 年 2 月,制药巨头罗氏以 19 亿美金收购肿瘤大数据公司 Flatiron Health 的全部股份。
据悉,Flatiron Health 拥有大量癌症领域的真实世界数据,包括从病患临床记录、基因组等数据,能够帮助肿瘤学家和医生做出更好的临床诊断,选择最佳的治疗方案。同时,Flatiron Health 也能为罗氏乃至整个行业的肿瘤药物研发提供所需的技术和数据分析能力,帮助其做新药研究决策,为肿瘤学研发设立全新的标准,加速新药上市进程。
生物制药人工智能应用峰会上,有几位演讲者提到,制药公司倾向于囤积数据,并根据其数据库的数量来评估未来的成功。
但赛诺菲首席数据官 Milind Kamkolkar 认为,当下,通过知识共享开展合作以及提高已有数据的质量应该比积累数据更为重要。
但是,寻找药物化合物的竞争是激烈的,没有任何一家公司愿意向竞争对手提供他们辛辛苦苦得来的数据。
也许,在不久的将来,主要的医疗保健和制药利益相关者将不得不与数据所有者 (即医疗保健提供者、病人和其他医疗保健消费者) 进行谈判,以决定谁能够利用数据做些什么。