专访《时代周刊》风云人物:AI研发新药,我要提醒这几点

达芙妮·科勒(Daphne Koller)的履历堪称传奇。出生于以色列的她早早显露出了过人天赋,17岁就从大学毕业,18岁便取得了硕士学位。随后,她将人工智能定为自己的职业方向,并很快成为这一领域的顶尖学者。2004年,只有36岁的她斩获“麦克阿瑟天才奖”。2012年,她入选《时代周刊》百大风云人物。

在斯坦福大学度过了18年的时光,这位才华横溢的学术明星近年来决意在职业道路上迎接新的挑战。而她选择的挑战,是行业期望已久的圣杯——使用机器学习方法,在至今无药可治的疾病中,找到可成药的靶点。

人工智能与新药研发

过去几年,人工智能是社会关注的热点。在新药研发领域,人们也期待来自机器的智慧能够解决研发产率不断下降的痛点。在药明康德全球论坛上,我们连续几年听到了来自业内权威的洞见。他们的分享,许多都指向了一个关键词——预测。

我们能预测药物分子进入人体后产生的影响吗?我们能利用数据,预测临床试验的结果吗?我们能预测出人类疾病的分子机制吗?我们能预测哪些试验不必进行吗?如果能回答这些“预测”的问题,或许就能提高新药研发产率。

▲insitro创始人兼首席执行官科勒博士在今年的药明康德全球论坛上分享关于数据的洞见(未来需要怎样的大数据与AI? | 药明康德全球论坛实录

今年1月,科勒博士在药明康德全球论坛上分享了她对“预测”的看法。她指出,为了建立预测模型,我们需要足够多的优质数据来训练算法。但在新药研发上,这些高质量的数据往往并不存在。人们为此往往选择折中方案,将大量数据拼凑起来,应用于机器学习。但对于擅长见微知著的机器学习而言,输入虚假的信号,只会导致“垃圾进,垃圾出”的后果。

为了解决这一问题,她于2018年创立了insitro公司,致力于将顶尖机器学习算法与高质量、大规模的训练数据进行结合,真正推动以数据数量和质量为基础的机器学习算法。据透露,该公司的A轮融资金额超过了1亿美元,对其表示看好的包括ARCH Venture、谷歌风投、以及Third Rock Ventures等知名风投机构。

慷慨解囊的背后,是这些风投对一个关键问题的追问:我们真的能让生物学变得更容易预测吗?

通往成功之道

科勒博士指出在机器学习领域,初创公司的数量正在快速增长,但“绝大多数的公司期望从已有的数据中提取洞见”。在她看来,“许多数据集本身的质量并不出色。退一步讲,就算它们能够满足最初的需求,这些数据集也不是为了高级机器学习方法而设计获取的”。

这正是insitro与大部分机器学习公司所不同的地方。科勒博士向我们介绍,insitro的侧重点并不是“能获得什么数据”,而是在新药研发的过程中,率先找出有哪些阻碍和问题,然后考虑哪些部分在合适的大规模数据集下,能够通过机器学习的方法进行变革。“当我们能找到存在的关键问题,就能产生大规模的高质量数据,用于机器学习分析。”科勒博士补充道。

而insitro首先想要解决的问题存在于生物学中。“许多药物之所以失败,是因为它们靶向了错误的对象。我们需要更好的疾病模型来寻找靶点,”科勒博士说道:“我们想要参与到从苗头化合物到先导化合物的寻找,并对先导化合物进行优化,以支持机制相关的研究,并在一定程度上减少化学所面临的风险。从长期看,我预见我们的技术能用于设计化合物,发掘生物标志物,设计临床试验,并改善生产过程。”在insitro看来,生物学是最富机遇的领域。

▲insitro的投资团队堪称豪华(图片来源:insitro官网截图)

人们期望通过水晶球来预知不确定的未来。在新药研发领域,我们同样期望能够不用进行临床试验,就能相对准确地预知结果。期望背后,是当下临床试验设计与进行中的种种痛点。“有些时候,临床试验太难进行,或者成本太过高昂。有些时候,一些试验甚至没有开展的可能。从某种意义上说,我们所使用的疾病模型和靶点鉴定方法,只是在一个特定基因被干扰后,尝试去预测人类表型发生的变化。更好的药代动力学模型和毒理模型能给我们带来启发,但机器学习能带来更重要的影响。”科勒博士评论道。

挑战NASH

今年4月,吉利德宣布与insitro达成一项为期3年的研发合作,开发治疗非酒精性脂肪性肝炎(NASH)的疾病模型。研究人员们期待,他们能够找到逆转病情,或者至少能够延缓疾病进展的新型疗法。

在全球肥胖的流行下,NASH的发病率在过去20多年里有着显著上升。这种疾病从肝脏炎症起步,逐渐会演变为肝硬化,肝癌,乃至肝脏功能衰竭。然而,它又是一种“沉默的疾病”。在病程早期,当肝脏逐渐纤维化和硬化时,患者并不会显露出明显症状。

于是,NASH为全球带来了严重的医疗负担。据估计,全美有1600万人受到这一疾病的困扰。如果以美国总人口进行衡量,这相当于每20名美国人里,就有1名NASH患者!到2020年,NASH也将超越丙肝,成为美国肝脏移植的最主要原因。

正如科勒博士坚信高质量数据是人工智能做出突破的基础,为了建立NASH的疾病模型,insitro用于开发模型的方法也使用了大量人类数据,这包含从公共数据库或临床试验中获得的遗传学数据、分子表型、以及临床表型。随后,这些数据将与insitro自身的体外研究技术进行整合,辅助开发。

▲优质的数据,有望让机器学习展现更大的潜力(图片来源:Pixabay)

“我们对这项合作感到非常高兴,这背后有几个原因,”科勒博士说道:“首先,吉利德有顶尖的科学团队,他们对帮助患者非常上心。其次,他们不但为本项合作带来了大量数据,还带来了卓越的化学能力。这些宝贵的资源与我们的能力能很好形成互补,以产生大量与临床数据相互验证的体外数据,并让我们能用机器学习的方法寻找靶点。最后,这项合作还将在短期内为我们带来打造平台所需的资金,让这个平台朝我们所期望的方向发展。从长期看,我们希望能带来造福患者的药物。”

在接下来的几年里,insitro计划对吉利德的优质数据“进行消化”,并使用机器学习的方法,从中挑出重点,便于其开发所需的方法。到2020年,研究人员们期望能够提升其技术平台的规模,找到NASH相关的特征。到2021年,insitro期待其平台能有小成,并开始筛选那些能将细胞从疾病状态转为健康的靶点。

未来的方向

“我从事生命科学领域研究已经有了将近20年的时间。尽管我们在这20年里取得了长足进步,但我依然觉得有两大不足。我们缺少能给机器学习的高质量数据,也缺乏同时精通机器学习和生命科学的跨界人才。”科勒博士点评道。在她看来,跨界人才尤为稀缺——机器学习和生命科学所使用的是截然不同的术语体系,有着截然不同的思维方式,两者之间的思维沟通充满挑战。

“为了在这个交叉领域做出有意义的工作,理想的团队要理解哪些是真正需要被解决的问题,也要掌握解决问题相应的技术和能力,”科勒博士补充道:“这支团队需要对机器学习和生命科学同等重视,并在每一个环节中都紧密合作。随着时间推移,具体技术会发生迭代,但(跨界的)公司文化,以及多技能人才之间的交流模式将会永存。”

▲未来,我们需要同时精通生命科学和人工智能的人才(图片来源:Pixabay)

科勒博士坦诚,人工智能在生命科学方面的应用,目前还处于早期阶段,还有许多提高的空间。基于此,她也无意过早做出太大的承诺。“最终,机器学习技术的验证,还是要看我们能在多大程度上帮助患者。”她说道。我们是否选对了靶点,能否更快开发出成本更低的新药,为患者能带来多少意义与价值?在不久的将来,我们期待听到这些问题的正面答案。

药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业新药研发
1
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

推荐文章
暂无评论
暂无评论~