NeurIPS 2018 | 药物发现领域的ImageNet诞生!Insilico Medicine推出全新数据基准平台

今日,一年一度的人工智能顶级会议NeurIPS开幕了。今年的大会新增了Expo环节,吸引了全球32家公司的参与。其中,Insilico Medicine在会上展示了他们最新的MOSES(Molecular Sets)平台,并宣布将这项研究开放,邀请更多的研究人员和团队向平台开放数据集和模型,从而对该平台进行扩展。

MOSES平台由Insilico Medicine、Neuromation及Alán Aspuru-Guzik实验室合作完成。MOSES是一个涵盖多种不同机器学习技术的基准平台,可以将数据集与标准数据集作比较,被看作是药物发现领域的“ImageNet”。根据预先定义好的指标,MOSES可以实现几种流行的分子生成模型,并对它们进行评级。MOSES旨在加快药物发现的速度,促进新模型的共享和比较。就像ImageNet可以促进成像数据的深度学习一样,MOSES的目标是促进人工智能驱动的药物发现。

随着机器学习的研究不断发展,尤其是深度学习方面,其可复制性方面的问题和对不同方法进行客观比较开始出现。虽然用机器学习模型生成新型分子结构的方法有很多,但是运行和评估这些生成模型表现的常规方法还未形成。MOSES平台可以提供一个标准化的基准数据集和一组统一实施的开源模型,以及用于评价和评估生成结果的指标。

▲MOSES平台的示意图(图片来源:Insilico Medicine)

“2015年,我们刚开始使用GAN来研究生成化学的时候,这种方法还是一门未经证实的奇特技术。而现在这一技术已通过实验验证,并且这个领域正在经历爆炸性扩张,许多团队纷纷加入,并做出了有意义的贡献。”Insilico Medicine的创始人兼首席执行官Alex Zhavoronkov博士表示:“我们相信,制定一套标准和基准,从而服务于整个行业,加快向患者提供由AI帮助研发的药物,这一点是非常重要的。”

Insilico Medicine 的首席技术官Alexander Zhebrak先生说道:“Insilico Medicine非常重视机器学习模型的可重复性和客观评估。随着生成AI的应用在药物发现领域日益普及,开发一个由研究界支持和维护的标准化基准平台的需求也越来越明显。有了MOSES,我们就可以通过先进的计算和机器学习方法,生产更好的药物化合物,这样一来,我们离整个行业创新发展的终极目标又更近了一步。”

Insilico Medicine的人工智能在衰老研究和长寿生物技术方面的应用,包括防衰老剂发现、衰老时钟、生物标志物开发、分子相似性评分、跨物种衰老研究AI和目标识别6个方面(图片来源:Insilico Medicine)

此外,Insilico Medicine还在大会上对于AI驱动衰老和延长寿命领域的研究进行了一些总结和展望。Zhavoronkov博士表示,年龄是最丰富的生物学特征之一。尽管个体的数据可能会出现不同程度上的缺失,但年龄的数据永远是最直观可得的。其次,深度学习年龄预测因子是一个非常好的手段,来整合此前不兼容的数据类型,如视频影像和血液测试结果等。第三,以年龄为条件,利用生成对抗网络(GANs)来生成新的生物数据,是产生高质量合成数据的好办法。

同时,Zhavoronkov博士还在相关论文中写道,我们可以将衰老视为一种分阶段的疾病,以便对组织特异性水平和系统水平的生物学过程形成全面的了解,这也让深度神经网络(DNN)更易于解读,帮助我们建立因果图并识别生物学目标。同时,我们或许能用年龄数据训练DNN,用特定疾病来重新训练模型。而且,我们还可以利用生物衰老时钟,生产个性化免疫疗法和疫苗,发现提高应答率的新方法。

参考资料:

[1] AI researchers join forces to develop the 'ImageNet' of generative drug discovery. Retrieved December 4, 2018, from https://eurekalert.org/pub_releases/2018-11/imi-arj113018.php

[2] Artificial intelligence tracks biological age at every level and rewinds the aging clock. Retrieved December 4, 2018, from https://www.eurekalert.org/pub_releases/2018-12/imi-ait120218.php

药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业生成对抗网络MOSES深度学习ImageNet机器学习NeurIPS
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~