分子科学中的机器学习:不会燎原的星星之火?

By 邱陆陆2017年7月14日 14:29

继计算机视觉、语音识别、自然语言处理之后,谁是下一个迎来深度学习的浪潮冲击的领域?聚集了世界上最聪明头脑的自然科学领域会不会「首当其冲」?科学家们如何应用深度学习?他们是否担心被神经网络取代?我们在上海纽约大学主办的「分子科学中的机器学习方法及应用」暑期学校里,与三位分子科学教授聊了聊。


机器学习的热度已经蔓延到了自然科学领域。如果你在今年夏天走进高校物理系的论文答辩现场,会发现「机器学习」成为了物理系论文中仅次于「物理」的高频词汇。「没提到机器学习简直可以算作文章的一个亮点了」,复旦大学的一位答辩秘书笑道。


除了将机器学习应用于自身研究,科学家们也带着基础理论研究者天生的服务精神思考着另一类问题:我们能不能给予机器学习,尤其是深度学习模型可解释性?能否用自己的知识帮助到机器学习,让它更高效、更揭露本质、更美?去年,MIT 的物理学家和数学家就联手发布了名为《Why does deep and cheap learning work so well?》的论文,探讨物理学中常见的对称性、局部性等性质如何转化为非常简单的神经网络。


今年 6 月,华东师范大学-纽约大学计算化学联合研究中心(上海纽约大学)主办了以「分子科学中的机器学习方法及应用」为主题的国际暑期学校。五天的课程结构严明,介绍了机器学习方法技术基础,化学、生物和材料科学领域的计算问题,并展示如何将机器学习方法应用于解决此类问题。授课的讲师背景非常多样化:他们来自理论化学、统计物理、计算机科学、生物信息学等多个领域,其中很多人自己就是典型的「跨界」学者。组委会成员包括华东师范大学-纽约大学计算化学联合研究中心主任张增辉教授和纽约大学化学系张颖凯教授,他们的研究方向,生物大分子/过程的理论计算,本身就是一个综合了物理、化学、生物知识的交叉学科。而另外一位组委会成员,纽约大学的 Mark Tuckerman 教授同时在化学系和库朗数学学院任教,既是一位理论化学家,也是一位应用数学家。

暑校期间,机器之心受邀前往上海,和组委会的三位分子科学教授聊了聊分子科学中最近燃起的这一点星星之火,我们谈到了分子科学研究者如何利用机器学习模型,如何应对机器学习可解释性的欠缺,以及如何看待机器学习对分子科学的影响。


分子科学中的机器学习


分子科学是一个多学科交叉的知识领域,主要研究分子的结构与功能。分子科学可以被视为化学、生物、材料、药学等学科的基础,它主要研究分子的相互作用、结构和各种物理化学性质,具体包括化学键的形成与断裂、生物分子的结构、分子识别、分子间协同相互作用形成复杂材料等问题。


分子科学与机器学习的主要结合点在计算科学领域。计算科学是并列于理论科学与实验科学的概念,它随着计算机的兴起而发展,主要任务是通过数值模拟来研究实验对象,帮助研究者获得实验对象实时的演化信息,进而构建清晰直观的模型。但是传统的数值模拟方法对一些极为复杂的体系是无能为力的,此时,机器学习凭借其在高维空间中的刻画能力,可以进一步帮助研究者对复杂体系进行抽象、简化与估算。


「机器可读」的分子结构


我们感兴趣的第一个话题是模型的输入:如何把分子结构表达成计算机可读的向量或矩阵呢?


Mark Tuckerman 教授就此问题进行了详细的阐述。他首先提到,分子结构的表达方式是一个非常活跃的领域,科学家们正在积极探讨,如果以最终输入机器学习模型为目的,什么样的分子表示法才是最优的。他援引了爱因斯坦的名言「我们应使任何事物都变得越简单越好,而不仅是比较简单而已。」(Everything should be made as simple as possible, but no simpler.),很显然,越简单的方法越有效。


因此,这个问题的答案取决于研究对象。Tuckerman 教授解释道,如果研究对象是由数十个原子组成的小分子,那么用简单的矩阵表达法将一个原子表达成一个二维或三维矩阵,将原子间的距离的多项式作为元素即可。如果研究对象是更为复杂且柔软的大分子(即所谓的软物质,如蛋白质),那么研究者就需要根据体系特性选择表达方式,将其结构也一并表达出来。目前学界普遍采用人为构建的描述符(descriptor)来表达复杂体系的结构。分子描述符(molecular descriptor)是由化学家 Todeschini 及 Consonni 定义的概念,「分子描述符将分子的化学信息编码为一组有意义的数字。」


张颖凯教授称,用来描述一个分子的描述符多达几千种。根据体系的复杂程度,描述符可以按维度分类:一维描述符主要在于统计。研究者们统计大分子中不同的碳原子、氢原子以及各类其他原子的个数,进而得到一维描述符。二维描述符刻画图不变量;三维的描述符刻画图不变性。有了这些描述符后,研究者就可以按照自己的想法将这些描述符并列起来,组装成计算机可读的输入了。以一维描述符为例,正如自然语言分析中有「词袋」模型,分子科学中有「原子袋」和「化学键袋」模型。描述符的选择主要取决于模型结构。例如,神经网络本身已经足够复杂,因此,用最基础的三围描述符表达分子,进而让网络来对其中的潜在结构关系进行推断,是最为合适的选择。


模型的输出和优化函数


张颖凯教授给出了两个可用于分子科学的机器学习模型的优化目标。


「生物分子的结合亲和力(binding affinity)或者说结合的强度(strength)是一个很重要的问题。」张教授回答道。「输出可以是一个二维向量,一个代表结合的概率,另一个代表不结合的概率,这就让问题变成了机器学习中的分类问题。」张增辉教授对此做了一个有趣的类比:「分子间的结合自由能就像一对情侣的亲密程度。你观察到他们是否有共同语言、是否足够了解对方,进而就能对他们的情侣关系会不会天长地久做出预测了。」


另一个很好的例子是溶解度(solubility),它对于制药行业十分重要。溶解度可以通过实验测得,然而更多时候研究者希望在制成一种分子之前先对特定结构的分子的溶解度做出预测,机器学习在这项工作中已经取得了很好的进展。



张颖凯教授听取其他教授的演讲


相比于传统方法,机器学习的优势在在哪里?


Tuckerman 教授认为机器学习的优势在于高效和可扩展。一方面,如果要对从未见过的分子做能量预测,传统科学家需要求解极为复杂而昂贵的量子力学方程,而现在的研究者可以利用机器学习绕过量子力学计算进行非常精确而高效的估算。另一方面,分子科学的研究范围非常广泛,由几个、几十个原子组成的小分子和有复杂结构的大分子,都在研究范围内。如果用描述外表的方式表征分子,当研究范围扩大到大分子时,描述系统就会变得粗糙,从而导致精确度下降。这是机器学习能够帮到我们的地方:机器学习能够在小分子上做非常精确的计算,然后将其扩大到蛋白质或者其他大分子上,同样能获得精确且有效的结果。


Tuckerman 教授给出了一个具体的例子:「我们可以向模型输入一些维度并不高的信息,用很少的变量来表示整个分子的结构。比如用一个维度描述蛋白质的一个结构域(domain)和另一个结构域是否彼此邻近,用另一个维度描述两个结构域是否处于粘着斑(adhesion plaque)上。如果处于粘着斑上,两个结构域之间会互相靠近;反之,如果处于自然状态,两个结构域会距离彼此较远。接下来,用这样一组变量来描述分子的结构作为输入,通过训练得到一个可以用于预测的模型。训练好的模型可以根据一组描述前所未有的结构的新变量来预测环境的变化(比如蛋白是否在粘着斑上)对蛋白质结构的影响,并利用这些信息对模型做出有针对性的调整。这个过程并不需要一个复杂的、面面俱到的描述符(descriptor)。」



Mark Tuckerman 教授在课堂上


「黑箱」只是解开更大谜团的手段


提及神经网络,Tuckerman 教授十分兴奋。「我为神经网络着迷!从某种意义上来说它们简直有魔力。它们通过一些极为有效的机制运行,作为一个数学家你忍不住想要一探究竟,从数学的角度思考为什么它这么好用。」


张增辉教授表示,分子科学和神经网络的最大区别在于,分子科学总是试图寻找事物间的逻辑关系、现象的理论基础,神经网络则试图用一个复杂系统去拟合而不深究其原因。然而最终,再复杂的结构也必须符合物理定律,只不过当系统的复杂度上升,获得一个能够解释整个系统的简单规律就变得十分困难。


在神经网络之前,科学家在研究蛋白质这类复杂的大分子时已经采用过类似方式。蛋白质相互作用网络(protein interaction network)就是一个例子。生命体系包涵极其多的蛋白-蛋白相互作用,这些相互作用之间形成非常复杂的网络。通过建立蛋白质相互作用网络,可以了解其中任何一个相互作用的改变对整个网络的影响。将蛋白质内部的所有相互作用变成网络的输入信号,借由该模型可以发现蛋白质相互作用的生物功能,了解疾病产生的原因并找到药物设计的靶标。


能揭示规律的物理模型永远是最好的,是科学家们不变的追求目标。无论是普通计算机模拟还是深度学习,都是将过于复杂的、无法直观找到规律的问题中的某些不能用物理模型精确解释的部分用机器学习模型替代。而替代的目的仍然是希望能够帮助研究者揭示隐含的规律,而不是满足于停留在「黑箱」阶段。


帮助我,而非取代我


在访谈最后,我们提到了每一个深度学习应用领域都难免会被问到的问题:深度学习将对你的领域产生何种影响?这一点星星之火会不会以燎原之势取代传统方法,甚至应用传统方法的研究者?


自然语言社区就曾经历过两次「颠覆」式的浪潮,第一次是上世纪九十年代,基于统计的方法压倒式地替代了基于理论的方法。IBM 的著名统计派学者 Fred Jelinek 那句知名的「每有一名语言学家离开我的小组,模型识别率就会上升一些」就是在这样的背景下提出的。而 2010 年以来,统计方法的领地又一次受到了深度学习方法的猛烈冲击。最近,还有自然语言社区的知名学者站出来,公开抨击深度学习社区的研究者缺乏对语言学的基本认识,盲目套用深度学习模型,并用夸张的标题、预印本的形式在正式发表前博取影响力。随着机器学习的影响进一步扩大,自然科学社区有可能面临同样的问题吗?


三位科学家观点非常一致,他们认为,自然科学不会受到机器学习的「颠覆」。机器学习会帮助科学家,而不是替代科学家。


Tuckerman 教授分析称,机器学习能够在分子科学领域获得出色的结果,是因为科学家事先运用专业知识完成了大量工作,其中包括对要研究的问题做精确的定义,选择恰当的方式表达研究的对象,以及清楚哪些性质可能是由共同的先决定律(parent law)决定,这样即使不清楚定律本身,也能够在一定程度上确保机器学习模型的有效性。完成这些工作需要科学家对自己的研究对象及相关领域有非常深刻的理解,这个门槛并不是外行人能够在短期内跨越的。


张增辉教授补充道,在计算机视觉、自然语言分析等领域,机器学习尤其是深度学习能够快速地开展工作是因为他们的研究对象都十分容易被数字化。而在另一些领域,比如金融与分子科学,涉及的变量太多且太复杂,很难妥善地将全部所需信息数字化并进行整合。


「我们科学家还没那么容易失业」,张增辉教授自信地笑道。

声明:本文由机器之心原创出品,版权归作者所有,转载请查看要求,机器之心对于违规侵权者保有法律追诉权。