张倩 王淑婷编译

生物神经网络与机器学习的碰撞,Nature论文提出DNA试管网络识别手写数字

近日,来自加州理工学院的研究人员开发出一种由 DNA 制成的新型人工神经网络。该网络解决了一个经典的机器学习问题:正确识别手写数字。该项研究中,研究者用了 36 个手写数字 6 和 7 作为测试例子,结果表明这种新型神经网络能够正确识别出所有的数字。该研究是在生物工程助理教授 Lulu Qian 的实验室中完成的。相关论文于 7 月 4 日上传网络,并将出现在 7 月 19 日的纸质版《Nature》杂志上。

科学家们已经从 DNA 中开发出一种人工神经网络,能够识别嘈杂和高度复杂的分子信息。

包含由 DNA 构成的人工神经网络的一个微滴概念图(droplet Conception),该网络被设计成可以识别复杂和嘈杂的分子信息,即「分子笔迹」。

加州理工学院的研究人员开发了一种由 DNA 制成的人工神经网络,可以解决一个经典的机器学习问题:正确识别手写数字。这项研究迈出了重要一步,证明我们具备了将人工智能编程到合成生物分子回路中的能力。

「尽管研究者刚刚开始尝试在分子机器中创造人工智能,但其潜力是不可否认的,」Qian 表示。「电子计算机和智能手机使得现代人类的能力高于 100 多年前,与此类似,在未来的近百年里,人工分子机器可能制造出由分子组成的一切事物,甚至可能包括油漆和绷带,使得人类更有能力,适应环境的能力也更强。」

人工神经网络是在人类大脑的启发下创造的数学模型。尽管比真实的大脑简单得多,但该网络可以像神经元网络一样工作,也能处理复杂信息。Qian 的实验室进行该研究的最终目标是用由 DNA 组成的神经网络编程智能行为(计算、做出选择等方面的能力)。

Qian 表示,「每个人大脑中有 800 亿个神经元,用来做出高度复杂的决策。蛔虫等小动物可以仅利用几百个神经元做出简单决策。在本研究中,我们设计、创造了可以像一个小的神经网络一样工作的生化回路,用来对可能比以前的信息复杂得多的分子信息进行分类。」

为了证明基于 DNA 的神经网络的能力,Qian 实验室的研究生 Kevin Cherry 选择了一项任务:识别手写内容,该任务是电子人工神经网络面临的一个经典挑战。

人的笔迹可以有很大的不同,所以当一个人仔细检查潦草的数字序列时,大脑会执行复杂的计算任务来识别它们。因为甚至对人类来说,识别他人潦草的笔迹也很难,所以识别手写数字是将智能编程到人工神经网络中的常见测试。这些网络必须被「教导」如何识别数字,考虑手写的变化,然后将未知数字与它们所谓的记忆进行比较,并确定数字的身份。

在《Nature》上发表的一篇论文(第一作者是 Cherry)证明,由精心设计的 DNA 序列构成的神经网络可以进行规定的化学反应,准确识别「分子笔迹」。「与几何形状不同的视觉笔迹不同,分子笔迹的每个例子实际上并不具有数字的形状。相反,每个分子数字由从 100 个分子中选出的 20 个独特的 DNA 链组成,每个 DNA 链被指定代表任何 10×10 图案中的单个像素。这些 DNA 链在试管中混合在一起。

Qian 说:「缺乏几何形状在自然分子特征中并不少见,但仍需要复杂的生物神经网络来识别它们:例如,一种独特气味分子的混合物包含一种气味。」

给定分子笔迹的特定例子,DNA 神经网络可以将其分类为九个类别之多,每个类别代表从 1 到 9 的九个可能手写数字中的一个。

首先,Cherry 构建了一个 DNA 神经网络来区分手写的 6 和 7。他测试了 36 个手写数字,而试管神经网络正确地识别了所有数字。理论上来说,他的系统可以将 12000 多个手写的 6 和 7——其中 90 % 取自广泛用于机器学习的手写数字数据库——进行两种可能的分类。

这一过程的关键是用 Qian 和 Cherry 开发的 DNA 分子编码一种「胜者通吃」的竞争策略。在这种策略中,一种特殊类型的 DNA 分子被称为「歼灭者」,用于在确定未知数字的身份时选择获胜者。

Cherry 说:「歼灭者与一个竞争对手的一个分子和另一个竞争对手的一个分子形成复合物,并反应形成惰性、不发生反应的新品种。歼灭者迅速吞噬所有竞争分子,直到只剩下一个竞争者。随后获胜的竞争者被恢复到高浓度,并产生代表网络决策的荧光信号。」

接下来,Cherry 基于其第一个 DNA 神经网络的原理开发了一个更复杂的、可以将 1 到 9 进行分类的神经网络。当给定一个未知的数字时,这种「smart soup」将经历一系列反应并输出两种荧光信号,例如绿色和黄色代表 5,绿色和红色代表 9。

Qian 和 Cherry 计划开发可以学习的人工神经网络,从添加至试管的例子中形成「记忆」。Qian 表明,通过这种方式,该「smart soup」可以被训练来执行不同的任务。

「普通医学诊断只能发现很少的生物分子,比如胆固醇和血糖,」Cherry 说道,「使用我们这种更复杂的生物分子回路,有朝一日诊断测试可能囊括数百种生物分子,分析和反应直接在分子环境中进行。」

理论人工神经网络生物神经网络机器学习
1
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经元技术
neurons

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

推荐文章