科学家「黑进」果蝇大脑跑NLP任务,发现效率比BERT高

研究了半天人工神经网络,还不如复制粘贴动物的答案?

最近一段时间,有关摩尔定律终结的讨论时常出现,深度学习越来越高的算力需求与芯片制造厂商们「挤牙膏」式的换代速度产生了不可调和的矛盾。对此,一些研究者们正在专注于常规架构的效率提升,也有一些研究者把目光转向于常规计算机体系之外,如光电计算、类脑计算,以及量子计算等方向。

现在,又有人想在动物身上寻找思路。在 1 月 13 日刚刚放榜的人工智能顶级会议 ICLR 2021 上出现了这样一篇论文:研究者们「黑」进了果蝇的神经网络,用它来跑 NLP 算法,结果发现性能与常规人工神经网络相当,而且非常节约能耗。

这一通操作仿佛打开了新世界的大门。

神经科学中研究最深入的网络之一是果蝇的大脑,尤其是称为蘑菇体的部分。该部分能够分析气味、温度、湿度和视觉数据等感官输入,以便于果蝇学会区分友好刺激和危险刺激。神经科学家表示果蝇大脑的这一部分是由一组称为投射神经元的细胞组成,这些细胞将感觉信息传递给 2000 个称为 Kenyon 细胞(简称KC)的神经元,Kenyon 细胞连接在一起形成能够学习的神经网络。这让果蝇在学习接近食物、潜在伴侣等时候,学会避免潜在的有害感官输入(例如危险的气味和温度)。

这个相对较小的网络具备的功能和灵活性让神经科学家们好奇:是否可以对其进行编程以解决其他任务?

在伦斯勒理工学院、MIT-IBM Watson AI Lab 的研究者进行的一项入侵果蝇大脑网络的研究中,人们成功地在生物大脑中执行了自然语言处理等任务。这是自然界的神经网络第一次以这种方式被征用。研究者表示这个生物大脑网络与人工学习网络的性能相当,但使用的计算资源却更少。

这种方法相对简单直接,该团队首先使用计算机程序重建蘑菇体所依赖的网络,大量神经元将数据提供给大约 2000 个 Kenyon 细胞。然后研究者训练了该网络以识别文本中词之间的相关性。该任务基于的思想是:一个词可以通过其语境或通常在其附近出现的其他词来表征。该想法首先从一个文本语料库开始,然后面向每一个词,分析出现在该词前后的其他词。

这样机器学习系统可以在给定已经出现的词的情况下预测句子中下一个词。许多系统(例如 BERT)都使用这种方法来生成看起来自然的句子,该研究也采用了这种方法。事实证明即使自然界的网络完全不是基于这一目的进化的,但它也非常擅长这种方式。该研究表明该网络可以学习词的语义表征。

研究者表示,果蝇的大脑网络可与现有的自然语言处理方法相媲美,并且最重要的是生物网络仅使用很少一部分计算资源。这意味着它仅使用较少的训练时间和内存占用量。

生物的效率

这是一个有趣的结果。「我们把这样的结果视为生物启发算法普适性的一个范例,其与传统的非生物算法相比更具效率,」该论文的作者 Yuchen Liang 等人说道。

这项工作除了展示生物计算的效率,还提出了一些有趣的问题。其中最明显的就是:为什么生物神经网络计算是如此的高效?当然按照进化的理论,自然界会选择效率更高的神经网络存留下来,但在论文中,研究者们尚未对 Kenyon 细胞为何具有高效率提出自己的看法。

这项工作显然也开启了「入侵」其他生物大脑的方向。不过目前看来人们仍面临一些挑战,一个潜在的问题是神经科学家们仍然难以对更复杂化的大脑进行表征(如哺乳动物)。果蝇的大脑相对较小,只有 10 万个神经元,相比之下,老鼠的大脑有 1 亿个神经元,而人类的大脑有 1000 亿个神经元。因此在我们看到有小鼠、海豚或人类的大脑「被黑客入侵」之前,还需等待一段时间。

研究概况

论文:Can a Fruit Fly Learn Word Embeddings?

论文链接:https://openreview.net/forum?id=xfmSoxdxFCG

果蝇脑蘑菇体是神经科学中研究最多的系统之一,其核心由一群 Kenyon 细胞组成。这些细胞接受来自多种感官方式的输入,被伽马氨基丁酸能神经元(Anterior Paired Lateral Neurons,APL 神经元)抑制,从而创造了输入的稀疏高维表征。

具体而言,其主要感知方式是嗅觉,但也有来自感知温度、湿度、视觉的神经元的输入。这些输入通过一组突触权重传递给大约 2000 个 Kenyon 细胞。Kenyon 细胞通过 APL 神经元相互连接,后者会发送一个强大的抑制信号到 Kenyon 细胞。这个循环网络形成了 Kenyon 细胞之间的赢者通吃效应,并让一小部分「冠军」神经元之外的所有神经元都失声了。

在这项论文中,研究者将该网络模体(motif)进行了数学化建模,并将其应用于一项常见的 NLP 任务:学习非结构化文本语料库中的词与上下午之间的相关结构。

该研究提出的网络模体如图 1 所示,KC 也将输出发送到蘑菇体输出神经元 (MBON),但是蘑菇体网络的这一部分不包含在数学模型中。

图 1: 网络架构图。几组对应不同方式的神经元将它们的活动发送到 KC 层,而 KC 层通过与 APL 神经元的相互连接而被抑制。

总体而言,研究贡献如下:

  1. 受果蝇网络的启发,研究者提出了一种算法,使得为单词及其上下文生成 binary (相对于连续) 词嵌入成为可能,并系统评估了该算法在词汇相似性任务、词义消歧文本分类等任务上的表现;

  2. 与连续 GloVe 嵌入相比,本文的 binary 嵌入能产生更紧密和更好分离的概念集群,并且符合 GloVe 的 binarized 版本的集群特性;

  3. 研究者发现,训练果蝇网络所需要的计算时间比训练传统的 NLP 架构(如 BERT)所需要的计算时间要少一个数量级,但是在分类准确率上有所降低。

这一成果展示了人类将自然界算法及行为进行「重新编程」,并将其转化为原始生物体从未参与过的任务的目标算法的巨大潜力。

实验结果

在论文的第三章,研究者从静态词嵌入、词聚类、上下文相关的词嵌入文本分类等几个方面对研究提出的网络进行了评估,以下是实验结果。

静态词嵌入评价


聚类

上下文相关的词嵌入

文本分类

计算效率

论文作者

本文第一作者 Yuchen Liang,本科毕业于浙江大学,在哥伦比亚大学获得硕士学位,现为美国伦斯勒理工学院(Rensselaer Polytechnic Institute)在读博士。研究兴趣包括数据挖掘机器学习技术。

参考内容:

https://arxiv.org/abs/2101.06887

https://www.discovermagazine.com/the-sciences/fruit-fly-brain-network-hacked-for-language-processing


理论生物模拟ICLR 2021BERT
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

词义消歧技术

在计算机语言学, 词义消歧(WSD) 是一个自然语言处理和本体论的开放问题 。 歧义与消歧是自然语言理解中最核心的问题,在词义、句义、篇章含义层次都会出现语言根据上下文语义不同的现象,消歧即指根据上下文确定对象语义的过程。 词义消歧即在词语层次上的语义消歧。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

生物神经网络技术

生物神经网络(Biological Neural Networks)一般指生物的大脑神经元,细胞,触点等组成的网络,用于产生生物的意识,帮助生物进行思考和行动

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

量子计算技术

量子计算结合了过去半个世纪以来两个最大的技术变革:信息技术和量子力学。如果我们使用量子力学的规则替换二进制逻辑来计算,某些难以攻克的计算任务将得到解决。追求通用量子计算机的一个重要目标是确定当前经典计算机无法承载的最小复杂度的计算任务。该交叉点被称为「量子霸权」边界,是在通向更强大和有用的计算技术的关键一步。

推荐文章
暂无评论
暂无评论~