Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

现在的你可能无法想象,未来合成生物学与人工智能会对世界产生哪些影响

编译 | 白菜叶

劳伦斯伯克利国家实验室(Lawrence Berkeley National Laboratory,LBNL 或LBL)、美国空军研究实验室(Air Force Research Laboratory 缩写AFRL)等机构的研究人员合作,对人工智能在合成生物学中的应用现状、影响、挑战以及潜力与前景进行了较为系统的阐述。

该综述以「Artificial Intelligence for Synthetic Biology」为题,于 2022 年 5 月发布在《Communications of the ACM》,以下为文章内容全译。

图片

在过去的二十年里,生物学发生了巨大的变化,使生物系统的有效工程成为可能。基因组革命提供了对细胞遗传密码(DNA)进行测序的能力,是这一巨大变化的主要驱动力。这场基因组革命带来的最新发现和工具之一是能够使用基于 CRISPR 的工具在体内精确编辑 DNA。

遗传密码的更高层次的表现,例如蛋白质的产生,被称为表型(如图 1)。高通量表型数据与精确 DNA 编辑相结合,为将底层代码的变化与表型联系起来提供了独特的机会。

图片

图 1:组学数据体现了细胞遗传密码(DNA)的高级表现。(来源:论文)

重要见解

合成生物学(Synbio)旨在设计符合规范的生物系统(例如,产生所需数量的生物燃料或以特定方式对外部刺激作出反应的细胞)。为此,合成生物学家利用工程设计原则利用工程的可预测性来控制复杂的生物系统。这些工程原理包括标准化的遗传部分和设计-构建-测试-学习(DBTL)循环,反复使用以实现预期结果。

Synbio DBTL 循环使预期的四个阶段适应该学科,如下所示:

1、设计:假设可以实现预期设计目标的 DNA 序列或一组细胞操作。

2、构建:在生物系统上实施设计步骤。这主要涉及 DNA 片段的合成及其成功转化为细胞。

3、测试:生成数据以检查测量的表型与预期目标的接近程度,并评估任何脱靶或不可预见的副作用的影响。

4、学习:利用测试数据来学习比随机搜索更有效地推动循环达到预期目标的原则。这通常包括对由不可预见的脱靶效应引起的故障的诊断。人工智能 (AI) 可用于为下一组设计提供信息,从而减少实现预期结果所需的 DBTL 迭代次数。

更具体地说,Synbio 通常涉及基因组水平的操作,以推动细胞产生特定产品或以某种方式表现。

我们是一群 AI 从业者,希望在各种应用中将 AI 原理应用到 Synbio 中。在本文中,我们试图为其他 AI 从业者提供该领域的潜力、一些初步成功以及将 AI 技术应用于 Synbio 领域时面临的主要挑战的概述。

我们的目标是激励人工智能从业者应对这些挑战,并促进对未来社会产生重大影响的学科的参与。当大型数据集和技术爱好者相遇时,人工智能出现了重大突破。图像和自然语言处理就是很好的例子。我们相信生物学,特别是 Synbio,为这两个领域的突破提供了无与伦比的机会。

Synbio 的潜力

Synbio 已准备好对世界上的每个活动部门产生变革性影响:食品、能源、气候、医药和材料(见图 2)。Synbio已经生产出胰岛素,而无需牺牲猪来换取它们的胰脏(在前一阶段,作为基因工程)、合成皮革、从未见过蜘蛛的蜘蛛丝制成的大衣、抗疟疾和抗癌药物、味道像肉的无肉汉堡包、可再生生物燃料、不含啤酒花的啤酒花味、灭绝花朵的气味,用于化妆品应用的合成人类胶原蛋白,以及消除携带登革热的蚊子的基因驱动。许多人认为这只是冰山一角,因为改造生物的能力提供了看似无限的可能性,而且该领域的公共和私人投资水平不断提高(见图 3)。

图片

图 2:Synbio 可能会影响世界上的每个活动部门。(来源:论文)

此外,随着人工智能进入第三波浪潮,专注于将上下文整合到模型中,其影响 synbio 的潜力也在增加。众所周知,生物体的基因型与其说是表型的蓝图,不如说是一个复杂的、相互关联的动态系统中的初始条件。

生物学家花费了数十年的时间来构建和管理大量属性,例如调节、关联、变化率和功能,以表征这个复杂的动态系统。

其他资源,例如基因网络、已知功能关联、蛋白质-蛋白质相互作用、蛋白质-代谢物相互作用以及用于转录、翻译和相互作用的知识驱动的动态模型,提供了丰富的资源来丰富具有上下文的 AI 模型。模型可解释性对于发现新颖的设计原则也至关重要。

这些模型为生物学家提供了一个机会来回答有关生物系统的复杂得多的问题,并建立综合的、可解释的模型来加速发现。知识和资源的增加在 Synbio 出版物的数量以及 Synbio 的商业机会中显而易见(图 3)。

图片

图 3:学术(a)和商业(b)领域的显著增长为人工智能在合成生物领域的应用提供了丰富的信息、数据和背景资源。(来源:论文)

人工智能及其对 Synbio 的当前影响

与影响合成生物领域的潜力相比,人工智能对合成生物的影响有限。我们已经看到了人工智能的成功应用,但它们仍然局限于特定的数据集和研究问题。挑战仍然是看看这些方法对更广泛的应用程序和其他数据集的推广程度。数据挖掘、统计和机械建模目前是该领域计算生物学和生物信息学的主要驱动力,它们与人工智能/机器学习(ML)之间的界限通常很模糊。

例如,聚类是一种数据挖掘技术,可识别基因表达数据中的模式和结构,这些模式可以表明工程改造是否会导致细胞毒性结果。这些聚类技术也可以用作在未标记数据集中找到结构的无监督学习模型。随着更大的数据集变得普遍可用,这些正在开发中的经典技术和新颖的 AI/ML 方法将在 Synbio 的未来发挥更大的作用和影响。

转录组学数据量每七个月翻一番,蛋白质组学和代谢组学的高通量工作流程变得越来越可用。此外,实验室工作通过微流体芯片逐步实现自动化和小型化,预示着未来数据处理和分析将成为合成生物的主要生产力倍增器。

DARPA 的协同发现与设计(SD2,2018-2021)计划专注于构建 AI 模型以解决这一差距。这在一些在该领域最先进的公司中也很明显(例如,Amyris、Zymergen 或 Ginkgo Bioworks)。

AI 和 Synbio 在几个方面相交:将现有 AI/ML 应用于现有数据集;生成新数据集(例如,即将推出的 NIH Bridge2AI);并创建新的 AI/ML 技术以应用于新的或现有的数据。尽管 SD2 在最后一个类别中做了一些工作,但仍有许多工作和潜力。

人工智能可以帮助克服的 Synbio 的一个基本挑战涉及预测生物工程方法对宿主和环境的影响。在没有预测生物工程结果的能力的情况下,Synbio 将细胞工程化为规范(即逆向设计)的目标只能通过艰苦的试错来实现。人工智能提供了一个机会,可以使用公开数据和实验数据来预测对宿主和环境的影响。

设计用于编程细胞的遗传结构。许多 Synbio 的努力都集中在工程基因构建体/电路上,这与设计电子电路提出了非常不同的挑战。基因构建体旨在引发细胞的特定反应,就像电子电路旨在提供对电子系统的控制一样。虽然我们可以合成 DNA 并将其转移到细胞中,但这种转移对动态活生物体的细胞机制的全球影响尚不完全清楚或目前无法预测。相比之下,电气工程师拥有「静态」设计电子电路板以执行各种功能的工具,并且不会以有害的方式影响电路板。活细胞的物理学和生物学背后的规则是复杂的、相互交织的,需要付出巨大的努力才能发现。总之:

电路板设计

  • 用于实现所需电路输出的已知部件组。
  • 印刷电路板对门/电路的影响可以忽略不计,反之亦然。
  • 存在零件和电路板的定性和定量模型以稳健地预测电路性能。

活细胞设计

  • 基因构建体旨在实现细胞的某些反应。
  • 不能忽视活细胞对构建体的影响,反之亦然。
  • 预测性能的模型必须同时考虑宿主和构造动态。

人工智能技术已被利用,结合已知的生物物理、机器学习强化学习模型来有效地预测构造对主机的影响,反之亦然,但仍有很大的改进空间。例如,对于机器辅助的基因电路设计,已经应用了多种人工智能技术。

它们包括专家系统多智能体系统、基于约束的推理、启发式搜索、优化和机器学习。基于序列的模型和图卷积网络在工程生物系统领域也获得了关注。因子神经网络已被用于将生物学知识整合到深度学习模型中。图卷积网络已被用于从蛋白质-蛋白质相互作用网络预测蛋白质的功能。

基于序列的卷积和循环神经网络模型已被用于识别蛋白质的潜在结合位点、基因的表达以及新生物构建体的设计。人工智能的一些最有用的应用将是开发综合模型,这将减少需要进行(或测试)的实验(或设计)的数量。

代谢工程。在代谢工程中,人工智能已应用于生物工程过程的几乎所有阶段。例如,人工神经网络已被用于预测翻译起始位点、注释蛋白质功能、预测合成途径、优化多个异源基因的表达水平、预测调控元件的强度、预测质粒表达、优化营养浓度和发酵条件、预测 酶动力学参数,了解基因型-表型关联,并预测 CRISPR 指导功效。

聚类已被用于寻找次级代谢物生物合成基因簇并识别催化特定反应的酶。集成方法已被用于预测通路动力学、最佳生长温度,并在定向进化方法中找到赋予更高适应性的蛋白质。支持向量机已被用于优化核糖体结合位点序列并预测 CRISPR 指导 RNA 的活性。最有希望应用人工智能的代谢工程阶段是:工艺放大、下游加工(例如,从发酵液中系统地提取产生的分子)。

实验自动化。在帮助自动化实验室工作和推荐实验设计方面,人工智能的影响已经远远超出了 DBTL 周期的「学习」阶段。自动化正逐渐成为一种关键实践,作为获取训练 AI 算法和实现可预测的生物工程所需的高质量、大容量、低偏差数据的最可靠方式。

自动化提供了将复杂协议快速传输和扩展至其他实验室的机会。例如,液体处理机器人站构成了生物铸造厂和云实验室的支柱。这些代工厂已经看到他们的能力被机器人技术规划算法彻底改变,从而实现了 DBTL 周期的快速迭代。语义网络、本体和模式已经彻底改变了设计和协议的表示、通信和交换。

这些工具支持快速实验并以结构化、可查询的格式生成更多数据。在大多数上下文丢失或在实验室笔记本中手动捕获的领域中,人工智能的承诺迫使该领域发生重大变化,以减少生成数据的障碍。

微流体代表了宏观液体处理器的替代品,可提供更高的通量、更少的试剂消耗和更便宜的缩放。事实上,微流控技术可能是实现自动驾驶实验室的关键技术,它有望通过使用人工智能增强自动化实验平台来大幅加速发现过程。

自动驾驶实验室涉及全自动 DBTL 循环,其中 AI 算法通过基于先前实验假设其结果来主动搜索有希望的实验程序。因此,它们可能代表了合成生物领域人工智能研究人员的最大机会。虽然已经在液体处理机器人站中展示了自动化 DBTL 回路,但微流控芯片提供的可扩展性、高通量能力和制造灵活性可能会提供最终的技术飞跃,使科学家 AI 成为现实。

挑战

人工智能已经开始进入各种合成生物应用,但主要的技术和社会学障碍继续将这两个领域分开。

技术挑战。将 AI 应用于 Synbio 的技术挑战(见图 4)是数据分散在不同的模式中,难以组合,非结构化,并且通常缺乏收集它们的上下文;模型需要的数据比通常在单个实验中收集的要多得多,并且缺乏可解释性和不确定性量化;并且没有指标或标准可以有效评估手头较大设计任务中的模型性能。此外,实验通常旨在仅探索积极的结果,从而使模型的评估复杂化或产生偏差。

图片

图 4:将 AI 技术与 Synbio 应用程序集成的挑战。(来源:论文)

数据挑战。缺乏适当的数据集仍然是人工智能与合成生物学相结合的第一个主要障碍。将 AI 应用于合成生物学需要来自单个实验的大量标记、精选、高质量、上下文丰富的数据。尽管该社区在建立包含各种生物序列(甚至全基因组)和表型的数据库方面取得了进展,但标记数据的匮乏。「标记数据」是指映射到捕获其生物学功能或细胞反应的测量值的表型数据。正是这些测量和标签的存在将推动 AI/ML 和 Synbio 解决方案的成熟,以与人类能力相媲美,就像它在其他领域所做的那样。

缺乏对数据工程的投资是缺乏适当数据集的部分原因。人工智能技术的进步往往掩盖了支持和确保其成功的计算基础设施要求。AI 社区将这种规范的基础设施称为需求金字塔(参见图 5),其中数据工程是一个重要组成部分。数据工程封装了实验计划、数据收集、结构化、访问和探索步骤。

成功的 AI 应用案例涉及标准化、一致且可重复的数据工程步骤。虽然我们现在可以以前所未有的规模和细节收集生物数据,但这些数据通常并不适合机器学习

在采用社区范围的标准来存储和共享测量、实验条件和其他元数据方面仍然存在许多障碍,这将使它们更适合人工智能技术。需要进行严格的形式化工作和达成共识,以使此类标准迅速采用并促进数据质量评估的通用指标。

简而言之,人工智能模型需要在所有实验中进行一致且可比较的测量,这会延长实验时间。对于已经遵循复杂协议进行科学发现的实验者来说,这一要求增加了巨大的开销。因此,通常会牺牲数据收集的长期需求来满足此类项目通常施加的紧迫期限。

图片

图 5:规范的 AI/ML 基础设施可以支持 Synbio 研究。中间阶段往往是关注的焦点,但基础至关重要,需要大量资源投入。

这种情况通常会导致稀疏的数据集合,这些数据集合仅代表构成组学数据堆栈的多个层的一小部分(如图 1 所示)。在这些情况下,数据表示对集成这些孤立数据集以进行全面建模的能力有重大影响。如今,在执行数据清理、模式对齐以及提取、转换和加载操作 (ETL) 的各种垂直行业中花费了大量精力,以收集和准备不规则的数字数据,并将其转换为适合分析的形式。

这些任务占据了数据科学家近 50% 到 80% 的时间,限制了他们提取见解的能力。对合成生物学研究人员来说,处理各种各样的数据类型(数据多模态)是一个挑战,与数据量相比,数据多样性使预处理活动的复杂性急剧增加。

建模/算法挑战。在分析组学数据时,许多推动当前人工智能进步的流行算法(例如,在计算机视觉自然语言处理领域)并不可靠。当应用于特定实验中收集的数据时,这些模型的传统应用通常会遭受「维度灾难」(参见图 6)。

例如,单个实验人员可以在特定条件下为生物体生成基因组学、转录组学和蛋白质组学数据,这些数据将提供超过 12,000 次测量(维度)。

此类实验的标记实例数(例如,成功或失败)通常最多在数十到数百个之间。对于这些高维数据类型,很少能捕捉到系统的动态(时间分辨率)。这些测量差距使得对复杂动态系统的推论成为一项重大挑战。

图片

图 6:维度的诅咒。(来源:论文)

组学数据与其他数据模式(如序列数据、文本数据和基于网络的数据)有相似之处和不同之处,但经典方法并不总是适用。共享数据特征包括位置编码和依赖关系,以及复杂的交互模式。然而,存在一些根本差异,例如:它们的基本表示、有意义的分析所需的上下文以及跨模式的相关标准化以进行生物学有意义的比较。

因此,很难找到能够准确表征组学数据的稳健类别的生成模型(类似于高斯模型或随机块模型)。此外,生物序列和系统代表了生物功能的复杂编码,但很少有系统的方法可以像我们从书面文本中解释语义或上下文那样来解释这些编码。

这些不同的特征使得通过数据探索提取洞察力并生成和验证假设变得具有挑战性。工程生物学涉及学习黑盒系统的挑战,我们可以在其中观察输入和输出,但我们对系统内部运作的了解有限。考虑到这些生物系统在其中运行的组合、大参数空间,战略性和有效地设计实验以探测和询问生物系统以进行假设生成和验证的 AI 解决方案在该领域提出了巨大的需求和机会。

最后,许多流行的 AI 算法解决方案没有明确考虑不确定性,也没有显示出在输入扰动下控制错误的稳健机制。考虑到我们试图设计的生物系统中固有的随机性和噪声,这一基本差距在 Synbio 领域尤为重要。

指标/评估挑战。基于预测和准确性的标准 AI 评估指标对于 Synbio 应用来说是不够的。回归模型的 ℝ2 或基于分类的模型的准确性等指标并不能解释我们试图建模的底层生物系统的复杂性。量化模型阐明生物系统内部运作和捕获现有领域知识的程度的其他指标在该领域同样重要。为此,结合可解释性和透明度原则的人工智能解决方案是支持迭代和跨学科研究的关键。此外,正确量化不确定性的能力需要创造性地开发新的指标来衡量这些方法的有效性。

还需要适当的实验设计指标。Synbio 中模型的评估和验证有时需要额外的实验,需要额外的资源。少数错误分类或小错误会对研究目标产生巨大影响。这些成本应整合到目标函数或 AI 模型的评估中,以反映错误分类对现实世界的影响。

社会学挑战。在利用 AI 造福 Synbio 方面,社会学障碍可能比技术障碍更具挑战性(反之亦然)。我们的印象是,许多障碍源于所涉及的不同文化之间缺乏协调和理解。虽然有一些举措已经开始克服这些挑战,但有趣的是,持续存在的主题在学术界和工业界仍然存在问题。

社会学挑战的根源。这些挑战源于需要融合两个截然不同的群体的专业知识:计算科学家和实验科学家。

计算科学家和实验科学家的训练方式截然不同(见图 7)。通过培训,计算科学家倾向于专注于抽象,热衷于自动化和计算效率以及颠覆性方法。他们自然倾向于任务专业化,并寻找将重复任务交给自动化计算机系统的方法。替补科学家很实用,接受过具体观察方面的培训,并且更喜欢可解释的分析来准确描述实验的具体结果。

图片

图 7:计算科学家和实验室科学家来自不同的研究文化,他们必须学会合作才能充分受益于 AI 和 Synbio 的结合。(来源:论文)

这两个世界拥有不同的文化,不仅体现在他们如何解决问题上,还体现在他们认为值得解决的问题上。例如,在致力于建设支持一般研究的基础设施的努力与旨在研究特定研究问题的努力之间存在持续的紧张关系。

计算科学家倾向于为各种项目提供可靠的基础设施(例如,用于菌株构建的自动化管道或收集所有相关数据的集中式数据库);而板凳科学家倾向于专注于最终目标(例如,以具有商业意义的数量生产所需的分子),即使这意味着依赖仅对特定情况有效的定制方法。

在这方面,计算科学家喜欢开发解释和预测生物系统行为的数学模型,而实验室科学家更喜欢尽快提出定性假设并通过实验对其进行测试(至少在使用微生物时,这些实验可以快速完成:3-5 天)。

此外,计算科学家通常只能对崇高的蓝天目标感到兴奋和精力充沛,例如生物工程生物以改造火星,编写能够创造 DNA 以满足所需规格的生命编译器,重新设计树木以采用所需的形状 ,现实生活中的生物工程巨龙,或者用人工智能代替科学家。

替补科学家将这些崇高目标视为「炒作」,因为以前的计算类型过度承诺和交付不足的例子而被烧毁,他们宁愿只考虑使用当前技术状态可以实现的目标。

应对社会学挑战。解决这些社会学障碍的方法是关注跨学科团队的需求。诚然,在一家公司(团队一起下沉或成功)实现这种包容性环境可能比在学术环境(研究生或博士后追求发表几篇第一作者论文以宣称成功,而不需要与其他学科整合)更容易。

这种整合的一个可能途径是创建交叉培训课程,在这些课程中,传统学科科学家接受编程和机器学习培训,计算科学家接受实验工作培训。

最后,两个社区都带来了一些有价值的、独特的和必要的东西。参与的每个人越早明白这一点,Synbio 就可以更快地推进。

从长远来看,我们需要将生物学和生物工程的教学与自动化和数学相结合的大学课程。虽然目前有几项举措正在进行中,但它们只是所需劳动力的杯水车薪。

前景和机会

人工智能可以通过在工程阶段空间中打开第三个轴:物理、化学和生物,从根本上增强合成生物并实现其全面影响。最明显的是,人工智能可以对生物工程结果产生准确的预测,从而实现有效的逆向设计。

此外,人工智能可以支持科学家设计实验并选择何时何地进行采样,这是目前需要训练有素的专家才能解决的问题。AI 还可以支持从包括历史实验数据、在线数据库本体和其他技术材料在内的大数据源中自动搜索、高通量分析和假设生成。

人工智能可以通过允许更快地探索大型设计空间并通过推荐有趣的「开箱即用」假设来增强 Synbio 领域专家的知识。Synbio 为当前的 AI 解决方案提出了一些独特的挑战,如果这些挑战得到解决,将在 Synbio 和 AI 领域带来根本性的进步。

设计一个生物系统本质上依赖于控制系统的能力。这是理解支配系统的基本规律的终极考验。因此,能够实现合成生物研究的 AI 解决方案必须能够描述导致最佳预测的机制。

尽管最近基于深度学习架构的 AI 技术改变了我们对特征工程和模式发现方式的看法,但它们在推理和解释其学习机制的能力方面仍处于起步阶段。

为此,包含因果推理、可解释性、稳健性和不确定性估计要求的人工智能解决方案在这一跨学科领域具有巨大的潜在影响。生物系统的复杂性,使得纯粹基于蛮力相关性发现的 AI 解决方案,无法有效地表征系统的内在特征。

将物理和机械模型与数据驱动模型平滑结合的一类新算法,是一个令人兴奋的新研究方向。我们在气候科学和计算化学中看到了一些初步的积极成果,希望在生物系统研究中也能取得类似的进展。

Synbio 还可以激发新的 AI 方法,因为它提供了修改生物系统的工具。让我们不要忘记,生物学启发了诸如神经网络遗传算法强化学习计算机视觉群体机器人人工智能的主要内容。如果生物学不能提供进一步的灵感,那将是令人惊讶的。

事实上,有许多生物现象需要以数字方式进行模拟。例如,基因调控涉及精心设计的相互作用网络,使细胞不仅可以感知环境并对环境做出反应,还可以保持细胞的活力和稳定。

保持内环境稳定(由生命系统维持的稳定的内部、物理和化学条件的状态)包括在适当的时间、以适当的量产生细胞的适当成分,感知内部梯度,并仔细调节细胞与其环境的交换。我们能否理解并利用这种能力来生产真正自我调节的人工智能或机器人?

另一个例子涉及涌现属性(即系统表现出的属性,而不是其组成部分表现出的属性)。例如,蚁群的行为和反应就像一个单一的有机体,比它的各个部分(蚂蚁)的总和要复杂得多。以类似的方式,意识(即对内部或外部存在的感知或意识)是一种源自物理基质(例如神经元)的定性特征。

自组织和集体建造结构的群体机器人已经存在。我们能否使用一般的涌现理论来创造机器人和生物系统的混合体?我们能否从一个非常不同的物理基质(例如,晶体管而不是神经元)创造意识?

最后一个可能的例子涉及自我修复和复制:即使是最不复杂的生命例子也表现出自我修复和复制的能力。我们能否理解这种现象的困境,以产生自我修复和复制的人工智能

虽然之前已经考虑过这种生物模拟,但 Synbio 的美妙之处在于为我们提供了「修补」生物系统以测试仿生模型和基本原理的能力。

例如,我们现在可以在基因组规模上对细胞基因调控进行修补,以对其进行修改,并测试我们认为是其显著弹性和适应性的根本原因。或者我们可以对蚂蚁进行生物工程,并测试接下来会发生什么样的蚁群行为,以及它如何影响其存活率。或者我们可以改变细胞自我修复和自我复制机制,并测试其竞争能力的长期进化效应。

此外,在细胞建模中,我们非常接近对所涉及的生物学机制的良好理解。虽然了解神经网络如何检测眼睛形状并揭示大脑如何做同样的事情几乎没有希望,但在 Synbio 中并非如此。机械模型的预测并不完美,但会产生质量上可接受的结果。

将这些机械模型与 ML 的预测能力相结合可以帮助弥合两者之间的差距,并提供生物学见解,以了解为什么某些 ML 模型在预测生物行为方面比其他模型更有效。这种洞察力可以带来新的 ML 架构和方法。

AI 可以帮助 Synbio,Synbio 可以帮助 AI;但最终,这两个学科在持续反馈循环中的相互作用将创造我们现在甚至无法想象的可能性。同样,本杰明·富兰克林无法想象他对电的发现有一天会开启互联网时代。

论文链接:https://cacm.acm.org/magazines/2022/5/260341-artificial-intelligence-for-synthetic-biology/fulltext

理论神经元人工智能
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

群体机器人技术

群体机器人是协调多机器人系统的一种方法,其一般包含大量的简单物理机器人。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

数据清理技术

数据清理(data cleansing)指删除、更正数据库中错误、不完整、格式有误或多余的数据。数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清理软件能够自动检测数据文件,更正错误数据,并用全企业一致的格式整合数据。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

集成方法技术

在统计学和机器学习中,集成方法使用多种学习算法来获得比单独使用任何组成学习算法更好的预测性能。

启发式搜索技术

计算机科学的两大基础目标,就是发现可证明其运行效率良好且可得最佳解或次佳解的算法。而启发式算法则试图一次提供一个或全部目标。例如它常能发现很不错的解,但也没办法证明它不会得到较坏的解;它通常可在合理时间解出答案,但也没办法知道它是否每次都可以这样的速度求解。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

多智能体系统技术

一个多智能体系统,是由一个在一个环境中交互的多个智能体组成的计算系统。多智能体系统也能被用在解决分离的智能体以及单层系统难以解决的问题。智能可以由一些方法,函数,过程,搜索算法或加强学习来实现。尽管存在相当大的重叠,然而一个多智能体系统并不总是一个基于智能体的模型表现一致。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

随机搜索技术

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

遗传算法技术

遗传算法是计算数学中用于解决最优化的搜索算法,是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。 遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题,一定数量的候选解可抽象表示为染色体,使种群向更好的解进化。

语义网络技术

语义网络常常用作知识表示的一种形式。它其实是一种有向图;其中,顶点代表的是概念,而边则表示的是这些概念之间的语义关系。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

本体技术

在计算机科学和信息科学中,本体包括表示、正式命名和定义概念,数据,实体之间的类别,属性和关系,并在一个,多个或所有域实例中。

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~