作者:Jie Liu等

用AI设计微波集成电路,清华大学等提出深度强化学习方法RINN

近日,创天科技、清华大学、杭州电子科技大学、西安电子科技大学发布了一篇论文,提出一种新型神经网络架构 Relational Induction Neural Network(RINN),可以自行设计微波集成电路。实验表明,该神经网络设计微波集成电路的水平堪比专业工程师。目前,这篇论文正在接受《Nature Communications》的评审。

微波集成电路(MWIC)是人类智慧、经验和直觉碰撞的产物。工程师使用计算机辅助设计工具来分析和解决 MWIC 问题,然后试图寻找最佳解决方案。这一过程非常枯燥、无聊且低效。受人类生理结构限制,工程师几乎无法找到大规模 MWIC 的最优解决方案。如何使工程师突破这些瓶颈非常重要。

当前,所有研究人员都是人工提取 MWIC 参数,然后用机器学习技术优化这些参数。然而,这一方法有两大严重缺陷:首先,它耗时耗力,并且提取的参数可能不够准确,无法表示电路的一些重要特征;其次,它会极大限制智能体的想象力和探索空间,导致其通常无法超越人类水平。

近年来,人工智能数据挖掘计算机视觉自然语言处理和其他众多应用领域取得了很大成功。作为 AI 子领域之一,基于深度神经网络强化学习逐渐从纯学术研究转入应用,例如经典的视频游戏、棋牌游戏、神经机器翻译和药物设计。但是,MWIC 设计如何结合 AI 还是一个空白领域。由于 MWIC 设计的复杂结构和巨大解空间,传统强化学习算法需要大量的数据来学习设计决策流程,因此难以及时快速收敛。因此,本论文作者创造了 RINN(关系归纳神经网络,Relational Induction Neural Network)架构,它能够高效学习 MWIC 数据规则,达到设计任意复杂度 MWIC 的目的。具体来说,MWIC 形状被定义为一系列参数化网格(parameterized mesh),当每个网格改变时,模拟结果通过 ADS 或 Ansys EM 这样的标准 CAE 包来计算。然后 RINN 聚类算法被用于这些模拟结果变化的聚类

本文的主要贡献如下:首先,据研究者所知,这是首次尝试使用深度强化学习方法(不依赖人类经验)训练智能体来探索 MWIC 设计,填补了这方面的空白。其次,聚类算法被用来减少 MWIC 设计的解空间,这样做可以带来更强大的无监督学习能力,并确保 RINN 架构拥有更好的稳定性和更快的收敛速度。第三,针对微波传输线电路、滤波器电路、天线电路自动设计的不同方面进行的几项综合研究已成功说明:1)如何训练 RINN 来作为 MWIC 设计智能体;2)如何集成 MWIC 设计和机器学习。该方法还可用于训练其它领域的智能体(如力学),为未来的自动化设计指明了方向。

论文:Microwave Integrated Circuits Design with Relational Induction Neural Network

论文链接:https://arxiv.org/pdf/1901.02069.pdf

摘要:与围棋相比,微波集成电路(MWIC)的解空间更大,结构也更为复杂,因此实现其自动设计一直以来都被视为人工智能领域的一大难题。本文作者设计了一种新的人工智能体,并将其命名为「关系归纳神经网络」(Relational Induction Neural Network)。该智能体可以自动设计 MWIC,且避免使用暴力计算来检查每一个可能的解,这是电子领域的一项重大突破。该智能体在微波传输线电路、滤波器电路和天线电路设计任务上的实验都取得了具有较强竞争力的结果。学习曲线表明,与传统强化学习方法相比,本研究提出的架构能够快速收敛到预先设计的 MWIC 模型,收敛速度可达 4 个数量级。该研究首次表明,智能体通过训练或学习可以在不加入任何额外先验知识的情况下自动归纳出 MWIC 结构之间的关系。值得注意的是,这种关系可以用 MWIC 理论和电磁场分布来解释。这项研究融合了人工智能和 MWIC,可以扩展到机械波、力学及其他相关领域。

结果

RINN 架构

图 1:RINN 架构。a)聚类算法数据集,即网状模型的 S 参数变化矩阵。b)聚类算法。c)用于训练深度强化学习模型的网状模型和 S 参数矩阵。d)以 c 为输入、MWIC 模型设计动作的概率向量 π 及值标量 V 为输出的深度强化学习模型。

1.基于 RINN 的滤波器设计

为了调查 RINN 执行 MWIC 设计的能力,研究者考虑了四种设计任务。准确的说,是四种滤波器设计任务,其中心频率分别是 9.3GHz、11.5GHz、7.55GHz 和 6.95GHz,但是第四个滤波器的长度和宽度限制在 5mm*5mm。具体设计任务见表 1,具体设计方案见图 2。

表 1:四种滤波器设计任务。


图 2:滤波器的聚类可视化图。a)滤波器模型。b-d)设计好的滤波器模型的表面电流密度分布、电场分布和磁场分布。e)网状模型(meshed model)。f-j)设计好的滤波器上的典型动作集群(action cluster)可视化结果。k-o)典型动作集群的可微 S_11 曲线。

智能体从零开始学习如何在不知道设计规则的前提下设计 MWIC 模型。通过观察智能体设计过滤器的动作,我们发现智能体实际上已经学会了类似于工程师的动作。为了降低通带回波损耗并增加滤波器的插入损耗,第一项任务的智能体学会了逐步调整当前频率下谐振器之间的耦合系数,其设计过程如图 3(a-c)所示。

第二项任务和第三项任务的智能体首先学会调整谐振器的长度,以达到移动中心频率的目的,然后调整谐振器之间的耦合系数,以减少通带回波损耗,增加插入损耗,其设计过程如图 3(d-i)所示。

图 3:基于 RINN 架构的滤波器设计流程。a-c)第一个任务的优化滤波器模型,及其回波损耗(S_11)和插入损耗(S_21)变化图。d-f)、g-i)、 j-l)分别是第二、三、四个任务的优化滤波器模型、回波损耗(S_11)变化图和插入损耗(S_21)变化图。m)四个任务的学习曲线。智能体的学习速度与设计任务的复杂度相关,设计任务越复杂,智能体的学习速度越慢。

2.基于 RINN 的天线设计

为了进一步证明 RINN 架构的泛化能力,我们尝试用它来设计天线。如图 5 所示,RINN 训练的智能体在没有任何人类知识的情况下成功地捕捉了天线的主要特征,并学会了在设计天线时执行一系列的正确动作,这些动作能简洁地表达引起他们观察的因果关系。智能体基于学习的策略成功地设计出了三种不同频率的天线模型。从设计天线的过程中,可以看到辐射贴片主要影响中心频率,而馈线主要影响输入阻抗。这些结果都与矩形贴片天线的理论以及电磁场分布一致。


图 5:a-c)三种天线模型,其中心频率分别为 8.5GHz、6.15GHz 和 7.35GHz,由智能体设计。d-f)观察智能体根据回波损耗曲线(S11)的变化设计天线的过程。g)所有天线的增益模式。h)三种天线模型的学习曲线


与人类工程师比较


我们在两个实验中对比了 RINN 和专业工程师的表现:首先,在 9.1GHz 的中心频率和 1.2GHz 的带宽下,六阶滤波器的反射损耗小于-15dB,插入损耗大于-1dB;第二,一个六贴片天线中心频率为 7.35 GHz 时,其增益大于 3dB。从图 6 中对比的人类工程师和 RINN 设计的 MWIC 模型中可以看出,人类工程师设计的模型更加规则,并且参数数量有限。RINN 设计的模型是不规则的,有更多的参数和更高的自由度,并且其形状更像是自然形成的。实际上,RINN 智能体可以学习提取影响电路性能的关键参数,并掌握多种设计任务。因此,仅接收网格滤波器矩阵和 S 参数矩阵作为输入的 RINN 智能体能够达到与专业工程师相当的水平。


图 6:a)由工程师设计的六阶滤波器模型。b)由 RINN 设计的六阶滤波器模型。c)a 的回波损耗曲线(S11)和插入损耗曲线(S21),以及 b 的回波损耗曲线(S11)和插入损耗曲线(S21)。d)由工程师设计的六贴片天线模型。e)由 RINN 设计的六贴片天线模型。f)a 和 b 的 7.35 GHz 增益曲线。

理论清华大学硬件强化学习
3
相关数据
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习曲线技术

在机器学习领域,学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~