来源:本文由 公众号 半导体行业观察(ID:icbank)翻译自「Semiconductor Engineering」,谢谢。
新的数据流、更高的交换机密度和IP整合会在整个设计流程中造成问题。
云数据中心改变了网络拓扑结构以及数据在大型数据中心内的移动方式,促使用于路由数据的芯片架构发生重大变化,并带来了一系列全新的设计挑战。
云计算已经成为数据中心市场中增长最快的部分。事实上,根据思科全球云指数预测,未来几年内,云计算将增长三倍,到2021年,云计算将占到所有数据中心流量的95%。这种增长的一个关键部分是虚拟化,它允许动态分配计算实例和工作负载,以跟上云服务的动态特性。
从另一个角度来看,现在超过75%的流量在数据中心中东西向逐个服务器地流动。这引发了第一组问题,因为传统的三层网络拓扑结构是针对南北客户端—服务器流量进行优化的,因此无法有效处理这类数据流。
为了解决数据流转移问题,并最大限度地减少延迟和瓶颈,云数据中心正在转向叶脊(leaf-spine)拓扑,其中每个叶服务器可以通过脊进行单跳(single hop),访问其他叶服务器。
来源:Cadence Design Systems
Cadence Design Systems接口IP高级产品营销经理Muthukumar Vairavan表示:“在叶脊拓扑结构中,每片叶都要连接到每个脊开关。因此,可以支持的主机数量以及网络带宽扩展现在变成了交换机设备端口数量和每个端口带宽的函数。交换机的带宽主要取决于交换机ASIC和可安装在单个机架单元中的光学模组数量。”
目前,最先进的交换机ASIC拥有多达256条PAM-4 SerDes信道,每条信道的运行速度为56Gbps,总带宽为12.8Tbps。Vairavan表示:“总的来说,这种交换机最多可以支持32个端口400GbE(8条线路,每条56Gbps)。但是,随着超大规模数据中心对带宽的需求不断增加,交换机厂商希望将芯片带宽提高一倍,达到25.6Tbps。传统上,这是通过将SerDes信道速度加倍来实现的,而光学网际互联论坛(OIF)正致力于定义112Gbps SerDes规范,以实现这一目标。”
在这样的速度下所面临的挑战是,信道损耗非常高,而且SerDes需要很多均衡。采用先进的DSP技术对信号进行恢复,这可能导致显着的功耗。Vairavan建议,为了解决这个问题,平台设计需要转向更好的PCB材料,使用有源电缆和重定时器,以保持在这样的速度下信道损耗可控。“另一项新兴技术是板载光学(OBO),光学芯片靠近电路板上的交换机ASIC放置,因此减少了电子信道。 通过将光学元件从面板移走,OBO还可以提供更好的密度和冷却效果。OIF指定了许多类别的SerDes规范,如Long-Reach,Medium-Reach,Short-Reach等,以便对特定的交换机配置进行正确的SerDes性能/功率权衡。”
虽然构建其中一个芯片需要许多IP,但有四个项目通常会引发讨论——SerDes、HBM PHY、网络级片上存储器,以及TCAM(内容可寻址存储器)。
eSilicon公司营销副总裁Mike Gianfagna表示:“SerDes需要实现高速片外通信。HBM PHY需要将2.5D封装的HBM堆栈内存连接到ASIC上。网络级片上存储器就像双端口和伪双端口存储器一样,针对极高速度进行了优化,TCAM用于实现高效的网络数据包路由。”
Gianfagna指出,IP问题还有另外两个方面。“首先,经过芯片验证的高质量IP非常重要,但还不够。还必须验证IP可以协同工作。诸如可测试性策略、操作点和金属叠层之类的东西——这种兼容性大大降低了整合风险。其次,IP必须在考虑最终应用的情况下进行配置。 其中包括编译内存和TCAM等内容,以支持SerDes的不同配置要求和可编程性能。”
位置,位置,位置
然而,没有一种方法可以适用于所有情况。一个系统公司想要从它的IP供应商那里得到什么芯片取决于芯片的设计应用。
Synopsys公司高速SerDes产品营销经理Manmeet Walia表示:“有多种方法看待这个问题。首先,你要在更广泛的层面上认清楚你所服务的市场是什么,无论是企业、校园、数据中心(现在被称为超大规模数据中心),还是电信基础设施。如果把它们按规模排列,那么企业要排在第一位,它们是较小的数据中心。然后是云提供商——谷歌、facebook、亚马逊——这就是所谓的超大规模数据中心。最后是服务提供商,如ATT等。根据你所服务的对象,三种规模的需求各不相同。”
第二个因素涉及到这些公司所需要的具体功能。Walia表示:“无论是CPU芯片组、GPU、加速器、适配器卡、交换机、存储阵列还是安全系统,根据它们的功能,又会出现不同的要求。第三,从PHY的角度来看,它们在系统中的位置很重要,无论是在刀片服务器卡内,还是在中间卡上,或是在交换机架的顶部。所以它们的位置决定了它们的需求。市场整体上非常分散,因为它变得越来越复杂。”
Walia说,除此之外,还有一群开发人员在谈论芯片,因为它们被逼到了芯片裸片尺寸或光罩的边缘。“他们现在想要进入chiplets,我们正在从那些想要做所谓的USR(超短距离)SerDes的客户那里获得需求。这是另一个需要解决的市场。”
今天,大多数网络设计活动都在云端,其中大部分都是由AI和机器学习应用驱动的。Walia表示:“有趣的是,所有网络公司现在都在尝试遵循垂直整合模式,他们甚至在尝试自己制作芯片组。无论是中国的阿里巴巴、腾讯、百度,还是美国的Facebook、谷歌,都在尝试自己的AI芯片组。他们不想使用商业芯片。因此,至少从IP的角度来看,我们的业务指标不是芯片量。更多的是从设计开始的,当然,我们在此处看到了云计算驱动了我们大部分IP业务。”
西门子Mentor事业部IP部门总经理Farzad Zarrinfar对此表示赞同:“基本的处理器并没有达到要求,所以我们看到主要的OEM、搜索领导者、游戏领导者和通信领导者都在开发他们自己的ASIC。显然,这些ASIC很多取决于应用。如果它是数据中心应用,或是某种汽车应用,亦或物联网应用,我们就会看到很多构建模块。例如,如果你观察一个三层千兆交换机,那么你就会发现1千兆位和10千兆位MAC(媒体访问控制器)。有些人在芯片内部加入了ASIC、收发器、SerDes和PHY,以进一步提高整合度,并最大限度地降低成本。有些人希望基于自己的架构来保持它。他们使PHY和SerDes具有更大的几何形状,并且在芯片外使用它们,他们将更大的几何结构用于SerDes。然后,在纯数字部分,他们将工艺推进到10nm和7nm,甚至可以降至5nm finFET技术。”
Walia说,这种模式在过去几年中迅速出现。最初,这些公司开发低端应用,比如摄像头,但现在他们正在转向高端数据中心,并完成越来越多的工作。
对于AI / ML应用而言,芯片主要是许多带有ARM 64位处理器的SerDes。Walia表示:“这是一组ARM高端处理器,周围是SerDes。它们通过SerDes使这些核心能够以非常快的速度互相通信,然后这些SerDes也以盒子对盒子的方式与其他类似的设备通信。从本质上讲,它是一个输入和一个输出,但它们之间发生的是一个指令集,允许它们在一段时间内通过可重复性,以及读取人类行为或其他数据来接受训练,所以它允许自我编程,允许在一段时间内学习,这就是它们需要强大处理能力的原因。”
网络设计的另一个方面涉及密度要求。Walia表示:“如今,这些都转化为整合的挑战。整合变得越来越重要,我们一直在与想要整合多达300条SerDes信道(某些情况下甚至达到500条)的客户进行交流,这要求我们作为IP供应商为他们提供很多服务,以便他们可以整合这些SerDes。这个区域需要非常小,即前端需要非常窄,以便沿着PHY的边缘放置越来越多的SerDes。另外,我们现在需要在两个方向上都有PHY,以便设计团队能够最舒服地将它们放入芯片的所有四个侧面。这是因为在28nm以下,台积电不允许我们翻转多边形方向。但这意味着我们必须有两个不同的设计和两个不同的布局,以便他们可以有效地将这些SerDes放在四个侧面。除此之外,我们还必须允许它们在内部有多个层次——基本上要在IP内部包含两级、三级深度的SerDes。”
与此同时,Walia指出,OEM正在越来越多地采用封装凸点技术(packaging bump technology),而不是采用标准的C4凸点(C4 bumps)。“很可能他们正在使用插入式方法(interposer-type),所以他们需要更宽,并且凸点可能需要有牺牲pad或微凸点技术(microbump technology)。从本质上讲,需要大量的凸点定制以及许多后端服务。你如何把所有这些东西放在一起?如何把所有这些信号带到封装基板上?如何把它们放入SoC?如何以1GB /秒或类似的速度进行时序收敛?所有这些都是巨大的挑战,所以当我们提供这些IP时,我们必须提供很多关于如何使用它们的指导。过去我们认为,IP非常难以设计,但易于整合。但现在不是这样了。它们不但很难设计,而且更加难以整合。”
管理IP
如今设计的许多高级网络芯片组和ASIC都以数据中心为目标,其中功耗、性能和面积都是关键因素。它也是芯片制造商最赚钱的领域之一。
ClioSoft公司营销副总裁Ranjit Adhikary表示:“这就是云计算领域正在发生的一切。每个人都想把东西放在云端,云端市场正在增长。鉴于此,每个数据中心公司都希望降低成本,因此功耗和可靠性成为非常重要的组成部分。当你讨论下一代网络交换机、定义一个平台时,你需要确保I/O带宽和内存子系统都能够提供所需的性能。因此,你基本要确保所有IP都可以即插即用。你需要确保它们都有相同的金属叠层、可靠性要求、工作范围、控制接口——甚至相同的DFT方法。当你现在谈论这些事情的时候,IP管理平台就变成了一个重要组成部分,因为到头来你总是希望可以获得你想要的IP。你想知道参数是什么,于是下载它,查看它,从而无需经过一个漫长的周期来确定IP是否有效,或者到处寻找支持数据在哪里。
找到各种IP区块并确定它们是否在其他地方被使用至关重要。Adhikary表示:“许多公司将为不同的代工厂提供不同的PDK,设计团队需要知道IP是否经过代工厂验证,或者同一公司的其他客户是否正在使用它。你想知道IP的可靠性。例如,它投入生产了吗?有什么问题吗?最终,问题归结为文档记录的功耗、性能和面积有多好。我们在大多数公司中发现,信息并不全都集中在一个地方,因此把IP管理系统与文档控制系统联系起来变得很重要,这样每个人都能保持同步,而这仅仅是个开始。”
展望未来
随着云服务提供商把25.6Tbps交换机迁移到51.2Tbps,传统的扩展技术似乎不太可能满足需求。
Walia表示:“交换机ASIC是在先进技术节点上实现的,以利用增加的密度和更低的功率,但正在触到光罩和产量的极限。一种迅速普及的选择是芯片分解,大型芯片被分解为可管理的芯片尺寸,然后使用高速、低功耗的封装内互连技术整合到多芯片模组(MCM)封装内。另一种选择是将逻辑芯片和SerDes分开,并将它们放在MCM中。通过转向封装内光学,可以获得51.2Tbps所需的更大的光学密度,所谓封装内光学是将光学芯片与MCM中的开关ASIC芯片整合到一起,以实现异构系统级封装(SiP)。然后可以将光纤连到面板或尾纤上。”
交换机ASIC和高速光电互连是云时代数据中心的支柱。为了满足这些数据中心带宽的爆炸性增长,交换机ASIC制造商、光学和互连IP供应商和标准机构需要建立生态系统。未来的解决方案将围绕异构解决方案展开,这些解决方案将为特定的应用和独特的数据流量身定制,以满足新的性能、功耗和可扩展需求。