物联网与人工智能结合的发展趋势,对神经网络加速芯片的能效有了更高的要求。由于剪枝和RELU等操作,神经网络的权重和激活矩阵中存在广泛的稀疏性分布,且不同网络和同一网络不同层的稀疏度各不相同,其稀疏度分布范围高达4-90%。由于不同稀疏度矩阵运算对于计算和存储电路要求各不相同,提出一种统一架构同时高效处理各种稀疏度的人工神经网络矩阵,是人工智能芯片设计领域的一大难题。
由清华大学电子工程系刘勇攀教授团队提出的Sticker系列人工智能处理器系统性探索了在芯片架构层次利用网络稀疏性和低位宽表示以提升芯片推理能效的可能性。团队遵循“非规则化稀疏-规则化稀疏-稀疏量化协同”的技术路线,自2018年相继发布了Sticker-I、Sticker-T等芯片,在芯片推理和片上训练操作的能效上实现了极大突破。
其中,Sticker-I神经网络加速器芯片针对神经网络中稀疏度分布范围广(4%-90%)、不同稀疏度矩阵运算对计算和存储电路要求不同的问题,用统一的芯片架构高效支持了不同稀疏度的神经网络运算。该工作通过动态配置人工智能芯片的运算和存储电路,实现了对不同稀疏度神经网络的自适应处理,大幅提升了人工智能加速芯片的能量效率,是首款全面支持不同稀疏程度网络,且同时支持片上网络参数微调的神经网络加速芯片。Sticker-I芯片在65nm工艺下,取得62.1TOPS/W的峰值核心操作计算能效,并发表在2018年国际超大规模集成电路峰会(Symposia of VLSI Technology and Circuits)。
Sticker-T 的通用架构可以同时高效支持包括 CNN,RNN 和 FC 在内的主流网络结构,满足了不同应用场景的需求,入选了2019年初在美国旧金山举办的ISSCC 2019大会,是中国大陆首篇发表的人工智能芯片ISSCC论文。进一步,该团队针对具有规则化稀疏特点的神经网络,利用算法-架构-电路的联合优化,提出了基于组循环变换域的通用神经网络计算芯片STICKER-T。通过设计高效FFT处理器架构、高数据复用计算阵列架构和高性能存储电路技术,Sticker-T在能效和面积两个方面都有着显著的提升。该芯片可以同时高效支持包括 CNN,RNN 和 FC 在内的主流网络结构,峰值能效 140TOPS/W 为之前工作的 2.7 倍,而 7.5mm^2 的面积仅为前者的 60%,满足了不同应用场景的需求。该工作入选了年初在美国旧金山举办的ISSCC 2019大会,也是中国大陆首篇发表的人工智能芯片ISSCC论文。
与此同时,在ISSCC 2019 Student Research Preview会场上,该团队的袁哲博士代表团队展示了在稀疏神经网络加速领域的最新成果Sticker-II芯片。该芯片首次将自适应稀疏和量化进行有机结合的人工智能芯片。受益于神经网络稀疏性与低比特量化技术的结合,该芯片相比于上一代STICKER-I芯片实现了更高的能量效率。
Sticker系列人工智能芯片基于算法-架构-电路的联合创新,对神经网络中的非规则化稀疏性、规则化稀疏性和低位宽表示提供了高效支持,其相关成果发表在ISSCC/VLSI/JSSC上,受到了学术界和产业界的广泛关注。在7月29日-7月31日于瑞士洛桑举行的ISLPED’19(ACM/IEEE International Symposium on Low Power Electronics and Design, ISLPED 2019)低功耗电子与设计国际研讨会上,Sticker系列人工智能芯片获得了技术委员会的高度认可,并荣获设计竞赛第一名。 Sticker系列人工智能芯片从计算MAC、运算单元以及阵列化三个维度全方位提高芯片的计算能效和灵活性,该芯片的应用市场极其广阔,覆盖了智慧工业、智慧城市、智能制造等领域。基于其科研成果成立的人工智能公司湃方科技全力打造了以人工智能芯片和工业智能算法为核心技术,以赋能我国产业智能化升级为愿景,以为客户提供跨品类、全栈式设备智能管理解决方案为使命的企业战略布局,致力于成为业界领先的设备智能化管理服务提供商,加速人工智能相关技术在各个社会领域的应用,持续打造中国制造“智能+”。