中国科学院半导体研究所

面向高能效人工智能计算的可重构芯片技术专刊

以深度神经网络(DNN)为代表的人工智能(AI)处理大多都是计算密集型和存储密集型的计算任务。然而,传统CPU计算平台在处理这类工作任务时正面临越来越多的困难。可重构计算(RC)可以在硬件中执行计算以提高处理能力,同时还可以保留软件解决方案中的大部分灵活性。基于可重构计算模型和原理的集成电路芯片设计已经成为满足人工智能应用中计算的加速性能、吞吐量目标以及功耗、能效要求的有效手段。

我们衷心希望本专刊能为该领域的研究提供有价值的参考和研究视角,激励更多的研究者探索这一新兴领域。

欢迎阅读!引用!

.Semicond.Volume41,Number2,February2020

1.动态可重构计算的体系结构、挑战与应用

图1.时域与空域结合的计算架构

动态可重构计算技术虽然尚不成熟,但其已经在许多计算密集和数据密集的应用中体现出了兼具高能效和灵活性的明显优势。相信随着技术的不断成熟,动态可重构计算必将得到更广泛地应用,并在主流计算架构中发挥重要作用。

Architecture,challengesandapplicationsofdynamicreconfigurablecomputing

YananLu,LeiboLiu,JianfengZhu,ShouyiYin,ShaojunWei

J.Semicond.2020,41(2):021401

doi:10.1088/1674-4926/41/2/021401

2.AI时代的FPGA芯片设计调查

自2012年AlexNet赢得ImageNet比赛以来,人工智能,更具体地说是DNN(DeepNeuralNetwork),在计算机视觉、语音识别、语言翻译、计算机游戏等领域取得了许多突破。许多高科技公司,如亚马逊、百度、Facebook、谷歌等,都声称自己是“人工智能公司”。我们可以相信未来是一个人工智能时代。

复旦大学微电子学院集成电路与系统国家重点实验室来金梅教授等调查了一系列用于人工智能的FPGA芯片设计。但CNN加速器的性能受FPGA的计算和存储资源的限制。虽然在目前的FPGA上可以运用各种提桥来提高推理加速器的性能,但最直接最有效的方法是重新设计FPGA芯片。为了满足不断发展的DNN需求,学术界和FPGA厂商对FPGA芯片的模块或体系结构进行了大量的更新和重新设计。

对于DSP模块,一种设计是支持低精度运算,如9位或4位乘法。DSP的另一种设计是支持浮点乘法累加(MACs),保证了DNN的高精度需求。对于ALM(AdaptiveLogicModule)模块,一种设计是支持低精度MAC,ALM的三个修改包括额外的进位链、增加片上MAC操作密度的4位加法器和影子乘法器。ALM或CLB(可配置逻辑块)的另一个设计是支持BNN(二值化神经网络),BNN是DNN的超低精度版本。对于能够存储DNN的权值和激活的存储模块,FPGA厂商提出了三种类型的存储器:嵌入式存储器、封装内的高带宽存储器(HBM)和片外存储器接口(DDR4/5)。

其他的设计改进包括新的架构和专门的人工智能引擎。Xilinx7nm的ACAP是第一个自适应计算加速平台,见图1(a)。它的人工智能引擎可以提供高达8倍的计算密度。2019年6月18日,Xilinx宣布,已供货ACAP平台的VersalAICore系列和VersalPrime系列芯片。在2019年8月29日,英特尔已经开始出货首款10nmAgilexFPGAs,见图1(b)。10nm的IntelAgileX与Intel自己的CPU协同工作,提高了计算性能,减少延迟,提高了从边缘设备到网络到云端设备的数据处理能力。

图1:Xilinx和Intel公司最新的FPGA架构

随着人工智能的不断发展,学术界和FPGA厂商将不断地更新FPGA的模块和架构,提高FPGA计算、存储和通信的性能,以满足AI不断变化的新要求。

AsurveyofFPGAdesignforAIera

ZhengjieLi,YufanZhang,JianWang,JinmeiLai

J.Semicond.2020,41(2):021402

doi:10.1088/1674-4926/41/2/021402

3.软件发展环境下神经网络加速器的调研

近年来,随着人工智能应用的爆发增长,神经网络算法作为其中的核心算法,已经广泛部署在云端服务器与终端设备。神经网络加速器已经成为学术界、工业界的研究热点。而神经网络的模型结构与算法的多样化发展,以及神经网络加速器硬件架构的各异性,对神经网络的软件编程也提出了一系列的挑战。

中国科学院计算技术研究所支天博士等从神经网络算法的发展与演变开始,介绍了一些经典的网络模型结构;从协同算法设计硬件,引出神经网络加速器的硬件架构设计,包括有使用低位宽计算、稀疏、压缩、流水线结构等;之后又介绍了神经网络的软件编程系统,从领域特定语言到神经网络框架,以及软件栈的编译优化方面做了回顾。最后阐述了未来神经网络加速器的发展趋势,需要软硬件的协同配合,共同迭代前进。

图1.神经网络编程系统的层次示意图

Asurveyofneuralnetworkacceleratorwithsoftwaredevelopmentenvironments

JinSong,XuemengWang,ZhipengZhao,WeiLi,TianZhi

J.Semicond.2020,41(2):021403

doi:10.1088/1674-4926/41/2/021403

4.面向混合型紧凑神经网络的粗粒度数据流重构技术及处理器实现

现主流神经网络处理器架构主要针对卷积神经网络进行运算加速,其在数据流处理过程中运用细粒度数据复用技术降低数据存取功耗,该类技术如权重稳定(weightstationary),输出稳定(outputstationary)等。然而,随着人工智能应用的发展,近年来神经网络结构快速演进,出现了一系列重要的基本算子,例如紧凑型卷积网络中的点卷积(point-wiseconvolution)和深度卷积(depth-wiseconvolution)、残差(shortcut)、长短期记忆层(LSTM)、深度强化学习网络中的状态动作层(state-action)等。多样化网络算子为加速器体系结构设计提出了更高的要求,而传统的细粒度数据复用技术本身并未考虑多样化算子在数据流动性方面的差异。

人工神经网络不同基本算子从数据流动特性上均具备各自特有机制,可重构架构根据各层算子计算特性动态重构数据流动方案、计算节点功能与存储功能。通过对神经网络中各基本算子的定性分析,并展示于表1中。不同算子在数据流,运算,存储,激活函数等方面均有较大差别。

表1神经网络中基本算子数据、计算、存储特性

图1所示处理器在卷积、池化、全连接、残差、记忆网络、强化学习网络层间进行功能动态改变的实例图。本设计通过指令集复用同一组硬件模块,实现不同核心算子的功能,达到降低额外面积开销,提高资源利用率的目标。

图1粗粒度神经网络数据流重构方案

图265nm数字可重构人工智能处理器架构,电路实现与物理指标

基于该流片芯片的设计思路,团队将可重构处理器在XilinxKintex-7FPGA模组上进行部署,其支持256个计算节点部署,达到60MHz主频,可动态重构传统卷积、点卷积、深度卷积、池化、LSTM、状态动作、全连接等网络层。为下一步大规模架构的ASIC设计与流片打下坚实基础。

现有智能处理器功耗在100mW到10W区域,其在对能量要求苛刻的场景中使用受限。而MCU等低功耗处理器在解决人工智能运算中无法达到所需的计算能力。本文所设计处理器通过粗粒度资源复用技术,实现7.51mW的低功耗智能处理器,其达到426GOPS/W的能效比,并具备较强的端到端神经网络编程能力。低功耗智能芯片可以广泛应用于物联网、可穿戴、海洋、航空等领域的智能应用,具备广泛的应用前景。

团队在后续研究中着力挖掘神经网络应用中数据特征,进行数据特征驱动的处理器设计方法,从而从源头上降低所需计算量,以便进一步提高能效比。在智能芯片设计方法方面,团队着力探索计算与存储的配合方案,大幅度利用DRAM有效带宽,引入智能化数据缓冲机制,实现计算与存储的高度协同化。

Acceleratinghybridandcompactneuralnetworkstargetingperceptionandcontroldomainswithcoarse-graineddataflowreconfiguration

ZhengWang,LibingZhou,WentingXie,WeiguangChen,JinyuanSu,WenxuanChen,AnhuaDu,ShanliaoLi,MinglanLiang,YuejinLin,WeiZhao,YanzeWu,TianfuSun,WenqiFang,ZhibinYu

J.Semicond.2020,41(2):022401

doi:10.1088/1674-4926/41/2/022401

5.基于H树的可重构同质PE阵列重构机制

为了适应特定应用中各种算法对不同性能和能效的需求,可重构体系结构已成为学术界和工业界的一种有效方法。但是,由于配置信息更新缓慢和灵活性不足,现有的体系结构存在性能瓶颈。

西安科技大学通信与信息工程学院蒋林教授等提出了一种基于H树的重构机制(HRM),其在PE阵列中采用类霍夫曼编码和掩码的寻址方法,寻找目的PE并完成配置信息的下发。提出的HRM可以在一个时钟周期内以单播,组播和广播模式将配置信息传输到特定的PE,并根据当前配置关闭不必要的PE。该配置网络可实现配置信息实时下发,完成阵列快速重构,对可重构芯片的发展具有一定的参考意义。

图1

HRM:H-treebasedreconfigurationmechanisminreconfigurablehomogeneousPEarray

JunyongDeng,LinJiang,YunZhu,XiaoyanXie,XinchuangLiu,FeilongHe,ShuangSong,L.K.John

J.Semicond.2020,41(2):022402

doi:10.1088/1674-4926/41/2/022402

6.基于FPGA的批处理级并行性实现高效的深度神经网络训练

近年来,深度神经网络(DNN)在图像分类,对象检测和语义分割等多种苛刻应用中取得了令人瞩目的成就。但是,在片上资源有限的嵌入式系统当中,实现深度神经网络应用尤其需要开发实时和低功耗硬件加速器。为此,因此各种硬件设备(包括FPGA和ASIC)被用于实现嵌入式深度神经网络应用。其中FPGA由于其具高可重构性,出色的能源效率和低延迟处理能力,使得其在加速快速发展的深层神经网络硬件加速中受到越来越多的欢迎。

但是,目前大多数FPGA硬件加速器是被应用在加速深度神经网络的推理,他们采用低精度神经网络模型来加速推理过程,而这些模型则是用高精度浮点数格式训练在GPU或CPU上。这样一来,由于深度神经网络使用不同的精度格式进行训练和推理,由此带来的精度损失需要进一步的微调才能弥补。这样分离的训练/推理过程使现有的FPGA加速器难以被广泛运用在同时需要训练/推理的应用中,例如,需要在线学习或持续学习的系统。

为了解决这些问题,复旦大学专用集成电路与系统国家重点实验室罗成博士等通过引入面向批处理的数据模式(我们称为通道高度-宽度-批处理(CHWB)模式),为深度神经网络训练提出了一种新颖的FPGA架构。CHWB模式在相邻的存储器地址处分配不同批次的训练样本,这使并行数据传输和处理可以在一个周期内完成。我们的架构可以在单个FPGA中支持整个训练过程,并通过批处理级并行性对其进行加速。

总而言之,本文探索了使用CPU,GPU和FPGA平台进行低精度培训的利弊。开发了一种新颖的FPGA框架,以在具有8位整数的低精度格式的单个FPGA上支持DNN训练。目标是确定在速度和功耗方面,低精度培训中是否可以利用FPGA提供的细粒度可定制性和灵活性来胜过尖端GPU。

TowardsefficientdeepneuralnetworktrainingbyFPGA-basedbatch-levelparallelism

ChengLuo,Man-KitSit,HongxiangFan,ShuanglongLiu,WayneLuk,CeGuo

J.Semicond.2020,41(2):022403

doi:10.1088/1674-4926/41/2/022403

7.面向深层神经网络的高性能低比特宽训练

深度卷积神经网络(DCNN)被公认为传统计算机视觉(CV)任务(尤其是图像分类)的成功解决方案。但是,这种令人满意的性能通常是以消耗大量计算资源为代价的,这主要是由于昂贵的浮点运算。尽管已经有大量工作致力于面向推理阶段的高效能低位宽CNN加速器,但很少有将CNN训练也纳入硬件加速器的研究,而这却是必要的,因为预训练的参数并不总是可获得的。

在这项工作中,香港科技大学电子与计算机工程系张薇副教授等首先实现了一个完全量化的CNN框架,该框架可以在有限的位宽下执行训练和推理。本文提到,即使使用8位动态定点数(DFP)数据格式,也可以保留CNN浮点数模型的高性能。文中进一步通过HLS实现了一个简单的FPGA原型。结果表明,该设计有助于显著减少硬件资源的使用。

可以预见,在不久的将来,深度学习技术将在许多方面改变我们的日常生活。为了促进其普及,将需要大量的嵌入式系统解决方案,因为它们具有高能效并且可以部署在边缘设备上。我们期望这项工作可以为在这种物联网设备中部署CNN奠定基础。

Towardshighperformancelowbitwidthtrainingfordeepneuralnetworks

ChunyouSu,ShengZhou,LiangFeng,WeiZhang

J.Semicond.2020,41(2):022404

doi:10.1088/1674-4926/41/2/022404

AroutingalgorithmforFPGAswithtime-multiplexedinterconnects

RuiqiLuo,XiaoleiChen,YajunHa

J.Semicond.2020,41(2):022405

doi:10.1088/1674-4926/41/2/022405

9.动态电压和频率标度CNN目标检测的能效优化

上海科技大学信息科学与技术学院哈亚军教授等优化了基于FPGA平台实现目标探测的能效。图片最上方是一台无人机,下方是一个自动驾驶场景。这两个应用场景都会用到目标探测技术,同时对计算平台的能效有较高要求。

一方面,在FPGA上加速卷积神经网络(CNN)要求在边缘计算场景中不断提高能效。另一方面,与其他常见的数字算法不同,CNN即使在有限的定时误差下也能保持其高鲁棒性。通过利用这一独特功能,我们提出使用动态电压和频率调整(DVFS)进一步优化CNN的能效。首先,我们在FPGA上开发了DVFS框架。其次,我们将DVFS应用于SkyNet,这是一个针对对象检测的先进神经网络。第三,我们从性能,功率,能效和准确性方面分析了DVFS对CNN的影响。与最新技术相比,实验结果表明,我们的能效提高了38%,而准确性没有任何损失。结果还表明,如果允许精度降低0.11%,我们的能效可提高47%。我们的工作将为近似计算和能源优化等方向提供思路。

OptimizingenergyefficiencyofCNN-basedobjectdetectionwithdynamicvoltageandfrequencyscaling

WeixiongJiang,HengYu,JialeZhang,JiaxuanWu,ShaoboLuo,YajunHa

J.Semicond.2020,41(2):022406

doi:10.1088/1674-4926/41/2/022406

北京市海淀区清华东路甲35号(林大北路中段)北京912信箱(100083)

THE END
1.神经网络算法BP 神经网络算法在理论上可以逼近任意函数,基本的结构由非线性变化单元组成,具有很强的非线性映射能力。而且网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定,灵活性很大,在优化、信号处理与模式识别、智能控制、故障诊断等许 多领域都有着广泛的应用前景。工作原理 人工神经元的研究起https://baike.baidu.com/item/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E7%AE%97%E6%B3%95/1252235
2.人工神经网络是什么,其应用有哪些?人工神经网络应用人工神经网络是什么,其应用有哪些? 当你阅读这篇文章时,你身体的哪个器官正在考虑它?当然是大脑!但是你知道大脑是如何工作的吗?嗯,它有神经元或神经细胞,它们是大脑和神经系统的主要单位。这些神经元接收来自外部世界的感觉输入,它们对其进行处理,然后提供输出,这些输出可能充当下一个神经元的输入。 https://blog.csdn.net/2401_85782938/article/details/140009671
3.深度学习:从人工神经网络的基础原理到循环神经网络的先进技术本文将深入探讨深度学习中的三种主要神经网络架构:基础人工神经网络(ANN)、卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN)。我们将通过大量的Python代码示例,展示如何构建和训练这些模型,并应用于不同的任务,包括图像分类、文本生成和时间序列预测。https://cloud.tencent.com/developer/article/2471196
4.人工智能与深度学习科研项目:卷积神经网络算法及其在NLP等人工智能领域项目将首先回顾包含分类与回归的传统机器学习算法及初步神经网络,而后教授将会介绍用于优化神经网络的数学原理及代码技术。在确保学生具备扎实的理论及编程基础后,项目将进入到关于卷积神经网络原理、架构、优化及应用的核心阶段,学生将根据自身兴趣选择个性化研究课题进行深入研究,在项目结束时提交项目报告,进行成果展示。 https://www.eol.cn/waiyu/news/2022122099527.html
5.粒子群改进算法及在混合神经网络中的应用研究粒子群改进算法及在混合神经网络中的应用研究,粒子群,混合算法,模拟退火,人工神经网络,混沌自适应,外贸出口,随着学科间的相互交叉、相互渗透和相互促进,研究者开始将各类智能优化算法应用于人工神经网络(ANN)训练。其中,粒子群优化(PShttps://wap.cnki.net/lunwen-1014264041.html
6.基于人工鱼群BP神经网络算法的压力传感器温度补偿研究AET摘要:为实现压力传感器的温度补偿,采用BP神经网络作为压力传感器软件补偿系统的核心算法,但由于BP神经网络算法易陷入局部极值,因此采用具有全局搜索能力的算法—人工鱼群算法(AFSA)进行优化,得到的结果是压力传感器的线性度提升1个数量级,温度灵敏度系数降低2个数量级,得到了很好的补偿效果。 http://www.chinaaet.com/article/3000019793
7.进化算法在人工神经网络中的应用研究会议进化算法在人工神经网络中的应用研究 万琼姚望舒王金根陈世福谢俊元 南京大学计算机软件新技术国家重点实验室 210093 引用 收藏 分享 打印 摘要:本文综述了进化算法与人工神经络结合技术现状的研究,主要包括优化网络设计、输入数据预处理、网络集成等方面内容,并对研究过程中出现的主要问题及未来发展趋势进行了讨论。https://d.wanfangdata.com.cn/Conference/6737541
8.人工神经网络:模型算法及应用PPT课件(全)(406页)人工神经网络:模型、算法及应用-PPT课件(全).pptx,人工神经网络: 模型、算法及应用;2;3;4;1.1 人工神经网络的概念 ;6;1.2 人工神经网络的发展 ;8;1.3 人脑;1.3 人脑;11;1.4 Hebb法则;13;1.5 神经元模型;15;1.6 神经网络的拓扑结构;1.6 神经网络的拓扑结构;18;1.7 知识表https://m.book118.com/html/2022/1222/6140135132005031.shtm
9.大数据在审计中的应用——基于人工神经网络的财务报告舞弊识别因此本文旨在利用大数据技术与人工神经网络算法捕获与目标企业舞弊相关的财务信息和非财务信息,梳理基于数据挖掘的舞弊识别框架,为资本市场注入信心。 1.2 研究意义 大数据在财务领域较多地应用于财务共享服务中心的构建、风险预警、管理决策等方面,并取得了较为丰富的研究成果,但是大数据在财务报告舞弊识别方面的应用研究还处https://www.fx361.com/page/2021/0624/11343477.shtml
10.人工智能心得体会(精选13篇)由于网络技术特别是国际互连网的技术发展,人工智能开始由单个智能主体研究转向基于网络环境下的分布式人工智能研究。不仅研究基于同一目标的分布式问题求解,而且研究多个智能主体的多目标问题求解,将人工智能更面向实用。另外,由于hopfield多层神经网络模型的提出,使人工神经网络研究与应用出现了欣欣向荣的景象。人工智能已深入到https://www.oh100.com/a/202212/5696010.html
11.现代工学院郝玉峰课题组:利用人工神经网络算法识别和表征原子级厚度材料现代工学院郝玉峰教授课题组近期将人工神经网络算法与二维材料研究相结合,实现了仅通过光学显微镜照片即可对二维材料的类型、层数、异质结构、缺陷浓度进行快速识别和表征,为二维材料提供了一种高效、无损的检测分析技术。 二维材料是一类仅有原子级厚度的新型薄膜材料。目前二维材料成员已多达几百种,并且各种二维材料会组合https://www.nju.edu.cn/info/3201/116731.htm
12.人工智能论文人工智能;电气工程;自动化控制;应用 当前是一个科学技术时代,电气工程发展要与时俱进,跟上时代前进的脚步。电气工程行业要想有效实现电气自动化控制和管理,就必须充分发挥出人工智能技术的作用。人工智能的研究范围不仅涵盖了图像语言识别和自动化控制,还包括了专家系统和人工神经网络等内容。因此,电力企业必须通过合理利https://www.ruiwen.com/lunwen/6395408.html
13.JeffDean撰文:谷歌AI2018研究成果汇总我们也探讨了强化学习如何应用于神经网络架构搜索之外的其他问题,我们的研究证明它可用于1)自动生成图像变换序列,以提高各种图像模型的准确性。 以及寻找新的符号优化表达式,比常用的优化更新规则更有效。我们在AdaNet上的工作展示了如何得到具有学习能力的快速灵活的AutoML算法。 https://36kr.com/p/1723150434305
14.2022年度陕西省重点研发计划项目申报指南目录2.1 超大规模复数稠密矩阵方程直接求解算法库 2.2 超大规模复数稀疏矩阵方程直接求解算法库 2.3 工业仿真软件架构关键技术 2.4 三维几何建模技术研究 2.5 面网格生成技术 2.6 体网格生成技术 2.7 高性能三维图形渲染技术 2.8 航空大规模并行 CFD 计算技术及应用示范 http://www.kt180.com/html/sxs/9889.html
15.人工智能学习心得(通用28篇)在大多数数学科中存在着几个不同的研究领域,每个领域都有着特有的感兴趣的研究课题、研究技术和术语。在人工智能中,这样的领域包括自然语言处理、自动定理证明、自动程序设计、智能检索、智能调度、机器学习、专家系统、机器人学、智能控制、模式识别、视觉系统、神经网络、agent、计算智能、问题求解、人工生命、人工智能https://www.yjbys.com/xindetihui/fanwen/3342600.html
16.第三代神经网络模型:面向AI应用的脉冲神经网络澎湃号·湃客在这篇文章中,我想从四个方向对生物启发SNN设计的一些实例和思想进行介绍,包括神经元模型、编码方式、学习算法、网络结构,最后总结并展望类脑启发对于面向AI应用的SNN研究的意义。 1. 神经元模型 为了模拟生物神经元的活动模式,计算神经科学提出了一系列脉冲神经元模型。与使用激活函数的人工神经元相比,脉冲神经元普遍https://www.thepaper.cn/newsDetail_forward_27289221