基于多尺度注意力CNN的SAR遥感目标识别<sup>*</sup>|深层神经网络_在线学习

(1.北京理工大学信息与电子学院雷达技术研究所，北京100081；2.嵌入式实时信息处理技术北京市重点实验室，北京100081)

摘要：目标识别是合成孔径雷达(SyntheticApertureRadar，SAR)图像解译的重要步骤。鉴于卷积神经网络(ConvolutionalNeuralNetwork,CNN)在自然图像分类领域表现优越，基于CNN的SAR图像目标识别方法成为了当前的研究热点。SAR图像目标的散射特征往往存在于多个尺度当中，且存在固有的噪声斑，含有冗余信息，因此，SAR图像目标智能识别成为了一项挑战。针对以上问题，本文提出一种多尺度注意力卷积神经网络，结合多尺度特征提取和注意力机制，设计了基于注意力的多尺度残差特征提取模块，实现了高精度的SAR遥感图像目标识别。该方法在MSTAR数据集10类目标识别任务中的总体准确率达到了99.84%，明显优于其他算法。在测试集加入4种型号变体后，10类目标识别任务中的总体准确率达到了99.28%，验证了该方法在复杂情况下的有效性。

关键词：SAR遥感图像；目标识别；多尺度特征提取；注意力机制；卷积神经网络

合成孔径雷达(SyntheticApertureRadar，SAR)是一种基于多平台的主动式对地观测系统，不受光照和气候条件的制约，具有全天时、全天候、高分辨、大幅宽等多种特点[1-2]。经历60多年的发展，合成孔径雷达成像技术已经逐渐成熟，高分辨SAR图像的数据获取能力得到了显著的提高，为SAR图像的智能化应用奠定了基础。上世纪80年代，林肯实验室提出了SAR自动目标识别(SARATR)系统的一般流程，将其分为了检测、鉴别和识别三个阶段。识别是SARATR的最后一个阶段，SAR图像经过检测与鉴别后，大部分的杂波虚警已被滤除，剩下的主要工作就是对目标切片进行分类识别。本文主要围绕SAR图像目标识别这一环节展开研究，实现对SAR遥感图像的高精度智能化判读。

目标识别往往是在特征空间中进行分类，因此能否提取到图像的有效特征是决定识别结果好坏的关键因素。近年来国内外的学者开展了大量研究，根据其提取特征的方法可分为两大类：1)基于人工特征描述的方法;2)基于深度学习卷积神经网络的方法。

然而SAR图像与光学图像不同，SAR图像上的信息主要是地物目标对雷达波束的后向散射形成的。雷达的工作参数如入射角、工作波长、极化方式等，以及地表的粗糙度等目标特性都会对成像产生影响。目标的散射特征往往存在于多个尺度当中，此外，SAR图像中存在固有的噪声斑，提取到的特征可能含有冗余信息，对SAR图像的目标识别也会产生负面影响。因此，本文提出一种结合多尺度特征提取和注意力机制的卷积神经网络——多尺度注意力卷积神经网络。针对提取不同尺度的目标散射特征的问题，设计了多尺度残差特征提取模块，针对区分关键信息和冗余信息的问题，设计了注意力模块。最后将它们进行组合和有层次的堆叠构成了多尺度注意力卷积神经网络。将所设计网络在MSTAR(MovingandStationaryTargetAcquisitionandRecognition)数据集上，针对10种军事目标型号开展了图像分类实验，并取得了99.84%的总体精度，验证了本文提出方法的性能。进一步，在测试集中加入4种型号的变体进行扩展验证实验，取得了99.28%的总体精度，验证了本文方法在复杂情况下的有效性。

本文所提出的多尺度注意力卷积神经网络模型如图1所示，整体架构基于ResNet34[14]网络，将原始BasicBlock替换为所设计的多尺度注意力模块，进行有层次的堆叠所构成。其中多尺度注意力模块由多尺度残差特征提取模块(包括多尺度特征提取与残差连接shortcut)和注意力模块组成，实现了多尺度特征提取和注意力机制的功能。以下将详细介绍多尺度残差特征提取模块、注意力模块以及网络的详细结构。

图1本文网络总体架构图

由于SAR遥感成像对于同一目标的散射信息会随成像条件的变化而改变，这对SAR图像目标识别带来了很大的挑战，故需要对目标提取不变性散射特征。然而，这些不变性散射特征往往隐藏在多个尺度的散射点分布中：大尺度中存在全局散射特征，小尺度中存在局部散射特征，仅使用单一尺度的特征提取架构难以得到有效特征描述。因此，多尺度特征提取及融合是SAR遥感图像目标识别的关键所在。

对于多尺度特征提取，本模块在ResNet的BasicBlock基础上采用了GoogLeNet[15]中Inception模块的多尺度特征提取思想，多分支的网络拓扑结构可以进行多尺度的特征提取和融合，增加了网络的宽度和对多尺度信息的处理能力。进一步，借鉴VGGNet[16]用连续的小卷积核代替大卷积核的方法，在保持相同感受野的情况下进一步加深网络。

本文提出的多尺度残差特征提取模块有两种：Block-A和Block-B。Block-A如图2(a)所示，采用4个并行分支，分别是卷积核大小为1×1、3×3、5×5、7×7的卷积层，进行不同尺度的特征提取，然后将特征融合。同时加入残差模块的快捷连接(shortcut)，将输入层加到输出层。其中除了第一个分支中的1×1卷积用来进行特征提取，其他的1×1卷积用来降维，以减少参数量；Block-B如图2(b)所示，在上述基础上将5×5卷积核分解为2个串联的3×3卷积核、7×7卷积核分解为3个串联的3×3卷积核，以进一步加深网络。对于多尺度特征融合，考虑采用两种特征融合方式：拼接(concatenate)和对应元素相加(element-wisesummation)，具体使用方式与选用的注意力模块有关，将在下一节补充说明。

(a)Block-A

(b)Block-B图2多尺度残差特征提取模块

(a)压缩(Squeeze)：将多尺度特征融合后大小为的特征图进行压缩，即进行全局平均池化，如式(1)。

(1)

式中，uc表示一个通道上的二维特征图，H、W分别表示长和宽，可看作一个二维矩阵。uc(i,j)表示特征图上(i,j)位置的元素值。每个通道的特征图通过式(1)将二维数据压缩为一个点，以此得到一个和通道数一样的一维向量

(b)激活(Excitation)：使用两个全连接层对Squeeze之后的结果作非线性变换。首先将通道数降低到而后通过激活函数后再经过一个全连接层扩充回到最初的通道。由于通道间关系复杂，一次变换可能无法很好地拟合，两个全连接层既能在中间加入更多非线性变换，又能通过先降维再升维的操作减少参数和计算量。最后通过一个Sigmoid函数输出一串0～1之间的权重，作为每个通道的评价分数，即其重要性大小。

(c)权重作用(Scale)：使用Excitation得到的结果作为权重，分别乘到特征图对应的通道上(element-wiseproduct)，进行特征重标定，得到输出特征图。

(a)压缩和激活(SqueezeandExcitation)：相当于SE模块中Squeeze和Excitation，区别在于此处要对Squeeze结果分别作4个分支的非线性变换，以对应四路卷积。

(b)权重作用(Select)：把SqueezeandExcita-tion的输出通过softmax函数转化为纵向通道之间的权重，然后把权重信息乘(element-wisepro-duct)到对应的U1、U2、U3和U4上。最后再把权重作用后的四路的特征图进行对应相加(element-wisesummation)得到输出特征图M。

SK模块中的Select操作使用softmax加权与SE模块中最后把权重分别乘到输入特征图上的操作很相似，区别在于SE模块考虑的是通道之间的权重，而SK模块不仅考虑了通道之间的权重，还考虑了多路卷积的权重。也就是说，SE模块是对通道执行注意力机制，而SK模块则是对卷积核执行注意力机制，即让网络自己选择合适的卷积核。

(a)SE模块

(b)SK模块图3注意力模块

将上述的两种多尺度残差特征提取模块和两种注意力模块两两组合在一起，构成4种多尺度注意力卷积神经网络。Block-A与SE模块组合构成的网络命名为：多尺度-se34，Block-A与SK模块组合构成的网络命名为：多尺度-sk34，“34”表示它们将构成34层的卷积神经网络；Block-B与SE模块组合构成的网络命名为：多尺度-se66，Block-B和SK模块组合构成的网络命名为：多尺度-sk66，“66”表示它们将构成66层的卷积神经网络。

本文采用MSTAR数据集进行SAR图像目标分类实验。该数据集采用美国国防高等研究计划署(DARPA)支持的MSTAR计划所公布的实测SAR地面静止目标数据，是通过工作在X波段、HH极化方式的高分辨率的聚束式合成孔径雷达采集得到，雷达空间分辨率为0.3m×0.3m。采集的数据共有10种前苏联军事目标车辆，包括坦克、装甲车等。其中SOC工作条件下10类MSTAR数据集中图像的俯仰角分别是17°和15°，图4分别展示了10类目标车辆的光学图像和对应的SAR图像。本文选用在俯仰角为17°和15°的图像分别作为训练集和测试集。具体类别和图像数量见表2。

本文所有实验基于Ubuntu16.04.6LTS操作系统，所用开发环境是python3.7及其第三方库，以及深度框架Pytorch1.2.0。GPU的处理环境为CUDA9和cuDNN7。输入图像尺寸需统一裁剪为224×224以适应网络，batchsize设置为32，使用SGD优化器进行训练，初始学习率为0.001，每经过50个Epoch学习率减半。实验采用总体精度OA(OverallAccuracy)和混淆矩阵CM(ConfusionMatrix)作为模型分类性能的评价指标。

图4数据集中10类目标的光学图像和SAR图像对照

表2MATAR数据集SOC工作条件下10类目标训练与测试样本数

目标类型类别训练集(俯仰角17°)测试集(俯仰角15°)2S1榴弹炮车299274BMP2(SN9563)步兵战车233195BTR70装甲车233196BTR-60装甲车256195BRDM-2装甲车298274T62坦克299273T72(SN132)坦克232196D7推土机299274ZIL131军用卡车299274ZSU234防空炮车299274合计27472425

混淆矩阵：如图5所示，为一个二分类混淆矩阵的示例。TP(TruePositive)表示实际标签是P，被正确预测为P的数量；FN(FalseNegative)表示实际标签是P，但被错误预测为N的数量；TN(TrueNegative)表示实际标签是N，被正确预测为N的数量；FP(FalsePositive)表示实际标签是N，但被错误预测为P的数量。可以将其拓展到多分类的情况下。若数据集有M个类别，那么混淆矩阵可以用一个M行M列的矩阵形式来表示。正如混淆矩阵的名字，它的作用是体现出多个类别之间是否有混淆，可以直观地体现每一类的分类准确率和错分的类别。

图5混淆矩阵示意图

总体准确率OA：其计算方法为所有分类正确的图像数除以图像总数，在混淆矩阵表示下如式(2)。该指标能够对数据集整体的预测情况进行评价。

(2)

为进一步验证本文提出网络的性能，将本文模型的实验结果与其他算法以及一些经典的神经网络模型进行了比较，如表3所示。文献[4]和文献[5]是基于传统人工特征描述的方法，文献[11]和文献[12]是基于卷积神经网络特征提取的方法。可以看出传统算法的分类精度普遍不高，而基于卷积神经网络的分类方法有着明显的优越性。本文提出的多尺度-sk66网络OA达到99.84%的最高准确率，体现了本文提出的多尺度注意力网络的优越性能。

表3本文方法与其他方法结果比较

方法总体精度(OA)/%SVM[4]90.73文献[5]方法97.97文献[11]方法99.18文献[12]方法99.30GoogLeNet98.43ResNet3498.31ResNet5098.64多尺度-sk66(本文方法)99.84

为了分析本文设计模型中两种多尺度残差特征提取模块和两种注意力模块对性能的影响，开展了一系列的对比试验。实验结果如表4所示。

表4各模型分类精度

模型总体精度(OA)/%ResNet3498.31多尺度-se3499.67去注意力-多尺度-se3499.62多尺度-se6699.72去注意力-多尺度-se6699.63多尺度-sk3499.79去注意力-多尺度-sk3499.71多尺度-sk6699.84去注意力-多尺度-sk6699.70

1)多尺度残差特征提取模块：对比ResNet34与去注意力-多尺度-se34的精度，如图6(a)所示，可以证明本文设计的多尺度残差特征提取模块的有效性。ResNet34网络单一尺度的特征提取导致获得的特征不够有效，而多尺度残差特征提取模块可以很好地提取并融合多尺度的特征，拥有更强大的特征提取能力，有效提升模型的收敛速度和分类精度。

2)注意力模块：对比有无注意力的多尺度网络分类精度可以证明本文设计的注意力模块的有效性。如图6(a)所示，可以看出加入注意力模块之后，网络收敛速度有所提升。观察表4的2至5行与6至9行可以看出，相较于层数较浅的34层多尺度网络，注意力模块对于66层的深层多尺度网络的最终精度提升效果更加明显。深层网络的参数量更大，提取到的特征数量更多更复杂，存在冗余信息的可能性也就越大。这说明SE模块和SK模块都可以在大量信息中区分关键信息和冗余信息，有侧重地利用信息，从而有效提升网络性能。同时，观察表4以及图6(a)中多尺度-se34和多尺度-sk34的曲线可以看出，SK模块相较于SE模块对多尺度网络有着更好的提升效果。这可能是因为SK模块不仅考虑了通道之间的权重，还考虑了多路卷积的权重，更加适合多尺度网络的特点。

(a)

(b)图6部分模型在测试集上的精度变化曲线

3)网络深度：本文在第一节中设计了两种多尺度残差特征提取模块，分别对应了34层和使用连续小卷积核替换大尺寸卷积核得到的66层的网络结构。对比不同层数的多尺度注意力网络性能，如图6(b)所示，绘制了多尺度-sk34和多尺度-sk66的精度变化曲线图。可以看出，增加网络深度可以有效提升网络精度，但在前期的训练过程中可能会存在一定的波动。

表5是本文实验中最优模型多尺度-sk66的混淆矩阵。

表5多尺度sk-66混淆矩阵

目标类型2S1BMP2(SN9563)BRDM-2BTR60BTR70D7T62T72(SN132)ZIL131ZSU234准确率/%2S1274000000000100BMP2(SN9563)019500000000100BRDM-2002740000000100BTR6000219120000097.95BTR70000019600000100D7000002740000100T62000000273000100T72(SN132)000000019600100ZIL131000000002740100ZSU234000000000274100总体精度(OA)/%99.84

同一大类军事目标中还会存在不同型号的变体，它们的军事配置不同，例如同类坦克上有无机关枪、油箱，以及天线是否展开等[19]。这些外观上的变化也会影响SAR目标识别。因此，为验证本文方法在复杂情况下的有效性，不改变训练集，向测试集中补充了BMP2的两种变体：SN9566、SNC21，以及T72的两种变体：SN812、SNS7。表6为所加入变体数据的具体类别型号和图像数量。

表6加入变体的类别型号和图像数量

目标类型类别训练集(俯仰角17°)测试集(俯仰角15°)BMP2(SN9566)BMP2(SNC21)步兵战车—196—196T72(SN812)T72(SNS7)坦克—195—191合计—778

选择在3.1节实验中性能最好的多尺度-sk66模型对补充变体后的MSTAR数据集10类目标进行识别，并与其他方法[6，19-20]进行对比。实验结果如表7所示，多尺度-sk66的混淆矩阵如表8所示。可见，在测试集中加入变体之后，算法的整体性能稍有下降，但也优于其他算法。这说明本文提出模型有较强的泛化能力，在复杂情况下仍能保持较高精度，进一步验证了该方法的有效性。

表7本文方法与其他方法在补充变体数据集上的结果比较

方法总体精度(OA)/%文献[6]方法92.76文献[19]方法97.69文献[20]方法98.81多尺度-sk66(本文方法)99.28

表8多尺度sk-66在补充变体数据集上的混淆矩阵

目标类型2S1BMP2BRDM-2BTR60BTR70D7T62T72ZIL131ZSU234准确率/%2S1274000000000100BMP205781020060098.47BRDM-2002740000000100BTR6003218720010095.90BTR70000019600000100D7000002740000100T62000000273000100T7206000005760098.97ZIL131000000002740100ZSU234000000000274100总体精度(OA)/%99.28

本文以SAR遥感图像目标识别为背景，提出了多尺度注意力卷积神经网络。针对SAR图像的多尺度散射特征，设计了多尺度残差特征提取模块，能够提取并融合多尺度特征。同时引入了注意力机制来区分关键信息和冗余信息。通过在MSTAR数据集上进行10类目标识别的实验，验证了本文算法的有效性，总体准确率达到了99.84%，明显优于其他算法。另外，向测试集中补充4种型号的变体，进行扩展验证，总体准确率达到了99.28%，验证了本文算法在复杂情况下的有效性。

然而，本文实验选用的MSTAR数据集类别较少，图片样本有限，对模型的泛化能力有待进一步验证。此外，所设计的多尺度注意力网络模型参数量较大。因此，如何构建更好的多尺度特征融合方法和注意力机制从而进一步提升网络性能，是今后有待继续研究的内容。

参考文献：

[1]李振红.浅谈深度卷积神经网络在SAR自动目标识别领域的应用[J].电子元器件与信息技术,2020,4(9):25-26.

[2]WUJunjie,PUWei,HUANGYulin,etal.BistaticForward-LookingSARFocusingUsingω-kBasedonSpectrumModelingandOptimization[J].IEEEJournalofSelectedTopicsinAppliedEarthObservationsandRemoteSensing,2018,11(11):4500-4152.

[3]丁柏圆,文贡坚,余连生,等.属性散射中心匹配及其在SAR目标识别中的应用[J].雷达学报，2017,6(2):157-166.

[4]康妙,计科峰,冷祥光,等.基于栈式自编码器特征融合的SAR图像车辆目标识别[J]．雷达学报，2017,6(2):167-176.

[5]张楚笛,唐涛,计科峰.SAR图像车辆目标多模态联合协同表示分类方法[J].信号处理，2021,37(5):681-689.

[6]李璐,杜兰,何浩男,等.基于深度森林的多级特征融合SAR目标识别[J].电子与信息学报,2021,43(3):606-614.

[7]HINTONGE,SALAKHUTDINOVRR.ReducingtheDimensionalityofDatawithNeuralNetworks[J].Science,2006,313(5786):504-507.

[8]WANGWei,ZHANGChengwen,TIANJinge,etal.ASARImageTargetRecognitionApproachviaNovelSSF-NetModels[J].ComputationalIntelligenceandNeuroscience,2020(5)：1-9.

[9]仓明杰,喻玲娟,谢晓春.基于ICNN和IGAN的SAR目标识别方法[J].雷达科学与技术,2020,18(3):287-294.

CANGMingjie，YULingjuan，XIEXiaochun.SARTargetRecognitionMethodBasedonICNNandIGAN[J].RadarScienceandTechnology,2020,18(3):287-294.(inChinese)

[10]陈禾,李灿,庄胤,等.用于SAR遥感图像车辆型谱级识别的高阶特征表示多尺度残差卷积网络[J].信号处理,2021,37(3):317-327.

[11]RENHaohao,YUXuelian,ZOULin,etal.ExtendedConvolutionalCapsuleNetworkwithApplicationonSARAutomaticTargetRecognition[J].SignalProcessing,2021,183(1):108021.

[12]高飞,赵洁琼,林翀,等.基于距离度量学习的SAR图像识别方法[J].北京理工大学学报，2021,41(3):334-340.

[13]PEIJifang,WANGZhiyong,SUNXueping,etal.FEF-Net:ADeepLearningApproachtoMultiviewSARImageTargetRecognition[J].RemoteSensing,2021,13(17):3493.

[14]HEKaiming，ZHANGXiangyu，RENShaoqing，etal.DeepResidualLearningforImageRecognition[C]∥IEEEConferenceonComputerVisionandPatternRecognition,LasVegas,NV,USA:IEEE,2016:770-778．

[15]SZEGEDYC,LIUW,JIAYQ，etal.GoingDeeperwithConvolutions[C]∥IEEEConferenceonComputerVisionandPatternRecognition,Boston,MA,USA:IEEE,2015:1-9.

[16]SIMONYANK,ZISSERMANA.VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition[C]∥inProc.Int.Conf.Learn.Represent.,[S.l.]:[s.n.],2015:1-13.

[17]HUJie，SHENLi，ALBANIES．Squeeze-and-ExcitationNetworks[J].IEEETransonPatternAnalysisandMachineIntelligence,2020,42(8):2011-2023.

[18]LIXiang,WANGWenhai,HUXiaolin,etal.SelectiveKernelNetworks[C]∥2019IEEE/CVFConferenceonComputerVisionandPatternRecognition,LongBeach,CA,USA:IEEE,2020:1-12.

[19]谷雨,徐英.面向SAR目标识别的深度卷积神经网络结构设计[J].中国图象图形学报,2018,23(6):928-936.

[20]冯秋晨,彭冬亮,谷雨.SAR变体目标识别的卷积神经网络法[J].中国图象图形学报,2019,24(2):258-268.

CHENHe1,2,ZHANGXinyi1,2,LICan1,2,ZHUANGYin1,2

(1.RadarResearchLaboratory,SchoolofInformationandElectronics,BeijingInstituteofTechnology,Beijing100081,China;2.BeijingKeyLaboratoryofEmbeddedReal-timeInformationProcessingTechnology,Beijing100081,China)

Keywords:SARremotesensingimagery;targetrecognition;multi-scalefeatureextraction;attentionmechanism;convolutionalneuralnetwork

DOI:10.3969/j.issn.1672-2337.2021.05.007

*收稿日期：2021-07-03；修回日期：2021-09-29

基金项目：国家自然科学基金(No.91738302)

中图分类号：TP183;TN958

文献标志码：A

作者简介：

陈禾女，1970年生，辽宁沈阳人，1998年获得哈尔滨工业大学电子工程博士学位，现任北京理工大学信息与电子学院教授、副院长，主要研究方向为系统片上设计、遥感数据智能处理、实时图像和信号处理的VLSI架构。

张心怡女，1999年生，河北石家庄人，2021年于北京理工大学获得探测制导与控制技术学士学位，现为北京理工大学信息与电子学院硕士研究生，主要研究方向为遥感场景分类、目标识别。

李灿女，1995年生，河北张家口人，2018年于电子科技大学获得电子信息工程学士学位，现为北京理工大学信息与电子学院博士研究生，主要研究方向为遥感场景分类、目标识别。

庄胤男，1990年生，河南洛阳人，2013年于英国布莱顿苏塞克斯大学获得学士学位，2018年于北京理工大学获得博士学位，2018—2020年在北京大学信息科学技术学院担任博士后，现任北京理工大学信息与电子学院预聘助理教授，主要研究方向为遥感目标检测与识别。

THE END

基于多尺度注意力CNN的SAR遥感目标识别^*

神经网络新范式——LNDP：可终身学习的自主发育程序世纪拓扑神经元自组织大模型人工神经网络

吴恩达深度学习笔记4.1~4.8深层神经网络DarAlpha

卷积神经网络系列 4 构建深度视觉模型：高级CNN结构解析文/Renda在当今技术领域，深层卷积神经网络（Deep Convolutional Neural Networks，简...

吴恩达深度学习课程中文字幕版上线网易云课堂

中国科学院半导体研究所

人工智能机器学习神经网络和深度学习的发展历程（下）模型学习算法神经网络发展

基于多尺度注意力CNN的SAR遥感目标识别^*

重磅完备的AI学习路线，最详细的资源整理！

神经网络的DBN与GAN及RNN等形象的详细资料讲解

基于多尺度注意力CNN的SAR遥感目标识别*

基于多尺度注意力CNN的SAR遥感目标识别^*