为了帮助乌克兰分析情报,伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析sar计算机视觉遥感

然而,在乌克兰,由于大量的云层覆盖和频繁的夜间袭击,各种形式的卫星图像都无法捕捉地面信息。好消息是,合成孔径雷达(SyntheticApertureRadar,SAR)图像可以穿透云层,但是需要经过专门培训的人员来对其图像进行解读,如能将这项繁琐的任务自动化,便可以实现实时动态观察。而目前基于典型RGB图像开发的计算机视觉方法尚不能很好地解读SAR图像。

近日,伯克利人工智能研究中心发布了一项新研究,旨在解决SAR图像的使用受限问题。RitwikGupta、ColoradoReed、AnjaRohrbach和TrevorDarrell等人提出一种基线方法和预训练模型,能够使人们在做下游分类、语义分割和改变检测等任务时,方便地互换使用RGB和SAR图像。

1

机器学习与遥感

警觉,或者说监测,贯穿着人类几千年历史,与任何工具一样,它也一直是一把双刃剑。从历史上看,没有制衡的监测对社会是有害的。相反,适当且尽责的监测则使我们能够了解有关世界的深刻真相,进而在科学和人道主义领域取得进步。现在,随着在轨卫星数量的增长,我们对于环境的认识几乎每天都在更新。过去,我们只掌握很少的信息,而今天,我们已经拥有了超过我们所能够有意义地从中提取知识的范围的大量数据。储存和理解这些数据中所含信息是一项日益紧迫的工程挑战。

由于每天都有数百TB的数据从卫星下行传送到数据中心,通过人工处理从这些数据中获取知识和可执行建议,已经成为一项无法完成的任务。最广泛使用的遥感数据形式是光电(electro-optical,EO)卫星图像,这种图像很常见,任何使用过谷歌地图或类似测绘软件的人都跟光电图像“打过交道”。

运用机器学习的光电遥感图像处理技术已被广泛应用于科学和商业领域。从改善降水预测,到通过识别砖窑来对人类奴隶制做循证分析(砖窑是现代奴隶制的典型发生场所),再到对整个城市进行分类识别以改善交通路线选择,机器学习在光电图像上的产出已经融入了人类社会的方方面面。

图2:基辅地区的超高分辨率光电卫星图像,由Maxar公司于2022年2月28日拍摄。图像显示,横跨斯特雷镇河的一座桥似乎已被摧毁。

提供光电图像的常用卫星星座包括美国地质调查局运营的陆地卫星系列(Landsat),和欧洲航天局运营的哥白尼哨兵2号(CopernicusSentinel-2)。这些星座提供10-60米分辨率的图像,尽管这对于许多场景来说已经足够用了,但它们无法观察到更精细的细节。

2

光电卫星图像的先进性与局限性

在过去几年里,丰富的商业资源带来了超高分辨率的光电图像。Planet、Maxar、Airbus等公司每天都在对整个地球进行成像,他们提供了极为精确的图像,分辨率介于0.3-2.0米之间,并且图像重访率很高。

图3:Maxar公司的超高分辨率光电图像示例,显示了浮式生产和储存,卸载装置,以及一艘油轮。

通常来说,现有用于其它非航空RGB图像的计算机视觉方法,能够很好迁移到卫星图像上来,这使得提供高精度结果的商业化超高分辨率图像能够立即被投入使用。

然而,尽管高分辨率光电图像带来如此多的益处,它仍具有一定的局限性。

3

SAR:夜间也能持续监测地面

雷达波能穿透云层,而且由于卫星持续地产生雷达波,所以即使在夜间也能照亮地球表面。合成孔径雷达用途广泛,可用于估测地表粗糙度、绘制大面积洪水范围,以及监测受保护水域中是否有非法渔船出没。

目前,有多个SAR卫星星座在运行。哥白尼哨兵1号星座向人们提供分辨率在10-80米之间的图像(最常见的是10米分辨率图像)。大多数商业SAR提供商,如芬兰的ICEYE的公司和美国的CapellaSpace公司,能够提供分辨率在0.5米的图像。随着卫星星座数量的增长和政府法规的发展,在即将推出的发射项目中,其它商业SAR提供商的目标是制作出分辨率在0.5米以下且具有高重访率的图像。

图4:CapellaSpace公司提供的乌克兰-白俄罗斯边界上的超高分辨率合成孔径雷达图像

虽然合成孔径雷达图像乍一看可能与光电图像非常相似,但其物理原理却大不相同,这导致图像产出中出现了许多有趣的效应,这些效应可能是违反直觉的,并且与现代计算机视觉不相容。有三种常见的效应:极化效应(polarization),叠掩效应(layover),多路径效应(multi-path)。

极化效应

图5:来自哨兵1号(Sentinel-1)辐射测量地形校正图像,在乌克兰第聂伯罗(Dnipro)的同一区域,VH极化(左)和VV极化(右)显示出差异。雷达在相应的局部区域的回波可能不同。

SAR卫星上的雷达天线经常发射极化的雷达波。极化方向是波电场的方向。地面上的物体对雷达波的不同极化给予不同的反应。因此,SAR卫星通常以双极化或四极化模式运行,在水平(H)或垂直(V)方向上传播极化波,从而产生HH、HV、VH和VV四种波段。所以,尽管我们可以将此与电光图像中的RGB波段进行对比,但其物理学原理是不同的。

叠掩效应

图6:Capella公司的超高分辨率SAR图像示例。体育场的上部似乎与其后方的停车场重叠。

叠掩效应是指雷达波束先到达距离更近的目标物体顶部,后达到更远的目标物体底部,因而顶部先成像,导致物体的顶部与底部图像形成重叠。当物体特别高时,这种情况就会发生。从视觉上看,高层建筑呈现出侧卧状,而山脉看起来则是山峰与基底相交。

多路径效应

图7:斜向SAR图像中桥梁的多径效应示例

当雷达波从地面上的物体反射,并在返回SAR传感器之前发生多次反弹时,就会发生多路径效应。多径效应会导致目标物体在生成的图像中以各种变换形式出现。这种效应在SAR图像中随处可见,但在城市地区、森林和其他密集环境中尤为明显。

基于传统RGB图像的现有计算机视觉方法并未考虑到上述这些效应。在光电卫星图像上训练的物体检测器,预设一个特定物体只会出现一次,或者该物体在不同的环境中看起来相对相似,而不是可能与周围的物体呈现镜像、分散或者交叠状态。遮挡的本质和光电图像中遮挡假设的视觉原理,不能直接运用到SAR图像上来。

总而言之,现有的计算机视觉技术可以应用于SAR图像,但性能会降低,并且会出现一套系统性错误,而这些错误可以通过专门针对SAR图像模式的技术方法来解决。

4

SAR图像的计算机视觉技术用于乌克兰情报分析

伯克利人工智能研究中心创建了一套初始方法和模型,这些方法和模型从公开发布的BigEarthNet-MM数据集和Capella的OpenData数据中,集中学习RGB图像、SAR图像以及RGB+SAR共配图像的鲁棒表示。这两个数据集都包含RGB和SAR图像。通过使用这些模型,图像分析师能够交替使用RGB、SAR或RGB+SAR共配图像来执行多种下游视觉任务,例如图像分类、语义分割、目标检测或变化检测。

SAR与EO图像是具有不同现象学特征的数据源,在这个问题上,研究人员发现在使用SAR图像来进行表示学习时,VisionTransformer(ViT)是一种特别有效的架构,因为它消除了卷积神经网络所固有的尺度和位移不变的归纳偏差。在进行RGB、SAR和RGB+SAR图像的表示学习时,MAERS方法表现最佳,它基于何恺明等人(2021)提出的掩码化自动编码器(MaskedAutoencoder,MAE),这是一种可扩展的自监督学习网络:它将掩码化数据作为输入,学习对输入数据的编码,然后学习对数据的解码,对非掩码输入数据进行重建。

与过往流行的对比学习视觉表示框架不同,MAE网络并不预设数据中存在某些可能对于SAR特征而言成问题的增强不变性,相反,它只依赖对原始输入数据的重建,这对于RGB、SAR或RGB+SAR模型来说是一个不可知过程。

如图8所示,通过学习RGB、SAR和RGB+SAR通道的独立输入投影层,MAERS进一步对MAE加以扩展,使用共享的ViT网络对这些投影层的输出进行编码,然后使用独立的输出投影层对RGB、SAR或RGB+SAR通道进行解码。其后,输入投影层和共享的ViT网络可以运用到下游任务中,比如目标检测或变化检测,在这些任务中,RGB、SAR或RGB+SAR都可以进入输入编码器。

图8:上方为MAERS学习联合表示过程的可视化,下方为一个编码器,可用于执行下游任务,比如用RGB或SAR或RGB+SAR模型进行对象检测。

学习RGB、SAR和RGB+SAR模式的表示,有助于执行一系列的下游任务,如基于内容的图像检索、分类、分割和检测。为了证明所学习的表示方法的有效性,研究者在已有的基准上进行了实验:一是对BigEarthNet-MM数据集中共配的EO和SAR场景进行多标签分类;二是对SpaceNet6数据集中超高分辨率的EO和SAR图像进行语义分割。

对BigEarth-MM数据集进行多标签分类

图9:(左)对哨兵2号的EO图像和哨兵1号的SAR图像进行分割,将其用于执行BigEarth-MMChallenge规定的多标签分类任务。给多模型编码器添加了一个线性层,然后进行端到端的微调。

MAERS使用一组用于ViT编码器的ImageNet权重进行初始化,然后在BigEarthNet-MM数据集上对RGB、SAR和RGB+SAR图像进行20个周期的预训练。研究者在MAERS编码器上附加了一个单一的线性层,并通过对整个模型进行20个周期的微调来学习多标签分类任务。

结果显示在表1中。经过微调的MAERS,优于BigEarthNet-MM论文所呈现的最佳RGB+SAR结果。而且,为了RGB、SAR和RGB+SAR输入模式的表示学习,对本身已经近乎完美的MAE架构加以调整后,它依然产生了最好的结果。

表1:BigEarthNet-MM测试集所报告的每一类F2分数。

对EO和SAR图像进行语义分割

研究者进一步做了对建筑足迹进行语义分割的迁移学习实验,这是一项“及时雨”性质的任务,将有助于图像分析人员了解乌克兰所遭受的破坏情况,并且它是在对建筑损失做评估之前的一个先行工作。对于政府官员、记者,和想要了解俄罗斯对基础设施和平民袭击的范围和严重程度的人权组织来说,建筑损失评估都有直接的意义。

图10:构建基于SAR图像的MAERS分割示例,取自SpaceNet6。其中左边显示的是RGB图像,右边显示的是叠加了分割结果的SAR图像。SAR图像以VV、VH和VV/VH波段的假色显示。

在该实验中,研究者使用SpaceNet6数据集作为一个开放和公开的基准,来其用以构建来自CapellaSpace的VHRSAR图像中的足迹检测的表示学习的有效性。他们使用这个编码器与UperNet架构串联用于语义分割。图11显示了在只有SAR图像输入的SpaceNet6的封闭验证组件中,在训练使用SAR或RGB图像的分割模型上分割建筑所占用的IoU性能。与从头开始训练RGB+SAR模型或采用完全相同的结构调整ImageNet权值相比,MAERS预训练模型可提高约13个点。

图11:使用带有ViT主干网络的UperNet分割模型,在SpaceNet6Challenge上构建分割IoU。

这表明,MAERS可以学习RGB+SAR模式的鲁棒表示,因此在完成下游任务时,使用EO或SAR图像都是可行的。需要注意的是,在建筑物分割任务中,SAR图像的现象学特征使其具有一定劣势,而使用EO图像执行该任务可获得大于90的IoU得分。这便给SAR技术留下了一个巨大的空白,有待进一步研究。不过,当环境条件不利于EO图像的捕获时,从SAR图像中获得其性能仍十分重要。

5

技术与人道主义的合流

目前这项研究只得出了初步结果,但仍显示出了很强的说服力。研究人员表示,他们将向人道主义伙伴提供研究模型,帮助他们对居民区和其他平民区进行环境变化检测,以更好地揭示入侵者在乌克兰犯下的战争罪行。

THE END
1.图神经网络综述和学习路径图神经网络的学习路径本文探讨了图神经网络在应用中的角色,包括节点、连接和子图等概念的区别。它解决了表示学习问题,但面临如何将图数据适配到现代深度学习模型的挑战。文章还涉及数学表示,如邻接矩阵的使用,以及是否可以直接借鉴传统神经网络结构。最后,提供了学习路径和相关书籍推荐作为深入研究的指引。 https://blog.csdn.net/m0_57715084/article/details/138444995
2.图神经网络路径规划图神经网络早在深度学习时代来临之前的2005年,图神经网络就已经出现了。一般来说,图神经网络旨在通过人工神经网络的方式将图和图上的节点(有时也包括边)映射到一个低维空间。也就是学习图和节点的低维向量表示。这个目标常被称为图嵌入或者图上的表示学习,反之,图嵌入和图表示学习并不仅仅包含图神经网络这一种方式。 https://blog.51cto.com/u_16213580/7500596
3.学习神经网络的路线图信息科学小木虫学习神经网络的路线图 第一步:看看入门书籍,对神经网络有个初步认识; 第二步:掌握如下算法: 1.感知机学习,这个较简单易懂,就不多说了. 2.最小均方误差,这个原理是下面提到的神经网络学习算法的理论核心,入门者要先看《高等数学》(高等教育出版社,同济大学版)第8章的第十节:“最小二乘法”。https://muchong.com/html/200604/229328.html
4.自然语言学习路线图图算法的应用 第六部分:模型压缩与图神经网络篇 第二十三章:模型的压缩 模型压缩重要性 常见的模型压缩总览 基于矩阵分解的压缩技术 基于蒸馏的压缩技术 基于贝叶斯模型的压缩技术 模型的量化 第二十四章:基于图的学习 图的表示 图与知识图谱 关于图的常见算法 https://www.jianshu.com/p/02b95ff6eb5c
5.卷积神经网络之父的强人工智能路线图:自监督,推理,规划在此次演讲中,LeCun对自己近年来倡导的自监督学习进行了梳理,从认知科学出发对人工智能领域未来10年的研究目标展开了更为宏大的畅想,提出了基于自监督学习、世界模型、推理、规划的强人工智能实现路线图。 Yann LeCun:FAIR首席AI科学家,Facebook人工智能实验室负责人,曾获得“神经网络先驱奖”。同时是美国国家科学学院https://aidc.shisu.edu.cn/9c/75/c13626a171125/page.htm
6.原创图注意力神经网络(GraphAttentionNetworks)综述这种方法使用强化学习训练图注意力神经网络(GNN),在未标记的图训练集上进行训练。训练后的网络可以在线性运行时间内输出新图实例的近似解。在TSP问题中,GAT可以有效地处理城市之间的距离关系,从而找到最短的旅行路径。在VRP问题中,GAT可以有效地处理车辆、客户 和仓库之间的关系,从而找到最优的配送路线。这些研究结果http://www.360doc.com/content/23/0721/12/277688_1089470114.shtml
7.2024年从零学习AI和深度学习Transformer的路线图(附资源)2024 年学习 AI 路线图 最近AI大热,相关的研究层出不穷。 你想学习AI吗?但您不知道如何或从哪里开始? 人工智能和深度学习是发展的趋势: Science 2023封面论文:ChatGPT缩小了人们在写作能力上的差距 Nature子刊Nature Machine Intelligence也已经上线近三年了,每年接收文章不到100篇,影响因子达到16.65,表示着Nature对https://www.360doc.cn/mip/1121740763.html
8.科学网—移动传感器(移动机器人)路径规划方法总结(一)其主要方法有:可视图法,自由空间法,最优控制法,栅格法,拓扑法,神经网络法等。 1).可视图法 可视图法视移动机器人为一点,将机器人、目标点和多边形障碍物的各顶点进行组合连接,并保证这些直线均不与障碍物相交,这就形成了一张图,称为可视图。由于任意两直线的顶点都是可见的,从起点沿着这些直线到达目标点的所https://wap.sciencenet.cn/blog-281551-462159.html
9.详细的人工智能学习路线和资料推荐神经网络基础:学习神经网络的基本原理,如前向传播、反向传播等。 深度学习框架:学习TensorFlow、PyTorch等深度学习框架,通过实践项目加深对深度学习算法的理解。 3. 计算机视觉与自然语言处理:学习计算机视觉(如图像分类、目标检测等)和自然语言处理(如文本分类、情感分 https://developer.aliyun.com/article/1562181
10.数据挖掘国际顶会KDD2021收录结果公布百度多篇论文入选最近的研究进展已经证明,使用图神经网络 (GNNs) 来学习蛋白质-配体复合物(protein-ligand complexes)的表示,比传统方法可以更准确地预测亲和力。然而,现有的模型通常将蛋白质-配体复合物视为拓扑图,并没有充分利用分子的三维结构信息。同时GNN模型也忽略了原子之间基本的远距离相互作用。为此,我们提出了一种新型的三维https://maimai.cn/article/detail?fid=1691299143&efid=QpL_9l9RgRO_Dq4QZTBNzA
11.ECMWF发布未来十年战略规划,包括机器学习路线图文末有战略规划及机器学习路线图的文档下载链接 2021年1月26日,ECMWF发布了2021-2030战略,用于指导未来十年的发展规划。此战略主要强调了为ECMWF会员国和合作方及用户提供更加准确的预测。 此战略将在ECMWF会员国理事会最终确定通过的情况下每五年更新一次。 https://cloud.tencent.com/developer/article/1787277
12.深度学习学习路线规划深度学习是当今最令人兴奋的技术之一,其应用广泛,从图像识别到自然语言处理都有它的身影。一般来说,学习深度学习需要一定的时间和经验,但是若想要学习深度学习,下面有几条可以跟着做的学习路线:学习基本的数学知识:深度学习是建立在数学基础上的,因此,学习深度学习https://www.nowcoder.com/discuss/455400348732211200