深度强化学习中的对抗攻击和防御人工智能

该论文是关于深度强化学习对抗攻击的工作。在该论文中,作者从鲁棒优化的角度研究了深度强化学习策略对对抗攻击的鲁棒性。在鲁棒优化的框架下,通过最小化策略的预期回报来给出最优的对抗攻击,相应地,通过提高策略应对最坏情况的性能来实现良好的防御机制。

考虑到攻击者通常无法在训练环境中攻击,作者提出了一种贪婪攻击算法,该算法试图在不与环境交互的情况下最小化策略的预期回报;另外作者还提出一种防御算法,该算法以最大-最小的博弈来对深度强化学习算法进行对抗训练。

在Atari游戏环境中的实验结果表明,作者提出的对抗攻击算法比现有的攻击算法更有效,策略回报率更差。论文中提出的对抗防御算法生成的策略比现有的防御方法对一系列对抗攻击更具鲁棒性。

给定任何一个样本(x,y)和神经网络f,生成对抗样本的优化目标为:

2.2强化学习和策略梯度

其中表示的是初始状态。强学学习包括评估动作值函数

以上公式描述了在状态执行后服从策略的数学期望。由定义可知值函数和动作值函数满足如下关系:

深度强化学习策略的对抗攻击和防御是建立在是鲁棒优化PGD的框架之上的

一方面内部最小化优化去寻找对抗扰动序列使得当前策略做出错误的决策。另一方面外部最大化的目的是找到策略分布参数使得在扰动策略下期望回报最大。经过以上对抗攻击和防御博弈,会使得训练过程中的策略参数能够更加抵御对抗攻击。

目标函数内部最小化的目的是生成对抗扰动,但是对于强化学习算法来说学习得到最优对抗扰动是非常耗时耗力的,而且由于训练环境对攻击者来说是一个黑盒的,所以在该论文中,作者考虑一个实际的设定,即攻击者在不同的状态下去注入扰动。不想有监督学习攻击场景中,攻击者只需要欺骗分类器模型使得它分类出错产生错误的标签;在强化学习的攻击场景中,动作值函数攻击者提供了额外的信息,即小的行为值会导致一个小的期望回报。相应的,作者在深度强化学习中定义了最优对抗扰动如下所示

定义1:一个在状态s上最优的对抗扰动能够最小化状态的期望回报

需要注意的是优化求解以上公式的是非常棘手的,它需要确保攻击者能够欺骗智能体使得其选择最差的决策行为,然而对于攻击者来说智能体的动作值函数是不可知的,所以无法保证对抗扰动是最优的。以下的定理能够说明如果策略是最优的,最优对抗扰动能够用不通过访问动作值函数的方式被生成

其中表示的是策略熵,是一个状态依赖常量,并且当变化到0的时候,也会随之变为0,进而则有以下公式

其中第二和第三行表示是一个概率分布,最后一行表示策略是一个随机策略,根据KKT条件则可以将以上优化问题转化为如下形式:

将以上的第一个等式带入到第二中,则有

其中

定理1展示了如果策略是最优的情况下,最优扰动可以通过最大化扰动策略和原始策略的交叉熵来获得。为了讨论的简便,作者将定理1的攻击称之为策略攻击,而且作者使用PGD算法框架去计算最优的策略攻击,具体的算法流程图如下算法1所示。

如下右侧的三个子图显示了不同攻击扰动的结果。可以发现经过逆向训练的策略和标准策略都能抵抗随机扰动。相反,对抗攻击会降低不同策略的性能。结果取决于测试环境和防御算法,进一步可以发现三种对抗性攻击算法之间的性能差距很小。

相比之下,在相对困难的设置环境中,论文作者提出的策略攻击算法干扰的策略产生的回报要低得多。总体而言,论文中提出的策略攻击算法在大多数情况下产生的回报最低,这表明它确实是所有经过测试的对抗攻击算法中效率最高的。

如下图所示显示了不同防御算法以及标准PPO的学习曲线。需要注意的是性能曲线仅表示用于与环境交互的策略的预期回报。在所有的训练算法中,论文中提出的ATPA具有最低的训练方差,因此比其他算法更稳定。另外还能注意到,ATPA的进度比标准PPO慢得多,尤其是在早期训练阶段。这导致了这样一个事实,即在早期的训练阶段,受不利因素干扰会使得策略训练非常不稳定。

表总结了使用不同算法在不同扰动下的策略预期回报。可以发现经过ATPA训练的策略能够抵抗各种对抗干扰。相比之下,尽管StageWise和DataAugment在某种程度上学会了处理对抗攻击,但它们在所有情况下都不如ATPA有效。

为了进行更广泛的比较,作者还评估了这些防御算法对最有效的策略攻击算法产生的不同程度的对抗干扰的鲁棒性。如下图所示,ATPA再次在所有情况下获得最高分数。此外,ATPA的评估方差远小于StageWise和DataAugment,表明ATPA具有更强的生成能力。

为了达到类似的性能,ATPA需要比标准PPO算法更多的训练数据。作者通过研究扰动策略的稳定性来深入研究这个问题。作者计算了通过在训练过程中间和结束时使用不同随机初始点的PGD执行策略攻击而获得的扰动策略的KL散度值。如下图所示,在没有对抗训练的情况下,即使标准PPO已经收敛,也会不断观察到较大的KL散度值,这表明策略对于使用不同初始点执行PGD所产生的扰动非常不稳定。

下图显示了具有不同初始点的扰动策略的KL散度图,可以发现图中的每个像素表示两个扰动策略的KL散度值,这两个扰动策略通过最大化ATPA算法的核心公式给出。需要注意的是由于KL散度是一个非对称度量,因此这些映射也是不对称的。

THE END
1.基于LunarLander登陆器的PPO强化学习PPO算法流程图资源资源浏览查阅32次。近端策略优化ProximalPolicyOptimization(PPO)算法:从原理到实践PPO算法流程图更多下载资源、学习资料请访问CSDN文库频道.https://download.csdn.net/download/weixin_44584198/88730889
2.面向多目标柔性作业车间调度的强化学习NSGARLNSGA-Ⅱ算法求解MO-FJSP的流程如图4所示。 图4 基于强化学习的改进NSGA-Ⅱ算法流程图 Fig. 4 Flow chart of improved NSGA-Ⅱ algorithm based on reinforcement learning 操作步骤如下: Step1 输入工件信息,设置算法参数:迭代次数G,初始种群比例参数β,种群规模N,交叉概率Pc,变异概率Pm,强化学习Q值表,学习率http://qks.cqu.edu.cn/html/cqdxzrcn/2022/10/20221010.htm
3.深度强化学习——从DQN到DDPG腾讯云开发者社区DQN具体来说,是基于经典强化学习算法Q-Learning,用深度神经网络拟合其中的Q值的一种方法。Q-Learning算法提供给深度网络目标值,使其进行更新。先来看Q-Learning的算法流程图: 智能体采用off-policy即执行的和改进的不是同一个策略,这通过方法实现。用这种方式采样,并以在线更新的方式,每采集一个样本进行一次对Q函数https://cloud.tencent.com/developer/article/2041953
4.基于深度强化学习的优化芯片布局系统及方法21.图2为本方法流程图; 22.图3为实施例中布局样例(即输入文件)示意图; 23.图4为优化后的布局效果图。 具体实施方式 24.基于强化学习的优化芯片布局求解器是优化布局问题研究发展的前沿方向之一,目前在此方向上的工作还处于比较基础的阶段。通常,强化学习算法会先把问题建模成一个马尔可夫决策过程(markov decision https://www.xjishu.com/zhuanli/55/202111412653.html
5.多智能体路径规划综述本文首先对MAPF问题进行了阐述,概述了经典的集中式规划算法,详细分析了经典算法的原理,然后概述了深度强化学习,解析了主流的强化学习算法原理,将MAPF问题描述为强化学习问题,介绍了基于强化学习的MAPF算法研究进展。在此基础上,指出现有算法面临的挑战,指出了下一步要解决的问题和研究方向。 https://www.fx361.com/page/2022/1017/11262806.shtml
6.入门指南人工智能的新希望——强化学习全解这种映射在无监督学习中并不存在。在无监督学习中,主要任务是找到数据本身的规律而不是映射。例如,如果任务是向用户建议新闻文章,则无监督学习算法将查看该人先前读过的文章并向他们建议类似的文章。而强化学习算法将通过建议少量新闻文章给用户,从用户获得不断的反馈,然后构建一个关于人们喜欢哪些文章的“知识图”。https://36kr.com/p/1721373523969
7.人工智能机器学习:半监督学习(Semi一、半监督学习算法提出的背景 1、监督学习算法 监督学习:训练样本集不仅包含样本,还包含这些样本对应的标签,即样本和样本标签成对出现。监督学习的目标是从训练样本中学习一个从样本到标签的有效映射,使其能够预测未知样本的标签。监督学习是机器学习中最成熟的学习方法,代表性的算法包括神经网络、支持向量机(SVM)等https://www.pianshen.com/article/81892181744/
8.融合强化学习的多目标路径规划图4是RLAP-NSGA-II的流程图, 其中策略集M={mi|i=1,2,3,4}M={mi|i=1,2,3,4}, 上述4种策略均是以图5的流程作为基础框架, 不同之处在于交叉的对象不同和交叉算子不同, 其他设置均与文献[17]保持一致. 图4 算法流程图 2.4 编码方式 根据第2节建立的数学模型可知, 一段序号可以表示一条路径,https://c-s-a.org.cn/html/2024/3/9418.html
9.一种高效全面的敏感数据分布自动化探查方法然后选择自动聚类算法(比如K-means聚类算法、基于密度峰值得聚类算法),对待梳理数据进行自动聚类,得到X(X>0)个带数字标签的数据类别。 图1 数据梳理流程图 ●步骤3:聚类完成后,接着采取人工观察文件名或文件内容的方式判断聚类结果的准确性,通过修改聚类别类数参数、移动文件或者合并类别等人工操作调整聚类结果直至最https://www.secrss.com/articles/12266
10.用反向传播算法解释大脑学习过程?Hinton等人新研究登上Nature子刊目标传播是深度学习中使用一系列自编码器的基础理念,下图 3a 展示了目标传播的流程图: 图3:目标传播算法。a)在每一层使用完美反函数 g_l=f_l^-1(.) 的目标传播原理图;b)差异目标传播有助于纠正反向连接或许无法实现完美反函数的事实;c)单层差异目标传播原理图。前向突触权重的更新旨在促使 forward-pass 隐藏https://www.thepaper.cn/newsDetail_forward_7047242
11.基于5G和人工智能的产品质量实时检测和优化反馈图像处理结果,并增加更新算法信息 2.3 机器学习 2.3.1基本方法和模型 本测试床计划首先采集大量的相同规格的产品检测彩色图片。然后,把彩色图片转化成统一的灰度图。对采集的图片进行标记,对于每一张图片,进行相应的标记(合格:1,不合格:0)。将标记的数据分为训练集集、测试集、验证集,将所有的灰度图片以及它所http://www.aii-alliance.org/resource/c333/n1807.html
12.高中信息技术课程标准(1)从其他科目的学习或者生活实际中选择问题,确定解决该问题所需要的算法和计算公式,用流程图描述问题的计算过程,编写程序,调试并运行该程序,获得问题的答案,并讨论该问题解决过程与所得答案的特点。 (2)在已学知识的基础上,通过调查和讨论对算法和程序设计进行更多了解,探讨待解决的问题与其相应算法之间的关系,尝试https://www.fqkhzx.cn/index/article/view/id/94.html
13.复杂卫星图像中的小目标船舶识别整个流程可分为两个部分:训练和识别。在训练过程中,主要有4个步骤:(1)将采集到的卫星图像进行预处理;(2)加入多尺度训练策略,将采集到的图片缩放为3种尺度进行模型训练,同时结合负样本增强学习的方法,解决复杂海情的影响问题和小目标识别的问题,该步是解决这两个问题的关键;(3)将特征图送入到区域建议网络当中生http://www.jors.cn/jrs/article/html/202002002
14.深度学习本书为三大部分,第一部分介绍应用数学基础知识和机器学习的基本概念,第二部分介绍业界经典的深度学习算法,第三部分是一些探索性研究,对深度学习的未来发展非常重要。本书假定读者拥有计算机科学的背景,熟悉编程,对计算性能、复杂度问题、图论知识以及入门的微积分了解https://www.epubit.com/bookDetails?id=N8263