大学生服务外包创新创业大赛

基于OpenAigymnasium环境训练智能体并生成可解释算法

4.背景说明

【整体背景】

强化学习是一种强大的技术,可用于从试错过程中自动发现最优的行为策略,已经被广泛应用于解决各种复杂的环境交互问题。然而,尽管其在自动决策和控制领域取得了显著的成就,但作为机器学习算法的一种,强化学习在某些方面仍然面临着重要的挑战,其中之一就是可解释性的问题。

可解释性一直是机器学习领域的一个核心难题,而强化学习也不例外。传统的强化学习算法通常构建复杂的模型,这些模型往往难以被人类理解,限制了其在一些关键领域的应用,如医疗、自动驾驶等需要高度可解释性和透明性的领域。此外,缺乏可解释性也导致了强化学习在环境仿真、任务泛化等方面的性能不稳定,难以实现普遍适用的解决方案。

为了解决这一问题,近年来涌现了大量关于强化学习可解性(ExplainableReinforcementLearning,XRL)的研究。XRL旨在通过引入透明的模型和可解释性规则来增强强化学习算法的可解释性,从而使其更容易被人类理解和信任。

【公司背景】

江苏万维艾斯网络智能产业创新中心有限公司由江苏省高等学校优秀科技创新团队(南京大学人工智能推理与学习团队)投资成立的人工智能产品研发和产业化平台。公司是国内首批以人工智能技术创新为核心价值的高新技术企业,旨在提高人工智能产业的自主创新能力,努力打造一个集国际技术转移、技术研发、国际合作、科技创业、咨询培训功能于一体的创新创业平台。

【业务背景】

强化学习是江苏万维艾斯网络智能产业创新中心有限公司的一个业务方向。当前存在这样一个强化学习任务,需要对常见的强化学习算法进行训练并生成可解释算法。

5.项目说明

【问题说明】

针对Breakout环境训练出一个强化学习算法,通过该算法让游戏获得尽可能多的分数,然后用可解释的白盒算法(比如机器学习算法),替代原来的强化学习算法,从而获得一个性能好且可解释的决策算法。Breakout环境如图1所示。

图1Breakout环境

训练强化学习算法和可解释算法的过程中均需要提供训练和测试的指标。训练强化学习过程中需要给出训练的奖励变化曲线(如图2),以及在十个episode下的测试奖励(如图3),并给出十轮的平均分数。

图2强化学习算法训练过程中奖励变化曲线

图3强化学习算法评估过程中奖励变化曲线

训练可解释算法(提示:可以用训练好的强化学习算法和环境交互产生的数据)后需要提供类似R方(R-squared)或者F1分数(F1-Score)等指标来评估模型的性能(如图4),并且需要使用可解算法来运行Breakout游戏,再次记录10个episode的得分,并绘制出曲线图(如图3),并给出十轮的平均分数。

图4强化学习算法评估过程中奖励变化曲线

此外,需要对可解释算法进行可视化(如图5),并给出一个推理的示例报告。

图5可解释算法可视化示例(决策树)

【用户期望】

通过训练好的可解释算法得到性能好,可解释的决策算法。

6.任务要求

【开发说明】

自由选择强化学习算法在Breakout环境进行训练,并继续训练出可解释性能好的决策算法。开发完成后需要生成两个模型,强化学习模型和可解释模型(比如决策树),训练好的强化学习模型的得分越高越好,训练好的可解释模型的得分越接近强化学习模型越好。具体如下:

(1)利用强化学习算法训练模型,使其在Breakout环境中获得高分。提供训练过程中的奖励变化曲线,以及在十个episode下的测试奖励,并给出十轮的平均分数。

(2)利用可解释性算法(也即机器学习算法)的白盒算法,基于训练好的强化学习模型和与环境交互产生的数据,训练一个可解释算法。使用类似R方(R-squared)或F1分数(F1-Score)等指标评估可解释算法对数据的拟合程度。

(3)使用可解释算法运行Breakout游戏,记录10个episode的得分,并绘制奖励变化曲线图(参见图3)。给出十轮的平均分数。

【技术要求与指标】

提供可用于推理的docker镜像(模型需要为CPU版本),算法输出结果放在/result目录,docker镜像大小不超过5G。容器启动后,自动运行算法,将结果写到/result目录,主要比较选手训练的强化学习训练的效果(训练好的模型在环境下的十轮平均得分),训练的可解释算法的效果(和原来强化学习十轮得分的比较),如果有训练的视频会更好。

THE END
1.生成式AI:创造性智能的新纪元什么是生成式AI? 生成式AI是一种利用机器学习算法,特别是深度学习技术,来生成新的数据样本的人工智能。这些数据样本在统计上与训练数据相似,但又是独一无二的。这种技术的核心在于能够捕捉到数据的分布特征,并在此基础上创造出新的实例。 主要技术 生成对抗网络(GANs):由生成器和判别器组成,生成器产生数据,判别器https://blog.csdn.net/qq_56438516/article/details/141832237
2.生成式深度学习神经网络深度神经网络算法生成式深度学习神经网络 深度神经网络算法 Writed by changfei_lovelife~ 目录 1.卷积神经网络 2.深层卷积网络实例探究 第一部分 卷积神经网络 1.边缘检测器 原理:利用过滤器,与原图矩阵进行卷积计算,可实现垂直/水平边缘检测。 卷积运算:逐元素相乘,然后相加https://blog.51cto.com/u_13259/10358004
3.4机器学习算法面试八股【4】机器学习算法面试八股 51随机森林RF 通过对训练数据样本以及属性进行有放回的抽样(针对某一个属性随机选择样本)这里有两种,一种是每次都是有放回的采样,有些样本是重复的,组成和原始数据集样本个数一样的数据集;另外一种是不放回的抽样,抽取出大约60%的训练信息。由此生成一颗CART树,剩下的样本信息作为袋https://www.nowcoder.com/discuss/509759767431098368
4.python机器学习笔记:深入学习决策树算法原理1. 决策树学习算法主要由三部分构成 1.1 特征选择 特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准,从而衍生出不同的决策树算法。 1.2 决策树生成 根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。树结构来https://www.flyai.com/article/622
5.博弈环境下的深度强化学习和传统的深度强化学习不同博弈环境下的深度学习需要通过与其他智能体或环境进行交互来生成数据。相比之下,传统的深度学习通常使用已标注的静态数据集进行训练。 2、增强学习算法 博弈环境下的深度学习通常使用增强学习算法来训练智能体。增强学习是一种通过与环境交互学习最优策略的方法。传统的深度学习通常使用监督学习算法。 https://wap.sciencenet.cn/home.php?mod=space&uid=40841&do=blog&id=1418525
6.基于机器学习的深基坑三维土层重建提出一种基于机器学习的土层重建方法,首先设计土层生成算法来进行土层训练数据集的数据增强。然后根据钻孔信息数据结构设计了预测模型特征编码方法,作为预测模型的标准输入,通过搭建卷积神经网络模型,对土层结构进行特征提取,形成土层预测模型。随后,利用预测模型对待预测地块中的离散格点进行土层属性预测,获得土层体数据。最后http://qks.cqu.edu.cn/html/cqdxzrcn/2021/5/20210515.htm
7.《自然》封面:人工智能掀起材料革命,将颠覆人类科研方式能见度但有一批材料科学家转换思路,使用计算机模型和机器学习算法生成海量假想的材料,建立数据库,从中筛选出值得合成的材料,再通过检索这些材料可能拥有的性质进行具体应用测试,比如将这种材料用作导体表现如何、用作绝缘体性能又如何、这种材料是否具有磁性、那种材料的抗压力是多少。https://www.thepaper.cn/newsDetail_forward_1466136
8.强化学习GAIL生成对抗模仿学习详解《Generativeadversarial( c , π ) (c,\pi) (c,π)为一个鞍点。 可得,不同的正则化函数 ψ \psi ψ构成不同的模仿学习算法,可以直接求解上式得到 ( c , π ) (c,\pi) (c,π)。 在本文中将会主要介绍三种不同的正则化函数:恒定正则化函数,示性正则化函数,生成对抗正则化函数(GA) https://cloud.tencent.com/developer/article/2152022
9.交换机如何实现自学习算法帧交换表的实现是通过自学习算法,自学习算法是在网络中主机间不断的通信中逐渐建立起来的。 自学习算法最重要的两点 1)主机发送出帧后交换机便将该MAC地址以及接口登记; 2)一个接口成功接收到帧,变将该接口和MAC地址登记 冗余环路可以提高以太网的可靠性,但是会造成网络环路,可以通过创建最小生成树的创建来避免网https://www.jianshu.com/p/ed03cf24b9b1