本发明属于量化交易领域,涉及基于深度强化学习的自适应多智能体股票交易方法,是使用深度学习技术与dueling深度q网络构建多智能体股票交易框架,来实现在股票市场震荡的场景下实现最大化收益和风险控制。
背景技术:
3、然而,在震荡的股票市场中,市场剧烈波动导致数据中包含大量噪声,这显著影响了模型的信号提取能力。在这样的频繁波动环境中,现有研究对市场波动的适应性不足,模型难以有效应对不同的市场情境。此外,交易反馈不及时的问题也很突出,实时处理和响应最新市场状态的能力有限,可能导致交易决策的滞后。与此同时,现有方法在交易过程中的风险管理措施也不足,缺乏有效的风险评估和管理策略,无法充分保护资金安全。
技术实现思路
2、本发明的技术方案:
3、基于深度强化学习的自适应多智能体股票交易方法,步骤如下:
4、步骤100,数据爬取及预处理;
5、步骤101,确定数据源和股票交易的领域和主题;
6、其中,数据源确定,针对要获取的指数、期货、个股数据集,选择yahoo资源,其为一个专注于股票市场信息的网站;
7、步骤102,使用爬虫技术从数据源中获取股票交易数据;
8、网络爬虫,通过解析函数sd=parse(html),提取函数ed=extract(sd)来实现爬虫;其中,html是原始网页,sd表示解析函数parse(·)后得到的解析数据,ed表示解析函数extract(·)后得到的解析数据。
9、步骤103,过滤和清洗股票交易数据,去除无关信息,使数据更加干净和规范;
10、使用文本处理技术进行数据清洗和规范化,设ed为原始数据集,通过数据过滤操作filter(ed),应用一系列的过滤规则或条件,从原始数据中筛选出符合要求或标准的数据,生成中间数据集fd;接着,对中间数据集fd进行数据清洗操作clean(fd),清除存在缺失值或错误的数据,以确保数据的一致性和准确性,最后生成清洗后的数据集cd;公式表示为:cd=clean(filter(ed));其中,filter(·)代表数据过滤的操作,通过应用一系列的过滤规则或条件,从数据中筛选出符合要求或标准的数据,clean(·)代表数据清洗的操作,对经过筛选的数据进行处理,对存在缺失值的数据进行清除,以确保数据的一致性和准确性;
11、步骤104,利用获取到的股票数据构建特征标签;
12、基于股票数据的开盘价、最高价、收盘价、收盘价、交易量等信息,使用移动平均线和指数移动平均线构建用于训练框架的特征标签s={o,h,l,c,m30,m60,e90},其中o是开盘价,h是最高价,l是最低价,c是收盘价,m30是30天简单移动平均线,m60是60天简单移动平均线,e90是90天指数移动平均线;
14、步骤105,数据归一化及窗口化处理;
15、对特征标签使用minmaxscaler归一化方式对数据进行归一化,其中x表示股票特征数据,xmin表示股票特征数据中的最小值,xmax表示股票特征数据中的最大值,xnorm表示归一化后的股票特征数据;将特征标签归一化到(0~1)之间,以消除不同特征维度之间的量纲差异,提高数据的稳定性。同时为了便于发现股票历史数据之间的关联性,对数据进行窗口化处理,每个窗口包含当天及前60天的数据st={st-1,st-2,…,st-60}。其中st表示第t天的窗口数据,st-1、st-2、st-60表示第t-1,t-2,t-60天的股票特征数据;
16、步骤200,构建多维度特征提取器;
18、步骤201,使用卷积神经网络对特征数据进行提取;
20、步骤202,使用门控循环单元对特征数据进行提取;
22、步骤203,使用双向长短期记忆网络对特征数据进行提取;
25、
27、
29、步骤204,使用注意力机制对数据做进一步提取;
31、步骤205,特征数据融合;
33、步骤300,智能体执行交易;
34、步骤301,构建交易环境;
35、根据真实的交易场景,定义手续费考量机制,ftee=closet×dimension×0.1/100。其中free表示交易手续费,closet是t时刻的收盘价,dimension是交易尺寸。并对交易做持仓限制和空仓限制。持仓限制:若代理人当前持有某股票的数量已经达到预设的最大持仓限额,则禁止其继续买入该股票。这一限制旨在避免过度投资和重复交易,从而降低交易成本。空仓限制:若代理人当前未持有某股票,则禁止其执行卖出操作。这一限制确保了交易的合理性,防止了无货沽空的情况。
36、步骤302,设计动态止损机制;
37、为了确保智能体在追求最大化收益的同时能够有效控制潜在损失,使用自适应风险调整因子将动态止损机制与奖励函数相结合,以增强智能体的风险意识和资金保护能力。stopprice=basestop_price×(1+δ·atr),其中stopprice表示当前状态下动态止损的收盘价,basestop_price为设置的股票基本止损价格,δ为自适应风险调整因子,atr表示最近的平均波动范围。通过这种方法,智能体不仅能够优化收益,还能更有效地管理风险,保护其资本免受大幅波动的影响。
38、步骤303,设计奖励函数;
39、奖励函数由两部分组成:交易利润和动态止损奖励。交易利润部分反映了代理在每笔交易中的实际收益,鼓励其在市场中寻找和利用盈利机会。而动态止损奖励则根据市场波动和风险水平进行调整,旨在促使代理在控制潜在损失方面做出更明智的决策。这种双重奖励机制不仅能激励代理追求更高的利润,还能确保其在追求收益的过程中始终重视风险管理。从而确保在剧烈波动的股票市场中实现稳健、可持续的投资回报。奖励函数表示为r=p-c+b。其中,r是最终获得的回报,代表本次交易的综合表现;p是交易利润;c是交易成本,涵盖了一次交易所有的交易费用;b是基于代理风险管理表现的奖励项。
40、步骤304,构建多智能体交易模式;
41、基于duelingdqn的智能体利用其对偶网络结构中的价值流和优势流对股票市场动态进行双重分析。价值流专注于评估当前状态的整体价值,而优势流则衡量特定动作相对于其他可能选择的优势q(s,a)=v(s)+a(s,a),其中,s表示当前的状态,a表示当前状态s下的动作,v(s)为状态值函数,表示在状态s下的预期回报不考虑具体动作。a(s,a)为优势函数,表示在状态s下选择动作a相对于状态s下采取的平均动作的优势,q(s,a)为状态-动作值函数,表示在状态s选择动作a后的预期回报。这种双重分析方法使智能体能够更精准地评估市场状况和交易机会,从而为其决策提供坚实的基础。
43、与现有方法相比,本发明的有益效果为:
45、本发明通过多维度特征提取器对股票交易信息进行深层次挖掘,分析其中的关联性,有效的解决市场剧烈波动带来的噪声影响。同时通过设计实时奖励反馈机制和动态止损机制,能够根据实时反馈的交易信息在市场剧烈波动时动态调整策略,实现对剧烈震荡的市场高度的适应性,同时也能够有效的控制交易风险。利用多智能体交易机制能够显著降低了单一智能体决策失误的风险,并极大地提升了交易框架的整体效率和风险管理能力。