版权说明 操作指南
首页 > 成果 > 详情

重复利用状态值的竞争深度Q网络算法

认领
导出
Link by 中国知网学术期刊 Link by 万方学术期刊
反馈
分享
QQ微信 微博
成果类型:
期刊论文
论文标题(英文):
Dueling Deep Q Network Algorithm with State Value Reuse
作者:
张俊杰;张聪;赵涵捷
作者机构:
武汉轻工大学 数学与计算机学院,武汉 430023
语种:
中文
关键词:
状态值重利用;竞争深度Q学习网络;反距离加权法;超参数搜索
期刊:
计算机工程与应用
ISSN:
1002-8331
年:
2021
卷:
57
期:
04
页码:
134-140
基金类别:
国家自然科学基金面上项目(61272278); 湖北省重大科技专项资助项目(2018ABA099); 湖北省自然科学基金青年项目(2018CFB408); 武汉轻工大学引进(培养)人才科研启动项目(2019RZ02);
机构署名:
本校为第一机构
院系归属:
数学与计算机学院
摘要:
在使用反距离加权法(Inverse Distance Weighted method,IDW)对土壤重金属含量进行预测时,算法中的超参数一般由先验知识确定,一定程度上存在不确定性。针对这一问题,提出了一种状态值再利用的竞争深度Q学习网络算法以精确估计IDW的超参数。该算法在训练时,将每轮训练样本中的奖励值进行标准化后,与Dueling-DQN中Q网络的状态值结合形成新的总奖励值,然后将总奖励值输入到Q网络中进行学习,从而增强了状态与动作的内在联系,使算法更加稳定。最后使用该算法在IDW上进行超参数学习,并与几种常见强化学习算法进行对比实验。实验表明,提出的RSV-DuDQN算法可以使模型更快收敛,同时提升了模型的稳定性...
摘要(英文):
When using the Inverse Distance Weighted method(IDW)to predict the content of heavy metals in soil,the super parameters in the algorithm are generally determined by prior knowledge,and there is uncertainty to a certain extent.In order to solve this problem,a dueling deep Q-learning network algorithm for reusing state values is proposed to accurately estimate the hyper-parameters of IDW.In the training process,the reward value of each training sample is standardized and combined with the state value of Q network in Dueling-DQN to form a new total reward value,and then the total reward value is ...

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com