重复利用状态值的竞争深度Q网络算法

首页 > 成果 > 详情

认领

导出

Link by 中国知网学术期刊 Link by 万方学术期刊

反馈

作者信息关键词期刊信息基础信息归属信息摘要

成果类型：

期刊论文

论文标题(英文)：

Dueling Deep Q Network Algorithm with State Value Reuse

作者：

张俊杰;张聪;赵涵捷

作者机构：

武汉轻工大学数学与计算机学院,武汉 430023

语种：

中文

关键词：

状态值重利用;竞争深度Q学习网络;反距离加权法;超参数搜索

期刊：

计算机工程与应用

ISSN：

1002-8331

年：

2021

卷：

期：

页码：

134-140

DOI：

10.3778/j.issn.1002-8331.2007-0125

基金类别：

国家自然科学基金面上项目（61272278）；湖北省重大科技专项资助项目（2018ABA099）；湖北省自然科学基金青年项目（2018CFB408）；武汉轻工大学引进（培养）人才科研启动项目（2019RZ02）；

机构署名：

本校为第一机构

院系归属：

数学与计算机学院

摘要：

在使用反距离加权法（Inverse Distance Weighted method,IDW）对土壤重金属含量进行预测时,算法中的超参数一般由先验知识确定,一定程度上存在不确定性。针对这一问题,提出了一种状态值再利用的竞争深度Q学习网络算法以精确估计IDW的超参数。该算法在训练时,将每轮训练样本中的奖励值进行标准化后,与Dueling-DQN中Q网络的状态值结合形成新的总奖励值,然后将总奖励值输入到Q网络中进行学习,从而增强了状态与动作的内在联系,使算法更加稳定。最后使用该算法在IDW上进行超参数学习,并与几种常见强化学习算法进行对比实验。实验表明,提出的RSV-DuDQN算法可以使模型更快收敛,同时提升了模型的稳定性...

摘要(英文)：

When using the Inverse Distance Weighted method(IDW)to predict the content of heavy metals in soil,the super parameters in the algorithm are generally determined by prior knowledge,and there is uncertainty to a certain extent.In order to solve this problem,a dueling deep Q-learning network algorithm for reusing state values is proposed to accurately estimate the hyper-parameters of IDW.In the training process,the reward value of each training sample is standardized and combined with the state value of Q network in Dueling-DQN to form a new total reward value,and then the total reward value is ...

反馈

产权有误：本人成果被他人认领

数据有误：数据基本信息有误

归属有误：成果的院系归属、机构署名归属有误

其他原因：

验证码：

看不清楚，换一个

确定

取消

成果认领

标题：

用户	作者	通讯作者	--
	请选择	请选择	--

确定

取消

重复利用状态值的竞争深度Q网络算法

反馈

成果认领

提示

该栏目需要登录且有访问权限才可以访问