基于情节经验回放的深度确定性策略梯度方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户：giaobiao123

【摘要】

：

强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法。首

【作者】

：

张建行刘全

【机构】

：

苏州大学计算机科学与技术学院,苏州大学江苏省计算机信息处理技术重点实验室,吉林大学符号计算与知识工程教育部重点实验室,软件新技术与产业化协同创新中心

【出处】

：

计算机科学

【发表日期】

：

2021年10期

【关键词】

：

深度确定性策略梯度连续控制任务经验回放累积回报分类经验回放

【基金项目】

：

国家自然科学基金(61772355,61702055,61502323,61502329),江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004),吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18),苏州市应用基础研究计划工业部分(SYG201422),江苏省高校优势学科建设工程资助项目。

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于注意力机制和深度卷积神经网络的材质识别方法

材质识别旨在识别自然材质图像中的主要对象及其所属材料类别。针对材质图像数据集通常数据量少、人工标注局部纹理区域困难所导致的材质识别准确率低的问题,提出了一种基于注意力机制和深度卷积神经网络的材质识别方法,该方法的核心是材质识别深度卷积神经网络(MaterialNet)。MaterialNet利用深度残差网络对图像进行特征提取,采用所提出的级联空洞空间金字塔池化的方式引入注意力机制,使网络可以通过端

期刊

注意力机制深度卷积神经网络空洞卷积空间金字塔池化

对象关系数据库到RDF(S)的映射方法

随着智能信息技术的发展,知识图谱已被广泛应用于智能搜索等各个领域。知识图谱中的信息一般采取RDF(S)的数据模型来表示。知识图谱的构建需要从大量的数据源抽取信息,而数据库是不可忽视的重要数据源。近几年,对象关系数据库得到了广泛的应用,且其中存储着丰富的语义信息,而基于对象关系数据库自动构建RDF(S)的研究却较少。因此,文中给出了对象关系数据库与RDF(S)的形式化定义,根据形式化定义将对象关系数据库中的语义信息进行抽取,提出了构建RDF(S)数据的映射规则。该映射规则不仅考虑了数据库的面向对象的语义,还

期刊

对象关系数据库RDF(S)知识抽取POSTGRESQL

结合多目标优化算法的模糊聚类有效性指标及应用

模糊聚类方法可以更有效地对复杂数据集进行分析,由于模糊聚类算法的种类繁多且聚类结果会随着输入的聚类个数的不同而改变,使得模糊聚类算法产生的结果不准确,因此,要获得准确的聚类结果必须确定模糊聚类个数k。目前已有的研究主要是利用多种模糊聚类有效性指标来确定最优聚类个数k,但是诸如SSD,PBM等模糊聚类指标会随着划分的聚类个数k的增加而单调递减,导致聚类个数k不准确。为此,文中提出了一种结合多目标优化算法的模糊聚类有效性指标(A Validity Index of Fuzzy Clustering Combi

期刊

聚类有效性指标模糊聚类多目标优化算法模糊聚类个数k

融合BERT和记忆网络的实体识别

实体识别是信息提取的子任务,传统实体识别模型针对人员、组织、位置名称等类型的实体进行识别,而在现实世界中必须考虑更多类别的实体,需要细粒度的实体识别。同时,BiGRU等传统实体识别模型无法充分利用更大范围内的全局特征。文中提出了一种基于命名记忆网络和BERT的实体识别模型,记忆网络模块能够记忆更大范围的特征,BERT语言预训练模型能进行更好的语义表示。对水泥熟料生产语料数据进行实体识别,实验结果表明,所提方法能够识别实体且较其他传统模型更具优势。为了进一步验证所提模型的性能,在CLUENER2020数据集

期刊

实体识别BERT记忆网络BiGRU-CRF

KSN:一种基于知识图谱和相似度网络的Web服务发现模型

服务发现旨在解决服务信息爆炸的问题,找到定位满足服务请求者需求的服务。由于服务描述信息主要由带有噪声的短文本组成,并且具有语义稀疏的特征,因此很难提取服务描述文档的隐含上下文信息,此外,传统的服务发现方法在获取服务的特征表示后,直接进行相似度计算,其使用的度量函数是不符合人类感知的。针对上述两个问题,文中提出了一种基于知识图谱和神经相似网络的服务发现框架(KSN)。它使用知识图谱来连接服务描述和规格中的实体以获得丰富的外部信息,从而增强服务描述的语义信息,使用卷积神经网络(Convolutional Ne

期刊

WEB服务发现服务嵌入卷积神经网络知识图谱神经相似网络

基于编码-解码器架构的光场深度估计方法

针对现有光场深度估计方法存在的计算时间长和精度低的问题,提出了一种融合光场结构特征的基于编码-解码器架构的光场深度估计方法。该方法基于卷积神经网络,采用端到端的方式进行计算,一次输入光场图像就可获得场景视差信息,计算量远低于传统方法,大大缩短了计算时间。为提高计算精确度,网络模型以光场图像的多方向极平面图堆叠体(Epipolar Plane Image Volume, EPI-volume)为输入

期刊

光场深度估计极平面图编码-解码器结构上下文信息

用于视频修复的连贯语义时空注意力网络

现有的视频修复方法通常会产生纹理模糊、结构扭曲的内容以及伪影,而将基于图像的修复模型直接应用于视频修复会导致时间上的不一致。从时间角度出发,提出了一种新的用于视频修复的连贯语义时空注意力(Coherent Semantic Spatial-Temporal Attention, CSSTA)网络,通过注意力层,使得模型关注于目标帧被遮挡而相邻帧可见的信息,以获取可见的内容来填充目标帧的孔区域(ho

期刊

视频修复图像修复时空注意力特征损失VGGLoss

基于堆叠自动编码器的miRNA-疾病关联预测方法

作为一类小的非编码RNA,miRNA的异常调控与人类疾病的发生和发展密切相关,研究miRNA与疾病的关联对于了解人类疾病致病机制具有重要意义。机器学习方法被广泛应用于miRNA-疾病关联预测,然而现有方法仅仅考虑了miRNA与疾病相似性网络信息,忽略了相似性网络的拓扑结构。因此,文中提出基于堆叠自动编码器的miRNA-疾病关联预测模型SAEMDA,该模型采用重启随机游走获取miRNA与疾病相似性网络的拓扑结构特征,用堆叠自动编码器提取miRNA与疾病的抽象低维特征,将得到的低维特征输入深度神经网络进行mi

期刊

miRNA-疾病关联相似性网络拓扑结构重启随机游走堆叠自动编码器

关系型数据库向图数据库的转换方法

由于关系型数据库和图数据库存储模式的天然差别,将关系型数据库中的数据转存到图数据库的过程中,需解决对于关系的定义、节点唯一性以及保留原数据库约束信息的主要问题。针对上述问题,提出了一种关系型数据库向图数据库转换的方法。首先通过自定义或使用已有主键,并结合数据库表名的唯一性,解决了节点唯一性的问题;通过不同的配置方案,最大化保留了原关系型数据库的约束信息;然后提出了基于配置与中间表的边定义方法(Edge Definition Method based on Configuration and Interme

期刊

图数据库关系型数据库跨库数据交换HugegraphGREMLIN

基于YOLO v5算法的迷彩伪装目标检测技术研究

迷彩伪装目标与周围环境高度相似,对迷彩伪装目标的检测任务比普通的检测任务更具挑战性,常规的检测算法对迷彩伪装目标检测任务不完全适用。文中对现有方法进行分析,以YOLO v5算法为基础,提出了一种针对迷彩伪装目标的检测算法。该算法结合注意力机制设计了新的特征提取网络,突出了迷彩伪装目标的特征信息;并且对原有的聚合网络进行了改进,增大了检测的尺度,使用非对称卷积模块强化了目标语义信息。在一种公开的迷彩

期刊

迷彩伪装目标目标检测注意力机制YOLO聚合网络

基于情节经验回放的深度确定性策略梯度方法

与本文相关的学术论文