多智能体同时到达多目标点的协同强化学习算法

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:puhongjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对动态未知环境下多智能体多目标协同问题,为实现在动态未知环境下多个智能体能够同时到达所有目标点,设计函数式奖励函数,对强化学习算法进行改进。智能体与环境交互,不断重复"探索-学习-决策"过程,在与环境的交互中积累经验并优化策略,在未预先分配目标点的情况下,智能体通过协同决策,能够避开环境中的静态障碍物和动态障碍物,同时到达所有目标点。仿真结果表明,该算法相比现有多智能体协同方法的学习速度平均提高约42.86%,同时智能体能够获得更多的奖励,可以做到自主决策自主分配目标,并且实现同时到达所有目标点的目标。
其他文献
针对智能电网用电数据存储系统中用电数据的安全问题,结合区块链共识机制、加密机制、对等网络和云存储技术,提出一种基于区块链的用电数据云存储方案,以确保用电数据的安全存储和共享。通过实用拜占庭协议,实现网络节点的共识,访问控制机制实现用电数据信息的共享,区块链存储用电数据的公共信息,并将用电数据的真实数据加密存储在数据库或云存储中,方便有效地实现敏感用户用电数据的存储和系统间的信息共享。在联盟链的环境
银行间债券市场作为金融市场重要组成部分,发挥着传导货币政策、提升资本流动性的作用。对市场异常交易行为的检测是保障银行间债券市场健康平稳运行、提升防范金融风险水平的有效手段。因此,提出一种基于网络嵌入和深度学习的异常交易行为检测方法,能有效检测出规则未知的异常交易行为。该方法结合交易网络的特点,采用一种面向时序属性网络的嵌入表示方法,并使用LSTM模型来检测异常交易行为。实验结果显示该模型F1指标值
传统网络舆情演化研究中,网络结构平均聚类系数较小,平均路径长度较大,且个体之间的相对权威性相等。针对这种情况,提出一种基于个体相对权威性的改进HK(Hegsekmann-Krause)模型来对个体间的权威性进行量化,同时构建更符合实际社交网络性质的网络拓扑结构。实验结果表明:该模型随着有限信任阈值增大,演化后的最终观点数量减少;随着平均节点度增大,观点以更快的速度趋于一致;该模型能够有效提高网络平
YOLO算法对小目标检测的精度不佳,且狗脸存在部分遮挡及肤色与背景颜色较为相似等问题,识别难度较大。为此在YOLOv3框架基础上,利用深度残差网络在特征提取方面的优势改进YOLOv3的网络,提出基于YOLO和深度残差混合网络的狗脸识别方法(YOLO-resnet)。实验结果表明,YOLO-resnet在ImageNet数据集上的检测准确率高达99.2%,明显高于其他深度学习目标检测算法,特别在小目
为了提高IR46智能电表软件白盒测试的效率,提出一种新的基路径集生成方法。对程序进行分析识别,得到节点连接关系、语句类型等信息;对常用程序结构进行错误源分析,并给出错误倾向权重用以表示该路径在测试中的重要性;优化二进制蝙蝠算法,并将其用于基路径集搜索。算例仿真表明:优化二进制蝙蝠算法有更好的路径生成效率,该方法能够估量程序的错误倾向并产生带优先级的基路径集,有助于促进智能电表软件测试的精细化和高效
鉴于传统方法在赌博网站检测上时效性低、准确度低,提出基于PAM概率主题模型的赌博网站检测方法。抽取网站及其关联网页的文本内容,并参考网站的结构化信息给不同的文本内容赋予不同的权重;利用PAM模型对网页文本信息进行主题挖掘,分析其是否大概率倾向于"赌博"主题;综合计算所抽取的各个网页的主题信息,判断该网站是否属于赌博网站,从而实现对赌博网站的有效检测。通过实验分析,该方法在赌博网站检测上的准确度达到
共享单车系统中不同站点在不同时期内的单车需求分布非常不平衡,对共享单车系统的服务质量产生了不良影响,对此提出一种分层预测模型来预测每个站点群的每小时单车租还需求量。提出一种基于超级站点的聚类算法,将单车站点分配到每个集群当中;提出一种基于时间与天气相似度的模型来预测整个共享单车系统中的需求;训练极致梯度提升树(XGBoost)模型来预测每个站点群的需求,并得到每个站点群在整个系统中所占的比例。通过
实时、精确地确定列车在轨道路径上的位置是保障行驶安全、提升运输效率、提供最佳服务的前提。为了解决传统绝对定位技术存在的一些不足,提出一种基于改进YOLOv3的轨道定位点检测方法。根据定位点目标大小,调整网络输入尺寸及其特征提取网络Darknet-53的结构;由于定位点样本数量稀缺,故采用旋转、增噪等手段进行样本扩充,并使用K-means算法对自制的训练集聚类分析;依据官方网络参数说明及实际图片特征
对于模型到模型(shape-to-shape)的识别,已有的多视图方法由于存在信息缺失问题,使得其作为2D卷积神经网络的前端会导致错误的学习,并且使用SVM作为后端会保留这些错误信息,从而增大分类工作的困难。通过改进多视图的投影方法和三维模型分类的方法提高分类精度和效率。使用倾斜式的角度可以最大程度捕捉信息,增大模型与模型之间的特征差异,而模型库分类方法通过建立一个模型库,去除前端学习的错误信息。
当前消化道胶囊内镜图像识别算法存在两个局限,一是要对有差别的病灶设计具体的特征检测算法;二是通过深度学习开展迁移学习时,原训练数据与胶囊内镜图像存在较大差异。因此,提出一种小型通用的基于神经网络与特征融合的胶囊内镜图像识别模型。对图像分离G通道、Log变换和直方图均衡化预处理;采用三个相同卷积神经网络分别对三种预处理后的图像提取特征;采用Bagging算法进行特征融合与识别。对Kvasir数据集的