基于多智能体深度强化学习的云服务提供商定价策略研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:qiaoqiao06242005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算作为一种高效的计算模式受到了人们广泛的关注,使得云计算市场飞速发展。广阔的市场前景吸引了各大互联网巨头纷纷布局其云计算业务,希望在激烈的竞争环境中脱颖而出,从而形成了一个具有多方博弈的云计算市场。在这样一个云市场中,当不同云服务提供商提供相似的云服务时,云服务的价格则会对云用户选择不同云服务提供商的结果产生重要影响。现有云市场交易模式大致归为两类,分别是商品市场模式和拍卖市场模式,本文将分别基于这两种交易模式考虑云服务提供商如何制定云服务价格,能够在满足云用户需求的同时最大化长期利润。在本文中,云服务提供商之间互相竞争,可以看作是一种非合作博弈,且每个云服务提供商的云服务价格和云用户的行为(选择行为和投标行为)之间互相影响,因此这是一个涉及多个云服务提供商的序贯决策问题(即马尔可夫博弈),同时云服务提供商并不能获取到云市场环境中的所有状态信息(各个云服务提供商会对一些敏感信息保密,避免使其竞争对手获悉),因此这是一个部分可观测马尔可夫博弈问题。因此本文基于部分可观测马尔可夫博弈,使用多智能体深度强化学习算法和虚拟自博弈的训练方式得到最终的定价策略。本文主要研究工作如下:
  (1)从云用户和云服务提供商两个层面对云市场进行建模。在现实中,云用户的需求通常是随机的,因此,本文考虑了用户需求的动态变化,给出了用户效用的计算方法和云用户对云服务提供商的选择模型。特别在拍卖市场模式下的云市场模型中,本文提出了一种基于反馈控制机制的投标算法来描述云用户的投标行为。对于云服务提供商,本文给出了刻画规模经济对云服务提供商成本影响的边际成本模型和计算云服务提供商在每个阶段收益的收益模型。
  (2)在商品市场交易模式下,将云服务提供商如何定价从而最大化长期利润的问题构建为部分可观测马尔可夫博弈,并借助多智能体深度强化学习算法和虚拟自博弈的训练方式得到定价策略。之后将其与四种典型定价策略进行对比。在对比结果中,发现本文的定价策略不仅学习到了云用户的预期效用(即云用户能够接收的最高云服务价格)和云用户对于云服务价格差的敏感程度,也学到了对于竞争对手行为的最佳应对。尤其是与M-MADDPG生成的定价策略(一种对本文定价策略进行针对性训练的定价策略)的对比结果,更显示出本文定价策略的有效性,因为该结果体现出本文定价策略不会因对手恶意针对而失效。
  (3)在拍卖市场交易模式下,通过将云服务提供商如何定价能够最大化长期利润的问题进行适当转化后,构建为部分可观测马尔可夫博弈,同样采用多智能体深度强化学习算法和虚拟自博弈的训练方式得到定价策略。之后与五种典型定价策略进行对比。结果表明,本文的定价策略在整体利润方面优于其他策略,且本文的定价策略对不同的价格区间具有较高的敏感性,能够适应极端竞争环境。此外,本文同样与M-MADDPG生成的定价策略进行了对比,结果表明本文的定价策略同样可以击败对手。本文还将其与垄断云市场中的定价策略进行了比较,发现本文的定价策略依然能够及时调整价格,使自己在竞争中处于优势地位,从而击败对手。
  如何有效地定价从而最大化利润是云服务提供商面临的一个重要问题,尤其是在多个云服务提供商相互竞争的环境中。本文将其构建为部分可观测马尔可夫博弈,借助多智能体深度强化学习算法和虚拟自博弈的方式对这一问题进行求解。通过大量实验验证了本文定价策略的有效性,为真实云市场内互相竞争的云服务提供商制定定价策略提供一些借鉴。
其他文献
In recent years, image recognition has become important in computer vision and image processing.Additionally, it is used in many fields such as driverless vehicles, healthcare, face recognition, searc
随着互联网时代的到来,社交网络已得到了极大的普及,用户通过社交网络可享受各类社交服务,如豆瓣为用户提供图书、电影、音乐分享服务,知乎提供问答服务,微博提供自媒体广播服务,用户为满足不同的服务需求,往往不会局限于单一社交网络中,而是参与到多个社交网络活动之中。因此,跨社交网络用户识别问题逐渐引起了学者的关注,跨社交网络用户识别将有效集成分散于各个网络中的用户资源,大大提高用户推荐、广告投放、用户组形
室内定位技术泛指在卫星信号无法穿透的环境提供位置信息的技术,它广泛应用于矿山、隧道、楼宇、厂房等环境,为智能感知、人员安全监管、仓储物流系统等应用提供基础位置信息。它在物联网(Internet of Things,IoT)、无线传感器网络(Wireless Sensor Networks,WSN)、信息物理系统(Cyber-Physical Systems,CPS)中都扮演着非常重要的角色。基于卫
学位
战略侦查、电子对抗、军事打击、精细农业、空中遥感和快递等诸多应用一直刺激着无人机军用与民用市场的增长。MarketsandMarketsTM预计2025年无人机全球销量从2019年约193亿美元将增长到458亿美元,其中军用无人机市场将达268亿美元。由于无人机在机上无人类操作员,导航或调整飞行姿态完全依赖于卫星信号、控制数据和机载传感器数据的实时有效传输。因此,在无人机市场快速增长的同时,其通信
2016年,国务院安委会下发《金属非金属地下矿山采空区事故隐患治理工作方案》,明确指出地下矿山开采安全管理工作的重要性。通过物联网(IoT,Internet of Things)技术在矿山部署传感器,可以实现数据的识别、定位、监管等功能,因此,基于物联网技术进行矿山安全施工监测具有重要意义。鉴于矿井下应急救援的需求,在矿井塌陷的情况下,无法采用常规的供电方式,因此现有的技术方案大多数是基于IEEE
学位
当今,数据处理的应用飞速增长,数据管理技术尤其是关系型数据库管理系统(DataBase Management Systems)被广泛应用在各个行业,例如大到航天飞行器的数据系统,小到百姓日常的购物消费系统等都和数据库息息相关。随着日益快速发展的互联网技术,尤其是伴随着未来5G市场的爆发以及万物互联的设备持续增多,数据库管理系统必将持续成为当前以及未来的研究热点。最近十多年计算机硬件的性能发生了质的
学位
数据中心网络作为现代分布式计算的基础架构,决定了分布式应用的通信性能。随着大数据技术的快速发展和云计算基础设施的不断成熟,数据中心承载了越来越多的分布式计算任务,其底层网络的设计也面临着严峻的挑战。为了保证性能和可靠性,现代数据中心网络通常采用专用的结构化多径拓扑。具体地,以Fat-tree为代表的多径网络已成为大规模数据中心网络设计的首选方案。但是多路径网络由于其路由方式的不同,使得传统路由算法
在现实世界中,实体连同关联关系构成了一种网络关系结构即信息网络。这里的实体可以是商品、文章、会议、人、图片、电影或者导演等个体,关联关系可以是购买、发表、观看、出演或者指导等关联。链路预测是指通过已知的网络节点以及网络结构等信息来预测网络中尚未产生连边的两个节点之间产生链路或产生某种符号链路的可能性。这些被预测出的链路可以是实际存在但未被观察到的链路,也可以是未来可能会出现的链路。链路预测已经成为
学位
软件定义网络(software defined networks,SDNs)是一种由多种网络技术组成的新型网络结构,由底层的数据平面、中间层的控制平面以及最上层的应用平面组成,具有灵活敏捷的特点,能够自动优化网络资源的利用,尤其适用于网络中流量需求不断变化的应用。软件定义网络与传统网络不同之处在于SDN将网络设备的控制平面与数据平面相分离,因此根据实时动态的网络需求,用户可以通过简单的编程操作对整
网络上的图像数据规模愈发庞大,伴随而来的有关图像的需求如存储、传输、识别等,也面临着更大的挑战,对图像识别和图像表示的研究已经成为应对新挑战的亟需攻克的关键点。目前,图像识别中利用结构特征、纹理特征、子空间、机器学习等方法与图像表示中线性类方法如矩阵分解、稀疏编码、线性判别分析和非线性类方法如核学习、流形学习、机器学习等,都存在需要经过复杂的运算分析、过程抽象、优化困难、对训练数据要求较高的问题。
学位