面向交互式推荐的深度强化学习推荐算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tx9yky76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着抖音等移动应用的广泛使用,交互式推荐系统受到了广泛关注。传统的推荐系统通常关注于预测用户在特定时间点的兴趣,通常是下一个时刻,而在交互式推荐中,系统不仅需要关注用户当前兴趣,还需捕捉用户由于当前推荐产生的兴趣变化,进行长远规划,增加用户使用时间,获得收益。因此传统推荐方法无法适用于交互式推荐场景,而强化学习依靠智能体与环境不断进行交互自主学习,符合交互式推荐形式。但强化学习应用于推荐系统存在着挑战:智能体对应于推荐系统,环境对应于真实用户,强化学习需要海量交互进行训练,使用真实用户是不切实际的;智能体依赖环境的奖励反馈进行策略调整,但用户的奖励函数是未知的;现有强化学习推荐算法使用的价值网络存在高估值偏差,影响推荐效果。为解决上述问题,本文提出基于离线用户环境的深度强化学习推荐算法(Offline User Environment Based Deep Reinforcement Learning,UEDR),构建一个离线用户环境进行用户行为仿真,利用循环神经网络从用户历史记录中学习用户行为的潜在分布,从而模拟用户行为,并将神经网络作为函数近似器学习用户的奖励函数,利用生成对抗网络的思想,使用户真实点击的项目的奖励尽可能大,用户未点击的项目的奖励尽可能小,从而进行离线用户环境的训练。同时设计一个演员-评论家架构的深度强化学习推荐算法,改进双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)完成模型的训练,使用孪生价值网络解决现有强化学习推荐算法中价值网络的高估值偏差,提高推荐性能。利用真实数据集Movie Lens 100k,建立离线用户环境作为强化学习环境,训练UEDR模型并完成相关对比试验。实验结果显示UEDR相较于对比算法有较好的推荐效果,进一步的消融实验表明离线用户环境和孪生价值网络均能有效提升推荐效果。
其他文献
随着互联网技术的不断进步和发展,生物特征在身份认证领域开始受到关注。相较于传统的身份认证方式,使用生物特征进行身份认证极其方便且难以被伪造。目前生物特征识别主要有生物特征和生物行为识别,其中手写签名作为一种生物行为特征,是每个人在长时间书写过程中训练出的单独的书写习惯的体现。对于同一用户,签名过程与形态稳定,而对于不同用户,其签名之间差异度较大,因此研究在线手写签名认证算法并实现一个签名实现系统具
学位
近几年,随着深度学习的快速发展,自然场景下的文本识别取得了极大的进展,如车牌识别。然而,自然场景中的票据文本(尤其是医疗票据)相比于其他文本存在文本密集、印刷错位等问题,因此票据文本识别一直是计算机视觉领域的研究难点。基于上述问题,本文提出了一套完整的医疗票据文本识别解决方案,本套方案主要包括文本检测和文本识别两部分。文本检测任务中,由于医疗票据文本密集且存在大量文本弯曲现象,本文采用以渐进式尺度
学位
随着信息技术的快速发展,隐私保护算法在很多领域已经得到了广泛的应用。隐私保护算法的效果需要依靠评估指标来评价,但已有的隐私保护数据发布平台缺少对算法评估的关注。因此,在现有平台中扩展隐私保护算法评估支持系统,能为专业用户的对比实验需求提供方便直接的帮助,给出不同算法在对比指标上的评估结果,节省用户的编码时间,提高算法对比评估的效率。在分析隐私保护算法评估支持系统整体需求的基础上,针对这些需求设计了
学位
随着移动互联网技术和个性化服务的发展,个人隐私泄露问题正逐渐成为大众关注的焦点。通过集成众多隐私保护算法,隐私数据发布平台能够在尽可能保证数据可用性的前提下,提高数据的安全性,让用户放心发布数据。而现有平台在算法及其依赖的管理、算法执行和任务调度方面略有不足,在一定程度上影响了核心功能的使用,因此有必要采用新的技术方案对平台中的相关部分进行重新设计与实现。提出了使用容器封装和隔离执行算法的方案,解
学位
随着企业需要存储的数据量不断增长,同时为了满足不同需求,各种新型数据库应运而生:如针对数据结构灵活的非关系型数据库(Not Only SQL,No SQL)等。这就要求测试工具能针对多种数据库性能测试。在数据库性能测试工具中,负载发生器模块的实现良好与否,决定了测试工具能否生成用户指定的负载。然而,目前已有的负载发生器实现还无法完全满足实际需求:如部分负载发生器的设计只针对于某一类型的数据库等。因
学位
巨细胞病毒(cytomegalovirus, CMV)感染在免疫功能严重缺陷的艾滋病(acquired immunodeficiency syndrome, AIDS)患者中相当普遍,可累及全身多个器官系统如眼部、肺部、消化系统以及神经系统等,表现为不同类型的巨细胞病毒病(cytomegalovirus disease, CMVD),播散性感染亦相当常见,具有高致残性和高致死性的特点.与免疫正常人
期刊
近年来,智能手机的普及使得基于位置的服务(Location-Based Services,LBS)得到极其广泛的应用。但是,由于可能存在不可信的位置服务商对用户数据的非法利用,用户如果在使用位置服务时连续发布不经保护的位置数据流,会对用户的社交关系隐私造成严重的威胁:利用两个用户发布的共同出行轨迹数据,容易分析二者之间是否存在社交关系。针对上述隐私泄露问题,首先,对于单个位置的扰动算法,在满足本地
学位
随着计算机网络的发展,应用信息是否安全与国家安全,个人隐私息息相关,操作系统为应用软件提供了运行环境,它的安全特性至关重要。检测安全特性是实现安全操作系统的重要环节,目前已有的检测工具检测点都是零碎的,而且绝大多数都是测试员手动执行,效率较低且容易出错。所以针对操作系统应用支持安全特性设计一个测试工具是很有必要的。针对现有国家安全标准中对应用支持的要求将测试项分为三大类:独立运行环境的检测,应用安
学位
图像拼接技术被广泛应用于地质勘测、遥感图像处理、计算机视觉、医学图像分析、虚拟现实等领域,随着无人机应用的发展,无人机航拍图像拼接技术成为研究热点。本文对无人机航拍视频图像拼接方法进行了深入研究,主要内容如下:(1)为获得高质量的视频关键帧,设计了无人机航拍关键帧提取算法。该方法首先通过KLT(Kanade-Lucas-Tomasi)算法以及无人机航拍的航带特征将原始无人机航拍视频分割成子视频;接
学位
计算机应用技术飞速发展,各个行业智能化科技化进程也在不断进行,多变的数据使用场景和日益增长的数据处理量让企业对数据库的要求也在增加。其中对数据库的在线事务处理(Online-Transaction-Process,OLTP)性能要求也是选择数据库的关键因素之一,因此,设计与实现一个能让用户根据他的业务需求来评价数据库系统的性能的测试工具就显得非常重要。TPC作为事务处理领域权威机构,其发布的TPC
学位