基于主题模型的用户兴趣挖掘及上下文感知推荐系统算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:qxy489354518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展使得数字信息资源开始呈现几何倍数的增长,反映在智能电视领域,则表现为每日海量视频数据的产生,用户互动行为的多样性,及随之而来的用户行为数量激增。随着国家"三网融合"等战略的推进,与智能电视用户需求的不断扩大,如何处理并有效利用大规模数据已经成为该领域一个亟待解决的难题。由于大数据、搜索引擎、个性化推荐技术的蓬勃发展,这一问题已经受到重视,并逐渐衍生出一些解决方案。目前,个性化推荐系统已经得到了广泛的研究和应用,它能够帮助用户更好的挖掘自身兴趣,协助建立系统的用户画像,有助于维持用户对内容的关注程度,避免相关业务的用户流失。目前推荐系统主要的计算方法分为基于模型的构建和基于邻域的构建。基于模型构建的推荐系统能够准确地表达用户兴趣,在推荐效果上有突出表现,而基于邻域的构建相对来说更加简单易行,且具有良好的可解释性。如何能够有效地结合两种模型的长处共同构建推荐系统模型,是本文的一个研究重点。另外,在针对电视推荐系统的业务逻辑中,由于电视是共享终端,在不同时间上下文情况下表现出的用户兴趣会有较大差异,如何合理引入时间上下文相关概念建模以提升推荐效果,也是本文关注的重点。所以,在本文的研究工作中,我们首先提出一种基于短文本LDA主题模型的推荐算法。该算法是基于模型的推荐挖掘,将文本挖掘领域的潜语义模型应用到推荐系统中,用以准确构建用户的主题兴趣。该算法针对视频推荐系统中用户观看过的视频通常较少这一数据稀疏性问题,做了特殊处理,将原本LDA算法中对视频项进行建模,转变为直接对视频共现对进行建模并采样计算。这一处理极大地解决数据稀疏性问题,并能够有效地提升用户兴趣挖掘的准确度。故我们引入短文本的LDA主题模型,并将用户观看记录转化为低维空间中的两个矩阵,即用户兴趣矩阵(用户-主题),和视频从属度矩阵(主题-视频)。在准确获取到用户兴趣的基础上,为了解决电视共享终端的推荐问题,我们引入时间上下文信息并构建基于用户兴趣的协同过滤推荐算法。该算法首先是一个基于邻域的推荐算法,对具有类似兴趣的用户相互推荐视频,在构建用户兴趣的时候引入前过滤的上下文感知推荐策略,在构建视频共现对这一处理过程中,加入上下文环境约束,只对处于同一个时间上下文环境中的视频集合中的元素构建视频对。这一前过滤策略有效地引入时间上下文信息,能够有效区分不同时间段上的用户兴趣情况,避免将不相关的视频构建成为同一个视频共现对。另外,在召回推荐列表并最终排序的时候,再次引入后过滤的上下文感知推荐策略,为每一个视频在当下环境中是否值得被推荐进行加权,加权的依据则是该用户在当前上下文中的兴趣主题分布。该后过滤方法能够在用户兴趣的基础上针对请求推荐列表的时间上下文做进一步筛选,能够极大提高推荐效果。为了实验验证模型的推荐效果,我们使用国内知名电视推荐平台,海信电视云平台的真实数据集,提供多种对比推荐算法,并在多样的数据评测指标上进行评估。我们的方法在该数据集上取得了较高的召回率及MAP、MRR等指标,明显优于其他传统推荐算法及上下文推荐算法,进而证明了本文方法的有效性。
其他文献
<正>在现代教育理念下,绘本的阅读与教育越来越受到家长和幼儿园的重视。《3-6岁儿童学习与发展指南》语言领域中指出"应为幼儿提供丰富、适宜的低幼读物,经常和幼儿一起看图
<正>一、信息安全概况随着信息技术的飞速发展,金融机构生产、使用和共享的信息呈现几何增长的态势,信息传递的方式和渠道急剧增加,在为金融机构带来收益和效率的同时,也使信
改革开放以来,特别是随着我国社会主义市场经济的繁荣和发展,我国在区域经济发展上逐渐摸索出适合我国国情的特有发展之路。我国作为农业大国,大力实施农村区域经济的协调发
新工科建设的提出是对国家战略发展新需求、产业转型升级新趋势、国际竞争新形势以及立德树人新要求做出的积极回应。新工科建设的内涵应从深化教育教学改革、提高工程人才培
构建有效的教育游戏设计模型是当前亟待研究的课题。在国内外心流理论和教育游戏设计相关成果的基础上,使用基于设计的研究方法,构建了基于心流理论的教育游戏设计框架。继而
运用数据包络分析(DEA)方法,建立协同发展效度评价模型,基于2006—2015年中西部地区20个省区的相关数据,对中西部地区铁路与公路物流协同发展水平展开实证分析。研究结果表明
目的:评价幽门螺杆菌粪便抗原(HpSA)检测诊断幽门螺杆菌感染的特异性和敏感性。方法:采用酶联免疫分析法检测150例反复腹痛或伴有恶心、呕吐等上消化道症状患儿的幽门螺杆菌
以Kees Hengeveld为代表的功能主义学派提出了一套以句法功能为基础的词类理论,在此基础上,本文以汉语和维吾尔语形容词不同的分类为切入点,对两种语言形容词的柔性特征进行
次贷危机后,美国选择量化宽松货币政策调控经济。运用结构向量自回归模型分析美国量化宽松货币政策通过贸易渠道和货币渠道传导对中国经济造成的影响,结果表明:美国量化宽松
本文通过对审计跨学科研究的必要性分析,即审计跨学科研究既是经济发展的迫切需要,也是现代审计发展的必然选择,进而提出审计跨学科研究建议。