基于用户评论语义信息的推荐算法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:waiwai123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着第五代移动通信系统5G技术的快速发展,全球已经进入大数据时代,用户已经不能有效利用海量互联网数据信息,“信息过载”问题日渐严重,推荐系统的出现一定程度上缓解了信息过载问题。推荐系统有效利用用户各种行为信息为用户建模,个性化地过滤无效信息。评分预测一直都是推荐系统领域研究的核心问题,其通过用户已有历史评分预测用户未知评分。虽然基于矩阵分解的协同过滤方法简单有效,但是经常受限于新物品新用户进入系统产生的冷启动问题。因此,引入用户评论文本与评分矩阵一起建模已经成为提升推荐系统性能的重要方法。物品的评论由用户生成,其中包含着用户评分高低原因及对物品的建议,而评分和评论两者属于互补资源,联合训练能构建更加贴合用户偏好需求的用户模型,进行更加准确的个性化推荐。与此同时,深度神经网络凭借其强大的端到端特征抽取能力,克服了传统词袋模型忽视上下文语义关系的缺陷,从而更好地刻画用户偏好与物品特征,也为基于评论的物品推荐提供了新的研究方向。时至今日,面向评论文本的深度推荐系统已取得了诸多进展,并在很大程度上缓解了基于矩阵分解的协同过滤相关模型的不足,其中包括CDL、DeepCoNN、Trans Net、D-Attn、NARRE、Tar MF、CARP、CAML等深度模型基于自然语言处理相关技术对评论文本进行了充分的特征提取,更好地为用户建模,并最终取得了良好的推荐效果。然而,基于评论推荐系统研究还存在以下问题:(1)仅仅从推荐任务中难以推断出特定领域的情感词的深层次语义,并且没有关注用户的偏好及物品的属性的关键词;情感分析与推荐任务之间的关系并不清晰,且两个任务之间信息的共享方式也存在问题。(2)DeepCoNN在预测用户对目标物品的评分时,将目标评论直接应用于该物品。由于无法事先知道用户对该物品的评论,因此测试数据的构建是不合理的;大多数现有模型均未考虑用户和物品在不同方面的关注重点。针对上述问题,本文做出如下研究:首先,本文提出了“融合多任务学习与注意力机制的推荐模型”,引入情感分析辅助任务帮助推荐主任务,理清楚了两个任务的联系与区别。共享层通过局部注意力机制,从情感分析和推荐任务中学习可共享的用户偏好及物品属性表示,使得两类任务相辅相成共同发挥作用。私有层通过注意力池化可视化了两个任务对不同类型短语的关注侧重点不同,搞清楚了推荐任务与情感分析任务之间的区别。然后,本文提出了“基于门控卷积和方面级别注意力机制的评分预测模型”,该模型将用户-物品画像的建模划分为两个网络:目标网络和主网络。目标网络中的门控卷积单元使得目标评论特征的情感表达更加充分,主网络中的基于方面的注意力机制对用户感兴趣的具体方面也进行了监督,同时通过Trans网络使得主网络学习的评论表示与目标评论无限趋近,最终通过主网络进行预测评分。本文在Amazon不同领域的五个数据集及Yelp餐馆数据集上对模型有效性进行实验,结果显示模型在整体上超过了现有方法,验证了本文提出的两大基于评论的深度模型可以提高评分预测的准确性,继而提升推荐性能。
其他文献
物联网的飞速发展使其部署在边缘的各种终端设备数量迅速增长,通过终端设备收集与传输的数据量也在增加,而物联网终端设备在与平台进行数据传输的过程中,大多缺少适合于物联网环境的高效身份认证和加密通信机制,因为传统互联网中的很多经过人们长久检验的安全机制由于终端设备的计算能力限制等其他特性而并不适用于物联网设备。为了确保大规模部署在无人监管环境中的终端设备安全,本文对物联网环境下终端设备的安全入网方案、身
蛋白质赖氨酸乙酰化(Lysine acetylation,Kace)参与细胞的各种生理活动,与DNA修复和细胞信号传导等生物学过程密切相关,是最重要的翻译后修饰(Post-Translational Modifications,PTMs)类型之一。Kace在生物体中的动态调节,是保证各种生物功能正常进行的重要条件,而异常的Kace修饰将导致各种疾病的产生,如糖尿病、癌症和神经退行性疾病。因此,Ka
随着信息技术的飞速发展与互联网的普及,网络用户更加热衷于在互联网上发表自己的观点、态度,各类网络平台上积蓄着用户大量的评论文本信息,例如购物网站的商品评论、新闻网站的新闻评论、社交网站的社交评论等。这些评论文本信息中大都蕴含着互联网用户所发表内容的情感倾向,对互联网上这些带有情感色彩的评论文本进行整理分析,这对于各个行业都有重大效益。使用自然语言处理中的文本情感分析方法可以对这些带有情感色彩的评论
随着大数据成为国家基础性战略资源,许多企业和组织希望从海量数据中取得经济利益,并为用户提供便利。对于大多数企业和组织来说,他们没有处理海量数据的能力。因此,将数据挖掘任务外包给云计算服务机构有效地解决了这些企业和组织计算和存储容量不足、资源利用不足和资金投入等问题。但随之而来新的安全隐患,核心问题是数据所有者不希望自身敏感信息被别人知道。因此,隐私安全问题是海量数据挖掘技术应用的主要瓶颈之一。频繁
在大数据时代,海量多模态数据广泛存在,怎样通过模态数据间的互补学习来挖掘数据中隐藏的巨大价值,是现阶段大数据研究关注的主要问题。本文研究领域图像标题生成和视觉问题回答便是在寻找图像与文本这两种模态数据之间的桥梁。图像标题生成任务是让机器自动生成一个有意义的句子来准确描述该图像的内容,属于计算机视觉与自然语言处理的交叉领域。现有研究多通过卷积神经网络编码图像信息,循环神经网络解码生成文本信息,在此基
精神分裂症(Schoziphrenia,SC)是一种神经退行性疾病,患者在认知、记忆、情绪、运动感知等方面均有不同程度的障碍。SC患者的大脑信号异常,在结构和功能上发生的病变可能导致了其病理生理的失调。而目前,SC的诊断仍然主要依赖于患者的行为表现评分。由于对病因的认知不足,诊断方式相对单一等问题尚未解决,研究一种有助于诊断和治疗的生物标志有着重大意义。神经影像学的发展为研究精神疾病提供了更好的手
代码作者归属是识别给定代码作者的过程。随着越来越多的恶意软件和先进的变异技术出现,恶意软件的作者正在创造大量的恶意软件变种,寻找恶意代码作者身份的方法也随之成为热点。恶意代码中残留了显示作者风格的特征,这些信息可以帮助预测特定恶意软件的作者使用的工具和技术类型,以及恶意软件传播和发展的方式。代码作者归属技术可以用来识别和分类恶意软件的作者,选择较为明显的代码风格特征和更加高效的深度学习方法,对代码
计算机技术以及互联网技术在教育领域的持续发展受到了教育工作者及相关人员越来越多的关注,在线教育平台因其对时空界限的突破、对优质资源的整合等特征,自诞生以来就受到了各方关注。尤其是在2020年新冠疫情肆虐的背景下,在线学习更加被大众所熟知和使用。但与传统的教学形式相比,维持着庞杂信息的在线教育平台往往会因为缺少合适的维护而产生海量的信息碎片,在缺乏有效指导的情况下,学生的学习往往停留在较浅的层次,从
面对爆炸式增长的电子文本,人们所关心的是如何对这些数据信息进行智能化处理,并从这些文本中获取到用户真正关心的问题。在该背景下,信息抽取的概念被提了出来。事件抽取是信息抽取领域的一个子方向,同时也是该领域的一个研究重点和难点。传统的基于模式匹配的事件抽取方法需要手工的方式构建模式,这种方法耗费大量资源。基于特征的方法在提取特征的过程中会过度的依赖自然语言处理工具,这一过程也会耗费许多人力资源,而且还
造价管理是项目管理的重中之重,成功的造价管理能够给投资者带来最大的投资效益。准确的工程量作为计算工程造价的前提,是本文研究的重点。而BIM技术具有协调性、可视化、参数化等优点,同样可以为本文的研究提供技术支持。本文主要探讨了如何建立一种契合实际造价工作的标准化计量接口。尝试将建立标准化计量接口的问题转化为建立标准化计量模型的问题。提出将实际计量工作中所需的信息与基于IFC数据标准的BIM模型相关联