基于主题建模和分层隐变量模型的新闻推荐系统研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:bennkyoumusi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文基于新闻具有生命周期较短、访问记录稀疏、文本表示复杂的特点,构造了一个基于主题建模和分层隐变量模型的新闻推荐系统。此系统使用的推荐模型融合了基于内容的推荐算法和基于协同过滤的推荐算法,以混合的推荐算法为用户进行新闻推荐。此模型的构造主要包括了三个模块:新闻主题建模、新闻聚类、分层隐变量模型。此模型基于LDA算法对新闻进行主题建模,获取新闻的主题词分布和主题概率矩阵,基于新闻的主题概率矩阵,使用自组织神经网络对新闻进行聚类,自组织神经网络具有较好的可视化效果,可以有效确定新闻聚类的类别数。另外,此模型通过获取用户对新闻推荐系统的访问日志,构建用户对新闻的伪评分矩阵,将用户对新闻稀疏的评分矩阵分解成两个低维矩阵,然后使用用户的隐式特征、新闻主题特征和两个低维矩阵逼近原始评分矩阵。此模型与传统的隐变量模型中的矩阵分解区别在于,本模型将新闻主题特征和用户隐式特征线性融合到隐变量模型中,引入门限自回归思想,将一个线性融合的隐变量模型,分解成多个线性融合模型。并且,在模型中加入多样性正则化项,提高模型泛化能力。本文以均方根误差为评价指标,通过线下实验对比了文中构建的基于新闻主题建模和分层隐变量模型推荐算法,相对于其他矩阵分解、协同过滤推荐算法的性能。通过实验发现,本文构建的基于新闻主题特征的分层隐变量模型在厦大新闻网数据集上,相对于其他算法降低了 10%-20%的均方根误差。本文还详细介绍了新闻主题数选取、新闻聚类类别选取和隐变量模型参数选取的过程,寻找适用于厦大新闻网数据集的最优模型参数。
其他文献
装载机属具翻译属于科技翻译的一类,随着科技的全球化的深入发展,装载机属具翻译在科技交流中正在彰显其重要性。为了更好地科技交流,本文选择《装载机属具应用介绍》作为翻
目的:应用现代数据挖掘技术分析刘丽芳教授治疗肉芽肿性乳腺炎的用药规律。根据本次数据挖掘的结果,结合刘丽芳教授治疗肉芽肿性乳腺炎的文献及临床医案等,探讨刘丽芳教授对肉芽肿性乳腺炎病因病机及辨证论治的学术观点。总结中医药辨治肉芽肿性乳腺炎的临床经验,传承刘丽芳教授的学术思想。方法:本研究分为理论研究、回顾性分析2个部分。在理论研究上,阅读刘丽芳教授相关文献,认识和理解刘丽芳教授提出的肉芽肿性乳炎的治疗
燃料电池(Solid Oxide Fuel Cell,SOFC)能量转换效率高,所用燃料来源丰富且清洁无污染,具有广阔的应用前景。SOFC在工作时,电池内部温度的不均匀分布会影响电池性能与工作效
随着中国-东盟自贸区(CAFTA)发展的不断深入,各国在金融创新方面的合作不断加强。李克强总理提出打造CAFTA升级版的意见,进一步强调了CAFTA金融创新发展的意义。在这样的背景
随着互联网技术、社会信息化及计算机技术的不断蓬勃发展,信息流转得越来越快,企业信息化建设的是现代社会发展的整体趋势。某设计集团的主营业务为建筑设计项目,随着近年房
目的:控制感作为一个基本心理功能,对人类生存和健康具有重要意义。不仅可以增强人们的正性情感,还能够有效降低负性情感对个体的影响。近期研究证据发现,主动选择比被动选择
进入21世纪,我国的农业发展坚持走农业现代化道路,把科技力量作为农业发展的重要动力来提高农业的现代化水平。而农业技术的推广便是致力于把先进的农业科学技术应用于当代的
目前随着点源污染得到有效的治理,非点源污染成为造成环境污染的首要因素,是目前治理环境污染的关键。AnnAGNPS模型是众多非点源污染模型中应用最为广泛和成功的模型之一,是
目前,随着全球经济的发展,人口也在不断增加,能源短缺的问题日益严重,空调作为全球能耗中占比较大的部分,节能改造势在必行。另一方面,传统空调存在着一系列的问题,例如能效比较低、温湿度耦合处理带来的损失、送风噪音、吹风感等。基于以上问题,本文提出了一种基于金属毛细管网的冷剂式辐射空调系统,该系统采用创新的金属毛细管网作为空调末端设备,将金属毛细管网直接敷设于建筑物地面、墙面或顶棚内,实现空调末端与建筑
聚类技术在很多领域都得到了广泛的研究和应用。本文首先对聚类问题的相关研究背景进行了总结,对常用的聚类算法进行了一定的分析介绍。通过对基于划分的聚类算法入手,研究常