基于二值化网络的推荐系统的研究

来源 :昆明理工大学 | 被引量 : 1次 | 上传用户:q396782458
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
迅猛发展的互联网资源致使用户可随意获取海量的媒体、文档信息以及服务等,与此同时,资源的快速增长也导致了资源过载的问题。用户在拥有着庞大信息数据资源的同时,却也深陷于难以发现真正感兴趣的内容的窘境。在这种情况下,由信息过滤演变成的推荐系统就显得尤为重要,它可以帮助人们发现感兴趣的项目,例如电影,书,新闻,图片或者网页等。然而,随着人们需求的逐渐增长,用户越来越依赖对其独特偏好进行个性化定制的推荐系统。诸如此类的推荐系统通常都需要记录和分析计算大量的用户行为数据,然而随着用户数量逐渐增大,需要记录的行为数据越来越多,传统的推荐算法不仅在物理存储上承受着巨大压力,无法实时高效地处理数据量较大的数据集等问题,且在用户信息较为稀疏的数据集下表现欠佳。近期,研究人员发现仅仅基于谁评价了什么来记录用户行为的二值化推荐系统,而非基于实际评分的推荐系统能不仅能在一定程度上缓解存储压力,还能得到更准确的推荐结果并且具有更强的鲁棒性,因此研究并实现一个基于二值化的推荐系统具有重大意义。本文深入研究并分析了当前推荐系统的现状,对推荐系统的概念、原理、目前主流的推荐算法以及常用的评价指标做了深入的了解,归纳了各个推荐算法所适用的领域,并比较了它们的优缺点。在此基础上,为了提高推荐系统的实时性并解决冷启动问题,本文做了如下几个工作:第一,针对现有的推荐系统实时性不高的问题,本文引入了二值化推荐模型(BCNN)来提高推荐的效率。通过将输入推荐系统的矩阵数据二值化来简化卷积神经网络中的卷积操作,可将卷积中的乘法操作转化为异或操作,节省了大量计算时间,从而提高了模型的推荐效率。本文将BCNN推荐模型在公开的Movielens数据集上训练并与基于支持向量机(SVM)、基于逻辑回归(LR)的推荐模型进行实验对比分析,实验结果表明BCNN在保证一定推荐精度的情况下,推荐模型在效率上有着明显的优势。第二,推荐系统通常在用户行为数据较为稀疏的数据集上表现较差,这种情况称为推荐系统的冷启动问题。为了解决这个问题,本文结合用户的偏好信息来提高推荐质量,在BCNN推荐模型的基础上,引入了 RBF径向基网络构建亲属关系群组得到融合RBF的二值化网络推荐模型(RBFCNN)来实现该项操作。该模型的主要思想是通过收集和分析用户的行为数据预测出用户偏好信息,利用RBF网络将有相似偏好的用户进行聚类操作,最终生成用户可信任的亲属关系群组,让推荐在群组内进行。本文通过实验验证了 RBFCNN模型的推荐效果,并与基于BCNN、SVM以及LR的推荐模型进行实验对比分析。最终实验结果表明RBFCNN模型不仅保证了实时性,并在一定程度上也解决了推荐系统的冷启动问题,且在稀疏程度不同的数据集下推荐效果都较为良好且稳定。
其他文献
近年来,国内外研究人员对大量的宇宙学观测数据的分析表明,宇宙处在一个加速膨胀的时期。传统宇宙学所提出的宇宙进行减速膨胀的理论逐渐被国内外学者所摒弃。暴胀理论很好的解释了早期宇宙加速膨胀的问题,而且对于标准模型所导致的三个疑难:平性问题,视界问题和磁单极子问题,提供了很好的解释。而且,除了解决了最初的经典问题之外,暴胀理论还预言了宇宙微波背景辐射和大尺度结构中的一些性质。暴胀理论表明,在辐射主导时期
本文是中国小绿叶蝉族Empoascini长柄叶蝉属群Alebroides group昆虫的分类研究论文。文中概述了该属群国内、外分类研究历史及现状;详细介绍了该属群的分类特征以及各特征在
频繁模式挖掘的目的是从数据集中挖掘出有价值的模式,为利益相关方提供决策依据,其中在不确定数据集中的频繁模式挖掘是目前研究的热点。近些年,随着数据量的剧增,单机计算环
我国刑事立法中对共犯并未进行明确区分,采用的是单一制的立法模式,但不论是司法实践中量刑的区别对待,还是关于共同犯罪的主流学术观点,均认为区分制的共犯模式更有利于对各
喻家坪滑坡位于攀枝花市仁和区金江镇喻家坪村,滑坡后部为攀枝花保安营机场。滑坡造成机场跑道严重破坏而被迫停航,在此之后滑坡体在每年雨季雨水作用下都要向前蠕滑,严重威
震旦鸦雀(Paradoxornis heudei)为中等体型的雀形目鸟类,是全球近危物种,被世界保护联盟列入国际鸟类红皮书。一般认为,震旦鸦雀分为两个亚种:指名亚种(P.h.heudei)和黑龙江
创新是新创企业创建和保持竞争优势的关键因素。在创新实践中,技术逻辑导向对新创企业创新行为和绩效的影响毋庸置疑。采取技术逻辑导向战略的企业会在主动学习新知识的基础
随着网络技术在医学领域中的迅速发展以及医疗信息存储标准的逐渐完善,医疗数据呈爆炸式增长。此外由于医疗数据自身的特点而呈现出多模态形式,不同模态往往同时出现、互为补充。面对大规模不同模态的医疗数据,如何建立它们之间的关联,充分利用不同模态数据的语义信息,实现不同模态信息间的相互检索,对于医学领域具有重要的应用价值。对于我国发病率最高的癌症——肺癌,通过对胸部CT图像中肺结节的筛查是目前检查早期肺癌的
中国页岩气资源丰富,但页岩基块致密且存在吸附气。页岩气的多尺度复杂流动机理,导致了页岩气井一般无自然产能或低产。目前页岩气藏储层改造的主体技术是水平井分段压裂技术
目前,关于油管柱的力学分析和强度校核大多是基于静力学完成,但在高产气井中高速气流对油管柱的冲击作用引起管柱振动造成油管柱受力发生变化,将会导致油管柱的强度减小甚至