协同过滤算法中数据高维稀疏问题的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zxwss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统是解决个性化需求的产物。作为推荐算法中应用最广的算法——协同过滤,具有极大的研究价值。协同过滤算法中存在数据高维稀疏问题,导致相似度计算、评分预测存在偏差,选择近邻效率低,严重影响了算法的质量。目前,对该问题的研究存在以下不足:在改进相似度计算的研究中,没有考虑评分差值,没有衡量用户对项目属性的喜欢和不喜欢程度,没有挖掘隐式兴趣;忽略了数据高维的特点,在整个数据集中选择近邻,导致算法运行时间较长;在改进评分预测的研究中,没有考虑用户间在不同项目上相似度的差异。本文从协同过滤算法原理的了解和相关理论的研究入手,将从以下三个方面展开:(1)不仅仅依靠评分矩阵,加入额外信息丰富相似度计算。引入信息熵衡量评分差值包含的信息量,结合评分差值,得到评分差值相似度;利用模糊集将单一评分模糊化,衡量用户对项目属性的喜欢和不喜欢程度,得到显式兴趣相似度;加入矩阵分解挖掘用户隐式兴趣,得到隐式兴趣相似度。将上述三种相似度与原始的修正余弦相似度融合,得到综合相似度,缓解数据稀疏问题;(2)利用优化初始质心选择的改进K-Means算法对用户聚类,在目标簇中选择近邻,缓解数据高维问题;(3)考虑用户间在不同项目上相似度的差异,提出基于特定项目的信任度,与综合相似度融合,得到基于特定项目的相似度,用于评分预测,缓解数据稀疏问题。在经典的MovieLens数据集上运行本文算法,通过与其他几组算法的对比分析,得到相比同类算法,本文算法平均绝对误差较低,提高了推荐准确度,加入了改进K-Means的本文算法运行时间较少,提高了运行效率。本文算法在一定程度上缓解了数据高维稀疏问题,提高了算法质量。最后将本文算法应用到电影推荐中,验证本文算法在实际中有效可行。
其他文献
碳纤维增强树脂基(CFRP)复合材料帽型加筋壁板能够在不增加壁厚的情况下大量增加结构的刚度和轴向载荷传递效率,在航空、汽车、风电等多个领域应用广泛。但是复合材料帽型加筋件在使用、维护过程中不可避免的会遭受到低速冲击,如跑道碎石、维护工具掉落等。此类冲击往往在试件表面形成目视不易检查的凹坑,但是试件性能已大受影响,有时性能下降幅度高达50%,在后续的使用过程中易于发生事故,对构件的安全性产生巨大威胁
大自然是培养科学家和工程师的摇篮,是人类的灵感之源。荷叶的自清洁和水黾浮水的超疏水现象吸引了人们广泛的关注。受这些现象的启发,研发出了许多制备表面润湿材料的方法,但大多都存在制备成本高,环境不友好,操作复杂等缺点,限制了它们的大规模应用。因此,开发一种新型的实用性强的油水分离材料成为了目前研究的热点。本文通过刻蚀的方法在铜网表面制备微纳米结构,成功合成出了超疏水和润湿性可切换的油水分离材料。通过各
学位
学位
学位
学位
狼尾草属牧草是华南地区重要的牧草资源,但生产中存在着茎多叶少,粗纤维含量高、粗蛋白含量低等问题,影响牧草的适口性和品质。针对此,生产中亟需培育出适应华南地区产量高、品质优的狼尾草品种。本试验以来源于杂交狼尾草芽变系的新品系为试验材料,以杂交狼尾草原种、象草、紫狼尾草为对照,通过田间试验对株型特征、生产性能及营养成分等方面进行研究,并通过相关性分析,建立了农艺性状指标与杂交狼尾草新品系的产量、粗蛋白
学位
学位
时滞积分–微分方程是工程中一类重要的方程,在力学和生物学等领域有着广泛的应用.然而,这类方程的精确解却并不容易求得,所以探求该类方程的高精度数值解就显得尤为重要.基于求解常微分方程初值问题的单支方法,本文构造了一类新型单支方法用来求解时滞积分–微分方程初值问题,并在经典和单边Lipschitz条件下,给出了方法收敛性、非线性稳定性和耗散性的证明.在第一章,我们介绍了时滞积分–微分方程的研究背景、历