面向数据稀疏优化的协同过滤推荐算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:smtl520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息过载的数据时代,个性化推荐系统可以通过信息过滤技术向用户推荐其感兴趣的信息,因此广泛应用于各个领域。其中,协同过滤算法是使用最广、最受欢迎的推荐算法之一。然而,协同过滤算法仍然存在数据稀疏问题,严重影响推荐的质量。针对协同过滤算法的数据稀疏问题,本文分别从填充稀疏评分矩阵和定义新的用户相似度模型这两个角度来展开研究。本文完成的主要工作如下:第一,为了提高协同过滤算法在数据稀疏时的准确性,本文提出一种融合辅助信息的基于数据填充的协同过滤算法。该算法的主要特点在于:(1)在生成填充数据时,融合用户/项目的辅助信息来表示用户/项目特征,使得能为新用户和新项目生成填充数据,且能准确度量用户/项目相似性。在融合用户辅助信息时,本文融合用户基本属性信息,并结合用户评分和项目属性信息来预测用户对项目属性的偏好程度。在融合项目辅助信息时,将项目属性信息、标题信息以及内容信息进行有效融合。同时,引入降噪编码器挖掘用户/项目的低阶稠密隐式特征。(2)在填充矩阵时,考虑填充数据的置信度,通过将置信度不高的填充数据进行过滤以此降低噪声数据对推荐质量的影响。在极为稀疏的数据集上进行测试,实验结果表明提出的算法能较好的缓解数据稀疏问题,且具有较高的推荐准确度。第二,针对传统用户相似度模型因完全依赖于用户共同评分项目而导致的无法适用于稀疏数据的问题,本文提出一种基于混合相似度的协同过滤算法。首先,算法引入项目属性计算项目相似度,通过结合项目相似度和评分相似度度量非共同评分项对用户相似度的影响,不再依赖于用户的共同评分项目,以此缓解数据稀疏问题。其次,为了全面、客观地度量用户相似度,本文考虑共同评分奖励因子和用户可信度因子。共同评分奖励因子用于度量共同评分项目与属性所占比重对用户相似度的影响,用户可信度因子用于度量用户是否具有不可信评分的情况,以此降低不可信用户的影响。最后,将算法与基于其它相似度模型的算法进行比较,实验结果表明,本文提出的算法能较好的适用于稀疏数据,且在推荐精度上有显著提高。
其他文献
10月17日,集团公司在20楼会议室召开第三季度经济运行分析会。集团公司领导班子及机关各部门负责人参加会议。集团公司常务副总经理何霞光主持会议。会议听取了企管部、财务部
<正> 石台县地处皖南山区腹部,平均海拔400m 左右,气候温和,雨量充沛,土壤肥沃,兰花四溢,适宜种茶。去年,我县将扁形茶的传统手工制法与名优茶机制工艺相结合,创制出&#39;蓬
<正> 茶苗根结线虫病是滇南茶区的主要病害,发生普遍,严重影响苗圃及茶园的建设与发展,经我场的土壤分析,每100克病土中2龄根结线虫含量有时高达3000条以上,为害最重的地块,
天然气水合物分解后只产生甲烷和水,相对于传统化石能源而言是一种清洁高效环境友好的替代能源,已经受到世界各国的高度重视,相继对其进行资源勘探与开采研究。目前,全球已探明天然气水合物有机碳储量相当于全球已探明化石燃料(煤、石油、天然气)总量的两倍。天然气水合物在南海沉积物储层中呈胶结或填充分布特征,天然气水合物矿藏分解过程会伴随剧烈的相变、气水运移以及组分变化,天然气水合物矿藏的导热系数对开采效率的控
目前重金属污染已成为城市面临的重要生态问题,其中城市土壤污染物中的重金属尤其值得关注。相关研究表明北京地区土壤中镉(Cd)、锌(Zn)、铅(Pd)、铜(Cu)的生态风险较高,而且
研究旋转磁场对小鼠血清超氧化物歧化酶及肝组织中过氧化物酶活性的影响。用转速为2000r/min,平均场强为0.09T的旋转磁场作用于小白鼠,血清SOD测定采用化学发光法,而肝组织POD测
海洋深水区的油气资源被勘探和开发,处于低温环境中的海洋立管与管外海水进行大量热交换,导致管内流体热力学性质发生改变。但由于海水温度低、换热情况复杂,很多公式不再适
本文从茶园施肥和耕作、喷灌、良种繁育推广、树冠培养、茶叶采摘和塑料大棚覆盖等方面总结了余姚茶场连续10年大面积高产(3750kg/公顷&#183;年)稳产的经验。指出土、肥、水
期刊
<正> 一、杭州名优茶生产简况 1991年全市名优茶生产面积26.5万余亩,占全市投产茶园面积的46.8%。生产名优茶4185.99吨(其中西湖龙井699.5吨,浙江龙井496.93吨,杭州旗枪1780.5
目的:探讨骨髓噬血综合征的临床表现及血细胞变化特点。方法:回顾性分析我院2012年5月~2014年5月收治的42例骨髓噬血综合征患者的临床资料,所有患者均采集外周血和骨髓穿刺细胞