融合用户聚类与改进相似性的协同过滤算法研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:zhangyang_8591
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网技术的快速发展、网络信息资源的爆炸式增长,人类进入了大数据时代。如今,日趋严重的信息过载问题造成了用户难以准确获取所需个性化资源的局面。个性化推荐技术由于能够实现对海量信息的精准化过滤,帮助用户快速获取个性化的资源而逐渐被广泛关注并应用。在诸如电商、电影、短视频等领域,个性化推荐技术已经成为解决信息过载不可或缺的方法。个性化推荐技术在商业领域的大规模应用,促进了商业领域的发展,同时商业领域的发展又对推荐技术提出了更高的要求。目前针对信息过载这一问题,采用协同过滤算法的个性化推荐技术是应用最为广泛和成功的。但传统的协同过滤算法在进行用户相似度计算时考虑因素单一,仅以用户评分相似度作为衡量标准使得用户相似性的计算存在缺陷,继而造成推荐算法准确性难以满足用户的需求。同时,随着网络数据规模的急剧增加,推荐算法在分析大量数据时导致网站运行时间过长、性能降低,其实质是推荐系统中存在扩展性不足问题。为了缓解上文提到的制约推荐系统广泛推广的两个问题,本文从如下两个方面进行改进:(1)针对协同过滤推荐算法中由相似度计算不合理、流行度偏置等引起的推荐准确性不足的问题,本文提出了一种基于相似度计算改进的协同过滤算法。首先,通过用户评分时间特征对原始的相似度计算方式进行改进;其次,考虑到流行度偏置,在皮尔森相似度计算方式中对流行项目添加惩罚因子;最后,融合用户评分周期性特征与惩罚因子,形成新的相似度计算公式,使计算结果更加准确,从而提升协同过滤算法的推荐准确性。(2)针对协同过滤算法扩展性差、系统性能受到影响的问题,本文提出了一种优化初始聚类中心的K-means协同过滤推荐算法。采用计算任意两样本间距离的方式选出所有样本中距离最近的两点,形成集合,根据点与集合的计算公式搜寻与集合距离最短的点,直到集合内数据数目大于或等于α(α为样本中数据点总数与聚类中的簇数目的比值),接着将该集合从样本集中删除,重复迭代以上步骤得到与初始设置类中的簇数目相同个数的集合,以集合的均值作为初始中心进行聚类。在得到的用户簇内部使用协同过滤算法,通过缩小目标用户的搜索空间和降低算法的时间复杂度来实现改善推荐扩展性及提高推荐性能的目的。为验证相关算法的有效性,本文采用Netflix提供的电影评分网络数据集展开实验并进行对比分析。实验结果表明,本文改进的相似度计算方法STS与常用的相似度计算方法相比,在MAE和RMSE两个指标上降低的平均值分别为3.91%和2.81%,表明STS算法的推荐结果准确性得到一定程度的提高。本文所提出的K-STS算法在运行效率上比传统的协同过滤算法提升了55.63%、准确率在F1指标上提升了47.34%,同基于K-means的协同过滤算法相比在运行效率上略有降低,但准确率在F1指标上提升了48.78%,证明了改进的K-STS算法能够有效提高推荐的准确率,并在一定程度上缓解了系统扩展性不足的问题。
其他文献
海量用户用电特性的挖掘与分析对实现电网与用户间的双向互动具有十分重要的意义。提出一种适用于海量用户用电行为聚类及分析的算法,以降低算法时间复杂度,提升海量用户负荷数据分析效率。提取用户用电行为特征,构建多层去噪自编码网络,实现多维特征的降维;利用小批优化K均值算法进行聚类分析,并对算法进行初始聚类质心优化与超参数优化的改进以提升算法收敛速度与效果,其中超参数优化利用基于高斯过程的贝叶斯优化算法进行
随着学校无线网络的覆盖以及移动智能终端的广泛普及,师生在使用无线网络的过程中,产生了大量的无线网络数据,其中蕴含着师生的校园轨迹数据。为了高效地从这些纷繁复杂的数据中提取有价值的轨迹数据,挖掘轨迹移动规律,进行聚类分析并应用到实际教育教学中,选择合适的轨迹聚类算法尤为重要。基于此背景开展相关研究工作,主要工作如下:(1)依据轨迹数据特征,选择DBSCAN算法进行优化,提出HFDBSCAN算法模型。
在保证实时性与模型的适应性的条件下对居家人士的行为进行分析,提出了一种基于动态时间跨度与聚类差异性指数的用户行为异常实时检测算法。该算法利用动态时间跨度与聚类差异性指数对实时数据流进行概念漂移检测,在数据流发生概念漂移的情况下,利用局部离群因子(LOF)来检测用户发生行为异常的时间点。通过动态时间跨度对分类模型不断更新,有效提升了模型的适用性。通过实验验证了该算法能够在保证实时性的情况下正确检测出
针对移动用户上网信息进行解析,结合用户通信行为数据,通过采用数据挖掘技术及机器学习中的聚类算法K-means,对用户的互联网偏好进行挖掘,分析用户上网影响因素,从而细分用户群体,为精细化营销奠定基础。
英语教育作为一门语言学科,有着和其他学科不一样的特点,在传统的课堂上,家长、老师对孩子的期望,使他们产生了很大的心理和学习负担,让他们在英语学习以及作业完成过程中没有动力,成绩也不理想。如此一来,无论怎么训练都是徒劳,不但无法提高效率,还会增加压力,让他们学习英语的兴趣下降。因此,当务之急是要转化作业设计观念,减少过多的繁复作业,在设计作业时着重考虑学生的发展需要,为其量身定做符合其自身特点的家庭
负荷分类对电网调度、负荷预测、用户用电行为分析等具有重要意义.针对传统负荷分类算法易陷入局部最优解而无法确定最优初始聚类中心,导致分类结果不准确问题,提出一种融合进化算法优化模糊C均值(FCM)的负荷聚类算法.首先使用重心Lagrange插值法填充负荷曲线缺失点,其次利用线性函数将不同行业负荷曲线归一化,最后结合遗传算法全局搜索效率高以及模拟退火算法计算时间短的特点优化FCM进行负荷聚类,弥补了传
高盐废水采用高温氧化、纳滤分离及电渗析的工艺,并结合传统的五效蒸发及结晶干燥的方法,可将高盐废水成功地转化成硫酸钠和氯化钠产品,不仅处理了大量的高盐废水,还带来一定的经济效益。
将燃气日瞬时流量和日用气量作为研究对象,提出基于K-means聚类、特征标签、用户画像、k折交叉验证和岭回归的用气负荷异常检测方法。结合实例,对该异常检测方法进行探讨。将案例用户某段时间的瞬时流量组成数据集,使用K-means算法进行聚类分析,将用气分为工艺生产和停工小火两类用气行为,得到工艺生产数据集。针对工艺生产数据集中的每个样本,得到6个特征标签(日最大负荷、日均负荷、日用气时段百分比、日用
2018年12月,最高人民法院发布了《最高人民法院关于增加民事案件案由的通知》,增加了"平等就业权纠纷"案由。该通知已自2019年1月1日起施行。通过对2019—2020年间适用"平等就业权纠纷"案由的案件审理情况进行考察,揭示了法院对"平等就业权纠纷"这一新案由的认识和适用情况,探寻了"平等就业权纠纷"案由对就业歧视司法救济的积极意义以及其中折射出的就业歧视立法和司法中存在的问题。经由案件分析可