基于局部优化奇异值分解和聚类的协同过滤算法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:mlgbdwcnm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,人类正处于一个信息技术和互联网高速发展的信息过载时代。作为一种有效缓解信息过载问题的工具,推荐系统个性化地引导用户选择满足其需求的项目。推荐系统能够将项目精准地匹配给对应的用户,主要采用对用户的行为数据进行计算,从而获得用户的偏好需求。推荐系统通过有效地将用户需求与最优产品进行映射,在提高用户获取、保留和满意度方面发挥了重要作用。推荐算法决定了推荐系统的质量,优秀的推荐算法可以减少运算时间和内存消耗,并将符合用户偏好的项目推荐给目标用户。因此,推荐系统具有广泛的应用价值,对其核心推荐算法的研究具有意义。其中,最广泛使用的推荐算法是协同过滤算法。协同过滤算法的推荐结果丰富并且易于发现用户的兴趣偏好,但存在严重的数据稀疏、扩展性差等问题。数据稀疏问题导致在计算用户相似性时准确率较低,从而使得算法的推荐准确性下降。针对传统协同过滤方法数据稀疏和扩展性差的不足,本文提出基于局部优化奇异值分解和聚类的协同过滤算法。该算法采用局部优化的奇异值分解和K-Means++聚类对用户-项目评分矩阵中的相似用户进行聚类并降低维度,利用基于巴氏系数的相似性计算方法来减少数据稀疏对相似性计算的影响。本文主要工作及研究内容包括以下几个方面:首先,针对传统相似性计算方法只利用共同评分项目的评分来计算相似度而不适用于稀疏数据的缺点,提出一种基于巴氏系数的相似性计算方法。改进的相似性计算方法利用巴式系数计算项目之间的全局相似性,同时也将每一对评分之间的局部相似性考虑在内。本文利用用户的全部评分信息来计算拥有较少共同评分项目或没有共同评分项目的用户之间的相似性。实验结果表明在稀疏的数据集中基于巴氏系数的相似性计算方法的性能优于传统相似性计算方法。其次,基于奇异值分解的协同过滤推荐方法可以有效缓解用户-项目评分矩阵稀疏对推荐精度的影响。但是在利用随机梯度下降法进行求解的过程中,随着误差下降速度逐渐降低需要大量的迭代次数。本文利用近似差分矩阵来表示评分矩阵的局部结构并作为一个新的目标函数,从而达到局部优化的效果。实验结果表明在达到相同预测效果时,基于奇异值分解的推荐方法始终需要比基于局部优化奇异值分解的推荐方法更多的迭代次数。最后,为了提高基于局部优化奇异值分解的协同过滤推荐方法的推荐速度,本文利用K-Means++技术对降维后的矩阵进行聚类。K-Means++聚类技术可以缩小邻居集查找范围,提高推荐速度。局部优化的奇异值分解和K-Means聚类对用户-项目评分矩阵中的相似用户进行聚类并降低维度,基于巴氏系数的改进相似性计算方法用于计算用户之间的相似度确定用户的邻居集。基于局部优化奇异值分解和K-Means++聚类的协同过滤算法与其他方法相比不仅考虑到如何从根本上改善评分矩阵稀疏问题,也考虑到如何解决相似性计算方法对共同评分项目的依赖;并以不增加算法时间复杂度为前提,提高算法的推荐速度。为了验证本文所提方法的有效性,在Movie Lens数据集上进行了对比试验。实验结果表明,本文方法可以有效缓解数据稀疏问题对推荐性能的影响,有效地提高推荐准确性。
其他文献
在中国,结直肠癌是消化系统中常见的肿瘤疾病,其发病率和死亡率始终排在高位。结直肠癌的发生发展是多阶段和多步骤的,这是由各种因素引起的,包括原癌基因的激活和肿瘤抑癌基因的失活,同时,微生物群和肠道炎症也与结直肠癌的发生发展密切相关。LYPD8是能隔离肠道菌群和肠上皮细胞的一种分泌蛋白,与癌组织相比,我们发现正常组织及癌旁组织中LYPD8的表达高,然而,在结直肠癌组织中的表达较低,目前没有相关研究揭示
目的:探讨内镜黏膜下剥离术(endoscopic submucosal dissection,ESD)在治疗上消化道黏膜下隆起病变(upper gastrointestinal submucosal protrusion lesions)中的疗效以及安
目的:单肺通气(one-lung ventilation,OLV)技术因为可以有效避免患肺有害物质向健肺播散,同时为外科手术提供良好术野,在胸外科手术中被广泛使用。但胸外科手术侧卧位单肺通气
光纤随机激光器是一类新型光纤激光器,其工作原理主要是光在光纤介质中的增益放大和随机分布反馈,无需固定的谐振腔,因此具有结构简单、激光相干性低等特点,在生物医学成像、
接入网目前面临的问题主要是覆盖少、网速慢、资费贵这三大难题。为了攻克这三大难题,解决接入网的瓶颈,无源光网络(PON,Passive Optical Networks)成为光通信领域的一个重要
在以航空航天、国防军工为代表的高精尖领域,为保证系统安全可靠地工作,定期对核心零部件进行检测与评价是至关重要的。超声相控阵检测具有检测模式灵活、探测深度大和检测速
随着损伤力学的兴起,研究者们分别从宏观和细观的层次上对材料损伤的演化过程作了大量研究,并选用各种损伤参数来表征损伤程度的大小,建立损伤耦合的本构方程来研究材料的损
单刀双掷开关是收/发(T/R)组件中的关键部分,用于控制电路中信号的通断和关断。近年来,随着氮化镓(GaN)等第三代半导体的快速发展,GaN HEMT在高击穿电压、高电子漂移率、高功率、
背景:阿尔兹海默症(Alzheimer’s disease,AD),又称老年痴呆症,是最为常见的慢性神经退行性疾病,但迄今为止其发病机制仍不明确且无有效治疗方法,研究有效抗AD药物迫在眉睫。
为适应智能变电站及智能电网发展,一次设备相关监测数据需要整合到以IEC61850通讯为基础的智能化变电站体系中来,完善一次设备的通信、测量、控制、保护、计量和监测等功能。