基于Spark的混合推荐系统

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xiaohanhan52
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,信息过载已经成为互联网领域面临的重要挑战。为了缓解互联网用户与海量数据间日益加剧的矛盾,研究人员提出了推荐系统的概念。作为推荐系统的一个重要分支,混合推荐系统通过组合多种推荐算法提高系统性能,目前广泛应用于电子商务、社交网络和视频网站等领域。然而,用户量与数据量的急速增长对混合推荐系统的性能提出了更高的要求。例如,视频网站要求混合推荐系统为用户精准推荐各类视频,并根据用户行为的变化训练新的模型,及时更新推荐结果。由于数据量的增加,开发人员难以利用经验确定各推荐算法对最终结果的影响程度。因此,粗粒度权重计算方法影响混合推荐系统的精度,增加开发难度。此外,由于系统基于大规模数据训练特征模型,训练过程包含大量迭代计算,使得训练一次模型的时间为一天甚至几天,难以满足用户对推荐系统效率的需求。本文通过分析不同的数据集、推荐算法以及权重计算方法的特点,引入适用于迭代计算的通用大规模数据处理平台Spark,设计并实现了基于Spark的混合推荐系统,以提高推荐系统的精度、多样性和效率。本文的主要工作及创新点如下:1.首先,本文提出一种细粒度权重计算方法,将各推荐算法的权值扩展为权重向量。该方法提高了评分预测推荐的精度,并有效缓解数据稀疏带来的冷启动问题:2.其次,本文基于大规模数据处理框架Spark,以细粒度权重计算方法为核心,设计实现细粒度权重混合子系统。该子系统基于分布式计算框架Spark降低模型训练时间,并利用细粒度权重计算方法提高推荐精度。实验结果表明,细粒度权重混合推荐比单一推荐算法的精度提高5%~30%,比粗粒度权重混合推荐的精度提高1.5%~3%。同时,该系统的模型训练速度比单机推荐系统提高了 90%,比基于Hadoop框架的推荐系统的训练时间提高了 2倍左右;3.最后,本文设计实现基于Spark的交叉调和推荐系统。该系统以细粒度权重混合子系统为核心,引入基于内容的推荐算法,实现了一个高精度、高效率、多样性和可扩展的混合推荐系统。
其他文献
目的是为了研究传统元素在室内装饰设计中独特的审美性以及其在室内装饰设计中的实用性。将川剧脸谱这一传统文化元素运用到现代室内装饰中,既体现民俗文化的传承力量,又赋予
当前对高职校园文化的研究多着眼于校园文化建设的途径,而对高职校园文化建设的内涵、特征、功能和原则探讨较少,偶尔散见于少数研究文献。本文将系统探讨高职校园文化建设的
60多年来,人民空军院校建设始终紧贴空军建设发展和军事斗争准备实际,坚持用科学理论和先进教育理念引领各项工作,培养了一批又一批高素质人才,创造了一项又一项高水平成果,
母语思维是二语习得过程中较为常见的现象,在简略回顾有关二语习得中母语思维以及二语写作中母语迁移研究的基础上,探讨母语迁移对二语写作的影响。指出母语迁移在二语写作中
目的观察参麦注射液治疗充血性心力衰竭临床疗效和BNP的影响。方法 132例慢性心衰患者随机分为对照组和观察组,对照组常规治疗,观察组加参麦注射液,观察并比较临床疗效,记录
目的:探讨健康教育在妇科护理中起到的作用是不是显著。方法:通过对接受过健康教育和未接受过健康教育的患者的康复情况作差异显著性分析,可通过卡方检验实现,来确定健康教育
生物活性肽是生命和食品科学领域的研究热点之一。其抑菌、降血压、调节免疫、抗病毒、抗炎等活性已相继被证实,其中肽的抗炎作用研究相对较为薄弱。慢性炎症严重影响人体健
研究目的:支气管哮喘(简称哮喘)是一种以多种炎性细胞渗出为主,伴慢性气道炎症和气道高反应性改变的慢性呼吸系统疾病。2014年全球哮喘防治创议(GINA)强调哮喘是一种异质性疾
<正> 1959年苏加诺总统为简化政党,提出把当时一些不隶属于政党的各行业群众组织组成一个专业集团联合秘书处,实际上是一个松散的协调机构。1964年10月20日才由61个群众团体
自加入世贸组织以来,中国的农产品贸易面临的环境越来越复杂,农产品出口贸易发展相对缓慢,贸易逆差逐年加大。论文基于波特的钻石模型,从生产要素、需求状况、相关以及辅助产