论文部分内容阅读
信息社会中,互联网产品在为用户提供基本服务的同时,已逐渐向着社会化、移动化以及个性化的方向发展,社会化的典型代表是发展得如火如荼的SNS社交网络服务;移动化帮助用户实现随时随地网上浏览;个性化可以实现用户的专属需求。推荐系统作为个性化的实现手段,在电子商务、娱乐互动等领域受到了高度关注,成为互联网产品摆脱同质化的一个重要方式。传统基于内容的推荐算法直观易懂,却存在过度特征化和领域单一化的问题;协同过滤技术可以实现项目的跨领域推荐,自动化程度高,却受到数据稀疏性及冷启动等难题的影响。本文结合两种方法的优点,针对现有的混合推荐算法在处理海量数据时效率低下等问题,将符号数据分析方法加入到混合推荐算法中,提出两种混合思路:第一、将基于内容的推荐算法与user-based协同过滤算法进行混合,用模态符号数据对用户建模,引入模态符号数据的距离度量计算用户模型间的相似性,同时加入用户人口统计信息的相似性,由此形成用户的综合相似性,完成kNN推荐;第二、将基于内容的推荐算法与item-based协同过滤算法进行混合,使用模态符号数据对项目建模,加入非负矩阵分解算法,对项目的特征矩阵进行有效―平滑‖,以此为基础计算项目之间的相似性,完成推荐。这两种混合方法利用了基于内容推荐算法的优点,使用项目及用户的特征进行相似性比较,从而有效避免了评分矩阵稀疏性带来的影响,同时非负矩阵分解的算法也有效应对了矩阵超高维及矩阵内容稀疏的问题。实验结果表明,本文提出的两种基于符号数据的混合推荐算法与传统的user-based协同过滤算法和item-based协同过滤算法相比,在相似性计算上具有更高的效率,同时在应对数据稀疏性及新用户问题时,具有更高的推荐精度。