论文部分内容阅读
近年来,随着互联网和电子商务的蓬勃发展,信息过载成为互联网用户的一大困扰,为了解决信息过载问题而催生的信息推荐系统可以通过对用户和内容的双向过滤来解决这一问题,将能够匹配用户兴趣的内容列表展现给特定用户。信息推荐要解决的主要问题在于根据用户/商品的属性和用户在推荐系统中的历史反馈行为,为用户推荐其可能感兴趣的其它商品。在用户所有的反馈行为中,评分是一种显式反馈,它非常直接地显示了用户对商品的情感,因而评分数据一直是研究者关注的焦点。对用户的评分进行预测可以帮助推荐系统了解用户兴趣,理解用户偏好,所以评分预测问题是信息推荐中的关键问题。传统的评分预测算法要么在挖掘用户/商品的内容信息的基础上,使用回归模型或贝叶斯模型对评分进行预测,要么使用协同过滤算法,以用户之间的相似度为基础,根据与用户相似的其他用户的反馈行为为用户做出推荐。它们虽然极大地推进了信息推荐的发展,但仍有其局限性。近年来,以深度学习为代表的表示学习方法异军突起,在语音识别、图像分析和自然语言处理领域获得广泛关注。本文主要研究可用于评分预测问题的表示学习方法,以期在低维空间中高效计算用户和商品的语义联系,有效解决数据稀疏问题,使信息推荐系统的用户偏好获取、融合和泛化的性能得到显著提升。本文研究的主要内容及其创新点如下:1.提出一种方面级别(Aspect-based)信息挖掘的潜在因子模型。该模型可以通过同时分解评分矩阵、用户-评论矩阵和商品-评论矩阵来获得相互关联的用户、商品和词的潜在因子向量,从而达到对评分和评论文本进行统一建模的目的。该模型将某一用户/商品的所有评论文本的集合视为其特征文档,并利用特征文档建立用户-评论矩阵/商品-评论矩阵。根据建立矩阵时所使用的词典以及词语得分计算方式的不同,我们介绍两种不同的商品-评论矩阵来代表从评论文本中提取的不同的信息。我们在真实数据集上进行了多种实验。实验结果表明该模型不仅在单一领域的评分预测任务上超过了传统的模型和当前最新水平的模型,而且可以通过词的潜在因子向量的复用圆满完成跨领域的推荐任务。2.提出一种依赖用户反馈的嵌入式模型。该模型摒弃了潜在因子模型中将评分简单视为一个标量的基础思想,它将每个评分表示为一个迁移向量和两个映射矩阵。这两个映射矩阵分别用于对用户和评分的语义向量之间的依赖关系以及商品和评分的语义向量之间的依赖关系进行关联编码。而评分则被视为用户和商品在评分依赖空间中的迁移。为了在优化时提升用户、商品和评分的嵌入式表达,多种不同类型的语义初始值被应用于该模型。我们在真实的数据集中进行了大量实验,实验结果证明了该模型在解决评分预测任务时具有一定的先进性,实验结果还显示了不同类型的语义向量的初始值对评分预测的准确率有不同程度的改进作用。3.提出一种基于不同路径语义的潜在社交表示模型。该模型解决含有多种异质数据和关系的加权异构信息网络上的评分预测问题。它提出了基于加权元路径的节点相似度计算方法,这种方法可以帮助模型构建用户和商品的潜在社交网络,然后模型通过图学习的方法分别对潜在社交网络中用户和商品的表示进行学习,最后通过基于不同语义的用户行为模式矩阵对二者进行关联,最终完成评分预测的任务。本文在真实的数据集中进行了实验,实验结果证明了用户和商品的潜在社交信息可以提高评分预测的准确率。