论文部分内容阅读
近年来,人们面对海量数据很难有效地分辨出哪些是自己真正需要的信息。随着信息量的不断增大,信息的利用率反而降低,这就是信息过载现象。随着大量网络信息的数字化,搜索引擎或推荐系统对人们来说已经成为至关重要的信息过滤工具。个性化推荐作为信息过滤技术可以根据用户的历史行为记录来挖掘用户的潜在兴趣。推荐系统通常面临大规模甚至超大规模数据,因此其计算复杂度相对较高甚至难以在全量数据中进行计算,而应用系统通常需要进行实时计算。因此,研究如何抽取信息推荐网络的骨架,在保持推荐精度的前提下压缩数据规模,对于真实应用的推荐系统具有重要意义。因此,本文从推荐网络的结构特征出发,分别研究网络中的节点和连边与推荐性能的相关性,并尝试抽取能够保持推荐系统性能的网络信息骨架。主要工作如下:1、从识别重要节点和连边的角度,总结了复杂网络和推荐网络的信息骨架抽取方法。阐述了推荐技术的基本理论、常见算法、评价指标和推荐网络结构的拓扑特征。从用户节点重要性的角度对比了几种基于用户节点的特征与推荐的相关性。2、提出了基于相似性子图的推荐网络信息骨架抽取算法。从推荐网络的拓扑结构出发,研究了几种网络结构特征与推荐的相关性。我们结合用户相似性和商品相似性来定义推荐网络中连边的权重,并发现权重值大的连边与推荐精度的相关性更强。三个真实数据集的实验结果表明,通过该算法抽取的信息骨架能够在top-L推荐过程中仅依赖原始网络中20%的连边就获得超过90%的推荐准确率,同时还能保持推荐的多样性。算法中相似邻居个数的选择对推荐效果也没有明显影响。此外,通过对信息骨架结构的详细分析,我们发现信息骨架能够较好的保持原始网络的拓扑结构特征。该算法抽取的信息骨架能够通过压缩数据规模,有效地在保留推荐精度的同时提高推荐系统的性能。3、提出了基于介数中心性和时间信息混合的推荐网络信息骨架抽取算法。本文通过引入介数中心性这一复杂网络的拓扑特征,研究了基于用户节点、商品节点以及连边的介数中心性与推荐的相关性,实验结果表明商品节点和连边的介数中心性越高,其与推荐的相关性越强。据此,我们进一步提出了将时间信息与这两种基于介数中心性的方法相结合的算法。在两个真实数据集的结果表明,可以通过增加混合骨架抽取方法中介数中心性的权重来提高推荐系统的准确率,或者通过增加混合骨架抽取方法中时间因素的权重来提高推荐系统的多样性。因此在信息骨架抽取的过程中,我们可以对连边的介数中心性和时间信息选取合适的权重,使推荐算法在获得较高准确率的同时,也能拥有较高的推荐多样性,提高系统的个性化程度,并且减少数据的存储空间,降低系统运行消耗的时间。