论文部分内容阅读
随着计算机和网络技术的迅速发展,信息资源呈爆炸式增长,如何从海量的信息中发现有用的知识已成为目前亟待解决的问题,推荐系统通过向用户主动推送信息以缓解信息过载问题得到了广泛应用。由于推荐系统开放性的特点,恶意用户可以通过注入伪造的用户概貌以改变目标项目在推荐系统中的排名,此类现象称之为托攻击。托攻击行为使推荐系统向用户推荐被操纵的商品或信息,干扰了推荐系统的正常运行,阻碍推荐系统的应用和推广。现有的推荐系统托攻击检测算法通过提取用户概貌属性值,利用概貌属性值实施托攻击检测,取得了一定的效果。然而,随着推荐系统规模的增大和工作机理复杂度的提升,已有的托攻击检测方法没有充分利用托攻击行为的群体属性,传统概貌属性描述托攻击概貌不够准确,不能有效地检测未知类型的托攻击,以及无法胜任数据规模增长的托攻击等问题。本文在现有检测技术中概貌属性提取技术的基础上,提出了新的用户概貌属性特征描述方法和具有较高检测性能的托攻击检测方法。本文的主要内容如下:①分析了推荐系统国内外研究现状和面临的主要挑战;分析推荐系统中相似度计算方法、托攻击检测评价指标和现有的用于托攻击检测的概貌属性,并对推荐系统中概貌属性提取技术进行分析。②针对托攻击群体性特征以及用户评分矩阵稀疏性的特点,提出一种基于目标项目分析(TIA)的托攻击检测框架。首先找出有攻击嫌疑的疑似托攻击用户集合;其次构建由这些疑似托攻击用户概貌组成的评分矩阵;最后通过目标项目分析方法得到攻击意图和目标项目,检索出托攻击用户。③通过分析真实用户概貌和托攻击用户概貌属性值的分布,在基于目标项目分析的托攻击检测框架基础上提出了两种托攻击检测算法,基于RDMA和DegSim概貌属性的方法(RD-TIA)和基于一种新的概貌属性DegSim’的检测方法(DeR-TIA)。RD-TIA主要适用于检测均值攻击和随机攻击;DeR-TIA算法能对均值攻击、随机攻击、段攻击和流行攻击有效检测。实验结果表明:RD-TIA算法检测随机攻击模型和均值攻击模型时,有较高的准确率和较低的假正率;而DeR-TIA能够对多种类型的托攻击进行检测,具有较好的普适性。④针对现有的SVM托攻击检测算法存在的缺陷以及推荐系统托攻击检测中存在的类不均衡问题,本章提出了使用自适应人工合成样本方法Borderline-SMOTE来缓解类不均衡问题。提出了一种结合目标项目分析和支持向量机(SVM)的检测方法(SVM-TIA)。该方法使用自适应人工合成样本方法对边界样本进行拟合,缓解了类不均衡问题。实验结果表明,SVM-TIA在一定程度上提高了托攻击检测结果的召回率和准确率。⑤根据虚假用户恶意注入的评分信息在时间节点上具有集中性的特点,以及真实评分与托攻击评分在统计学上呈现的不同分布特征,提出了一种基于目标项目分析和时间序列的托攻击检测算法(TS-TIA)。TS-TIA通过对项目上的评分时间序列建模,从而使得正常评分窗口及包含托攻击评分的窗口中样本均值、样本熵值均达到最大化,从而得到托攻击评分所在的时间窗口位置。通过构建这个时间区间内所有用户、项目以及项目评分组成的评分矩阵,利用目标项目分析方法滤除真实用户评分概貌,以达到检测托攻击评分的目的。实验表明,TS-TIA能在评分级别上对托攻击进行检测,并且时间复杂度较低。