论文部分内容阅读
近年来,随着互联网技术的飞速发展,IPTV受到了越来越多的家庭用户的青睐,使得IPTV的业务迅速扩张,用户的规模也持续增长。在如此迅速的发展速度之下,IPTV的业务目前不能只着重于信息传输速度的提升,应该更加注重用户在享受IPTV业务时的使用体验。为了提高用户的使用体验,并且为服务商提供的视频推荐、广告推送等服务提出决策性建议,能够准确地分析用户收视行为就显得尤为重要。然而,收视数据由于规模庞大,从产生到采集的过程中难以避免地会出现异常数据。因此,对收视数据的异常检测具有十分重要的意义。基于以上问题,本文提出了一种基于改进Canopy-FCM和孤立森林算法的用户异常收视行为检测方法。本文的主要研究内容体现在以下几个方面:1.提出一种改进的Canopy-FCM聚类算法。将Canopy算法和FCM算法相融合,首先使用Canopy算法对数据集进行粗略的聚类,将得到聚类数和聚类中心作为FCM算法的输入,从而进行更加高效更加精确的聚类。基于模糊决策理论,确定FCM算法模糊加权指数m的选取。基于最大最小准则和最大密度法则,针对Canopy算法中新的Canopy选取和设置过程进行改进。2.提出一种改进的孤立森林算法。在孤立森林的训练阶段,提出一种切割点选择算法,能够使得数据点在分离树上的位置更加精确。为了综合考虑样本数据的所有的特征的异常程度,本文提出基于组合权重的综合异常分数,并采用熵权法来确定组合函数中的各项权重的大小。在异常分析的阶段,提出确定异常分数阈值的算法,能够更加直观地区分异常数据样本和正常数据样本。为了验证本文所提出的改进的聚类算法和异常检测算法的优越性,本文使用用户的收视数据和相关的公有数据集,与其他传统的聚类算法和异常检测算法进行对比实验,并采用相关的评价指标对实验结果进行评估,从而验证了本文所提出的改进算法的准确性与有效性。