论文部分内容阅读
快速兴起的社交网络逐渐成为人们获取和分享信息的重要平台。然而,拥有海量用户群体的社交网络也吸引了大量以获利为目的的垃圾用户(Spammer),给正常用户和社交平台带来了严重危害。社交网络中用户特征多种多样,如何选取合适的特征是Spammer检测的关键问题之一。同时,现阶段的Spammer检测技术多采用机器学习算法。其中,无监督检测算法虽然不需要有标注的数据,但是准确率低,难以满足检测要求;有监督检测算法需要大量人工标注数据且容易被Spammer改变策略绕过检测系统,效率较低。针对上述问题,本文具体的研究内容如下:1.针对社交网络Spammer检测中的特征选择问题,本文设计一种基于综合过滤器排名(Comprehensive Filter Ranking,CFR)和遗传算法(Genetic Algorithm,GA)组合的特征选择算法CFR-GA(Comprehensive Filter Ranking-Genetic Algorithm),并将该算法用于下一步的Spammer检测中。该算法首先利用基于过滤器的CFR算法计算特征的综合得分并从大到小排序,删除综合排名靠后的特征,缩小后续GA的搜索范围;同时利用得到的每个特征的综合得分指导GA进行种群初始化,提高GA的运行效率;最后,利用GA进行搜索得到最佳的特征子集。实验证明,该算法获得的特征子集维数较小、分类性能较高,且运行效率优于传统的GA算法。2.针对社交网络Spammer检测中的人工标注数据问题,设计一种基于OPTICS(Ordering Points To Identify the Clustering Structure)和SVM(Support Vector Machine)混合分类模型OSHCM(OPTICS and SVM based Hybrid Classification Model)的Spammer检测算法。该算法首先通过OPTICS算法对数据进行聚类,得到数据的初始类别标签;然后根据聚类得到的簇中样本稀疏程度确定一些可靠的学习样本;接着使用之前设计的CFR-GA算法选出最优的特征子集;最后,将训练样本和最优特征子集用于训练SVM分类器,再用SVM分类器对原始数据分类。实验表明,该算法的分类评估指标接近SVM算法,和无监督的OPTICS检测算法相比有了较大的提高,且不需要人工标注数据。