论文部分内容阅读
垃圾用户(Spammer)作为社交网络中垃圾信息的发布者,不仅影响了普通用户在社交平台的日常交流,还带来了许多网络安全问题。为了检测微博中的Spammer,现有主流检测方法是通过监督学习挖掘微博用户的统计特征,对正常和垃圾用户分类。虽然该方法具有较高的准确率,但必须加入一定数量的标注样本以提升分类器的泛化能力,然而,这类样本需要人工来进行标注。在微博用户量已达到上亿数量级的情况下,以人工方式标注样本将是一项费时费力的任务。当前构建分类器面临的主要问题是:如何利用少量标注样本构建分类器,并充分利用大量的无类标签样本来提高分类器性能。为解决相关问题,本文立足研究半监督学习在微博Spammer检测中的应用,主要内容和研究价值如下:1.设计一种基于Tri-training算法的微博Spammer检测方法(A Micro-blog Spammer Detection Method Based on Tri-training,MSDTT)。该方法只需要利用少量标注样本即可达到很好的检测效果,解决了传统微博Spammer检测中的标注瓶颈问题,同时将微博用户相似度融入Tri-training算法中,减少了噪声数据的引入。实现步骤如下:首先,利用少量的标注样本对三个不同的传统分类算法进行训练,得出三个基础分类器;然后,分别计算无类标签样本与标注样本中正常用户和垃圾用户的相似度,只有在相似类别与其中两个分类器判断结果相同时,该样本的标注才被认为具有足够的置信度,并作为新的训练集应用于另一个分类器;最后,重新训练学习模型,通过不断地迭代最终得到一个优化的分类模型。实验结果表明,本文算法在少量标注样本的情况下,利用无类标签样本依然可以训练出较好的检测模型。2.设计一种面向MSDTT的标注样本选取方法。该方法只选取微博相似用户中的最大样本信息熵用户加入标注样本集,这样不仅使得分布在稀疏区域的用户具有相同的标注机会,同时还保证了选取的样本具有比较多的信息量。其主要步骤如下:首先,从用户样本集中随机选取某一样本,计算出与其相似的用户,并将随机选取的样本和其相似用户同时加入候选样本集中;然后,计算候选集中所有用户的样本信息熵,并对最大样本信息熵用户进行人工标注;最后,通过迭代直到选取足够的标注样本。实验结果表明,本文算法保留了原始样本集的分布特征,避免过滤掉一些稀疏但具有较大信息量的样本,从而保证了MSDTT算法的稳定性。