基于微博统计特征的Spammer检测方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:dddbj126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾用户(Spammer)作为社交网络中垃圾信息的发布者,不仅影响了普通用户在社交平台的日常交流,还带来了许多网络安全问题。为了检测微博中的Spammer,现有主流检测方法是通过监督学习挖掘微博用户的统计特征,对正常和垃圾用户分类。虽然该方法具有较高的准确率,但必须加入一定数量的标注样本以提升分类器的泛化能力,然而,这类样本需要人工来进行标注。在微博用户量已达到上亿数量级的情况下,以人工方式标注样本将是一项费时费力的任务。当前构建分类器面临的主要问题是:如何利用少量标注样本构建分类器,并充分利用大量的无类标签样本来提高分类器性能。为解决相关问题,本文立足研究半监督学习在微博Spammer检测中的应用,主要内容和研究价值如下:1.设计一种基于Tri-training算法的微博Spammer检测方法(A Micro-blog Spammer Detection Method Based on Tri-training,MSDTT)。该方法只需要利用少量标注样本即可达到很好的检测效果,解决了传统微博Spammer检测中的标注瓶颈问题,同时将微博用户相似度融入Tri-training算法中,减少了噪声数据的引入。实现步骤如下:首先,利用少量的标注样本对三个不同的传统分类算法进行训练,得出三个基础分类器;然后,分别计算无类标签样本与标注样本中正常用户和垃圾用户的相似度,只有在相似类别与其中两个分类器判断结果相同时,该样本的标注才被认为具有足够的置信度,并作为新的训练集应用于另一个分类器;最后,重新训练学习模型,通过不断地迭代最终得到一个优化的分类模型。实验结果表明,本文算法在少量标注样本的情况下,利用无类标签样本依然可以训练出较好的检测模型。2.设计一种面向MSDTT的标注样本选取方法。该方法只选取微博相似用户中的最大样本信息熵用户加入标注样本集,这样不仅使得分布在稀疏区域的用户具有相同的标注机会,同时还保证了选取的样本具有比较多的信息量。其主要步骤如下:首先,从用户样本集中随机选取某一样本,计算出与其相似的用户,并将随机选取的样本和其相似用户同时加入候选样本集中;然后,计算候选集中所有用户的样本信息熵,并对最大样本信息熵用户进行人工标注;最后,通过迭代直到选取足够的标注样本。实验结果表明,本文算法保留了原始样本集的分布特征,避免过滤掉一些稀疏但具有较大信息量的样本,从而保证了MSDTT算法的稳定性。
其他文献
光栅图像的矢量化表示是数字图像处理领域中的热点问题,在数字图像处理、编辑以及在动画制作等方面有着广泛的应用前景。随着网络和通信技术的发展以及手持终端的普及,越来越
随着信息技术和互联网的快速发展,各行各业都将网站和信息系统应用于生产经营活动过程中。现代信息技术为企业发展提供了强大的支撑。在高度依赖计算机和网络的今天,网站被篡
LTE-A(Long Term Evolution-Advanced,高级长期演进)系统已经成为了国际主流通信标准,为了国家安全起见,国家安全部门需要采用第三方仪表对一些用户进行合法的监听,因此有必
俄罗斯的众多作家对俄罗斯民间文化有着独特的情怀。如普希金、果戈理。这些独具特色的俄罗斯民间文化因素既增加了作品的内涵,也成为作家表达个人思想的一种方式。鲍里斯·
随着物联网技术的不断发展,无线传感器网络的应用前景非常广泛,人们对其应用场景和网络性能要求也愈发严苛。在某些特殊应用场景中,要求在保证网络高可靠性的同时,也能保证较
知识库引文推荐是指针对知识库内的实体,将与其相关的文档进行自动的筛选与推荐。随着知识库在各个领域的广泛应用,知识库引文推荐逐渐成为当前的研究热点,例如文本检索会议(
在认知无线网络中,实现主次用户频谱共享的前提是次用户(非授权用户)产生的干扰不能对主用户(授权用户)的正常通信产生影响。功率控制技术通过对用户的发射功率进行合理的分
当今的时代是信息爆炸的互联网时代,互联网已经深入普及到千家万户中,人们的交流方式呈现出了多元化和多样性,除了面对面、电话、短信等传统交流方式外,微信、qq、电子邮件等
验证码现在被广泛应用于互联网上,其被用于抵制黑客的攻击以及恶意破解密码的自动化程序等。验证码的作用在于能够自动区分人类和计算机,从本质上讲验证码就是一种能够生成人
随着云计算技术的持续发展以及云平台的广泛部署,越来越多业务应用被迁移到云平台上,并以Web服务的形式发布在互联网上。Web服务功能简单,而用户服务需求日益复杂,组合多个功