融合多特征聚类的垃圾微博检测研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:javaoak
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,微博因为交友和获得信息的便利性,逐渐成为人们广泛接受的在线社交方式之一。然而这种便利性也给垃圾用户带来了可乘之机。每天微博中都包含大量的广告微博,这些信息反复出现,难以辨别真假,严重影响了用户的用户体验,更甚者,许多虚假中奖抽奖,违规医药等微博还会骗取用户个人信息,威胁用户的健康和财产。基于特征提取的文本分类技术是常见的垃圾识别方法,特征的有效性会决定着垃圾微博的识别精度。本文以新浪微博为例,对垃圾微博检测方法进行了深入研究,具体研究内容如下:首先,包含第三方联系方式是垃圾微博的重要基本特征之一。URL是垃圾用户采用的一种常见的联系方式。许多反垃圾研究都是基于URL实现的,新浪微博也采用这种方式检测垃圾微博,因此许多垃圾用户都逐步采用了新型的联系方式,但是在以往的研究中,这些方式没有得到重视。为了提高垃圾微博的识别广度,我们不仅考虑了URL,也考虑了垃圾用户会使用的其他几种联系方式。这些联系方式包括伪装格式的URL、QQ号、微信号和电话号码。其次,针对微博文本特征的随机性,我们提出了基于相似微博聚类的垃圾微博检测方法。在新浪微博中,约有30%的微博长度不足15个字符,在这些短文本中,许多垃圾微博和正常微博看起来十分相似,难以识别。为了得到更多的受骗者,垃圾用户总是操作多个账户同时发布垃圾微博,同一条垃圾微博会反复出现,相似的文本描述和同样的联系方式也会反复被使用,而正常微博不会。而相似微博聚类能够有效聚合垃圾微博,可以克服微博文本特征的随机性和模糊性。最后在真实的新浪微博数据上进行了对比实验,分类结果证明相似微博簇的特征参与分类时,分类准确度提升了10%。最后,很多垃圾用户会对垃圾微博进行包装,采用热门新闻或网络事件填充微博。这时,文本特征是无效的,从文本上判断不出微博的垃圾属性。为此,我们引入了用户属性。微博文本包装容易,而用户的属性如注册时间,微博数目等特征是一定的,难以改变,这些属性能够辅助微博的垃圾类别判定。在此基础上,我们提出了融合多特征聚类的垃圾微博检测算法。在真实的微博数据上的实验证明,融合多特征聚类在很大程度上提高垃圾微博识别的准确度,特别是在F值上有着明显的改进。
其他文献
无线局域网(WLAN)作为其中一种无线接入网络,凭借移动灵活、保密性强、架设与维护容易等优点,越来越引起研究者和消费群体的关注。以IEEE 802.11为标准的无线局域网已经在全球
随着互联网的深入普及,人们需求的知识越来越多的来源于网络,数字知识产品营运而生并得以在全球范围内迅速发展。数字知识产品依其便于复制、存储和传播的特点广受人们所青睐,应
P2P系统因其分布性、易拓展、负载均衡等优势,正在赢得广泛的关注。其核心思想是使应用从中央服务器向网络边缘的终端设备扩散,充分利用互联网中蕴含的潜在资源,减轻主干网络
随着Internet技术持续突飞猛进地发展,网络上的信息安全问题日益突出。特别是电子商务、数字货币和网络银行等新业务的深入开展,信息的保密性、完整性和可用性等安全问题成了
随着国家有线数字电视网络建设和网络技术的快速发展,以及网络规模不断的扩大,数字电视的普及必然成为今后电视产业的发展趋势。所谓数字电视技术,是将传统的模拟电视信号经
随着P2P计算模式的兴起、网络带宽的大幅增加和Internet端系统计算力的迅速增强,原先被忽视的终端系统成为了一种宝贵的资源。如何充分利用这端系统资源,在高动态的P2P网络环
随着国际互联网的高速发展,电子商务等网络服务已经渐渐成为人们工作和生活的一部分,并对传统的商业模式产生巨大的冲击。招投标活动中,传统的通过邮寄等手段获取资料以编制
随着互联网技术、信息技术和多媒体技术的不断发展,网络应用的种类越来越丰富,以流式传输为特点的流媒体系统逐渐成为研究的热点。同时,无线网络研究的发展以及嵌入式设备在
作为威胁当前网络安全、影响网络服务质量最严重的攻击方式之一,DDo S网络攻击是依靠其攻击原理简单、攻击形式多样、攻击效果明显,已经成为众多学者研究的焦点。同时由于其
计算机通信技术和计算机网络技术的高速发展,使得我们当前的互联网体系的局限性日益凸显。针对目前互联网存在的安全性差、缺乏可信度、不支持移动性和流媒体业务承载能力低