论文部分内容阅读
随着互联网的发展,社交网络已经渗透到人们生活、学习、工作、娱乐的各个方面,网络的多元化趋势使信息的传播方式越来越丰富。社交网络不仅将线下的社交活动拓展到线上,使得彼此间交流更为方便,用户更是可以通过社交平台展示自己以及获得热门资讯和自己感兴趣的话题。然而,为了获取利益,一些恶意用户正是利用社交网络平台的优越性传播一些恶意信息,如色情内容、垃圾广告、网络钓鱼等。这些恶意用户通过虚假账号或盗用正常用户账号的方式传播大量恶意消息,这种恶意行为严重影响了用户的上网体验以及用户的信息财产安全。如今,异常用户的泛滥已经成为社交媒体服务行业面临的一个严重问题。因此,社交网络的异常用户检测问题一直都是这些年来学者及商业界研究的热门领域。本文以新浪微博社交网络平台为研究对象,展开了对新浪微博平台异常用户检测的研究,主要完成了以下三方面工作,其理论方法亦适用于其它社交网络平台。(1)结合本文的研究目的,为了获得理想的实验数据源,我们利用Scrapy爬虫框架分别设计了针对正常微博用户和异常微博用户的个性化网络爬虫系统,实现了对用户的微博内容、用户信息、用户关系等数据的高效采集并实时导入MongoDB数据库中,并利用异常用户评判标准构建异常用户检测实验数据集。(2)本文通过探究新浪微博正常用户与异常用户的用户信息特征、行为特征,对正常用户与异常用户的数据进行深入分析,并结合领域知识提取新的特征,按需求进行特征提取、数据格式化等数据预处理操作。利用特征选择算法将所有特征按等级排序找出影响异常用户检测结果的重要因子,构建基于用户特征的异常用户检测模型,将加权投票的随机森林算法作为训练和检测模型,并将该模型与其他算法进行对比分析。(3)随机森林模型中参数的选取对模型性能的影响至关重要,传统的方法通常根据经验值来选取参数,无法确定是否达到实验的理想效果,为了确定模型的最优参数,我们引入标准粒子群算法(SPSO)来对模型的参数进行优化,构造基于SPSO优化的加权投票随机森林异常用户检测模型,使模型的检测性能得到显著提升。