社交网络中Spammer检测技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:huangtongfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
快速兴起的社交网络逐渐成为人们获取和分享信息的重要平台。然而,拥有海量用户群体的社交网络也吸引了大量以获利为目的的垃圾用户(Spammer),给正常用户和社交平台带来了严重危害。社交网络中用户特征多种多样,如何选取合适的特征是Spammer检测的关键问题之一。同时,现阶段的Spammer检测技术多采用机器学习算法。其中,无监督检测算法虽然不需要有标注的数据,但是准确率低,难以满足检测要求;有监督检测算法需要大量人工标注数据且容易被Spammer改变策略绕过检测系统,效率较低。针对上述问题,本文具体的研究内容如下:1.针对社交网络Spammer检测中的特征选择问题,本文设计一种基于综合过滤器排名(Comprehensive Filter Ranking,CFR)和遗传算法(Genetic Algorithm,GA)组合的特征选择算法CFR-GA(Comprehensive Filter Ranking-Genetic Algorithm),并将该算法用于下一步的Spammer检测中。该算法首先利用基于过滤器的CFR算法计算特征的综合得分并从大到小排序,删除综合排名靠后的特征,缩小后续GA的搜索范围;同时利用得到的每个特征的综合得分指导GA进行种群初始化,提高GA的运行效率;最后,利用GA进行搜索得到最佳的特征子集。实验证明,该算法获得的特征子集维数较小、分类性能较高,且运行效率优于传统的GA算法。2.针对社交网络Spammer检测中的人工标注数据问题,设计一种基于OPTICS(Ordering Points To Identify the Clustering Structure)和SVM(Support Vector Machine)混合分类模型OSHCM(OPTICS and SVM based Hybrid Classification Model)的Spammer检测算法。该算法首先通过OPTICS算法对数据进行聚类,得到数据的初始类别标签;然后根据聚类得到的簇中样本稀疏程度确定一些可靠的学习样本;接着使用之前设计的CFR-GA算法选出最优的特征子集;最后,将训练样本和最优特征子集用于训练SVM分类器,再用SVM分类器对原始数据分类。实验表明,该算法的分类评估指标接近SVM算法,和无监督的OPTICS检测算法相比有了较大的提高,且不需要人工标注数据。
其他文献
本论文围绕如何提高镍黄铁矿浮选回收进行了一系列探索和研究。通过对矿物浮选捕收剂和活化剂的筛选考察,我们得到了能提高精矿中Ni和Cu的品位和回收率的新方法,该方法对提高
随着计算机普及,人类现在已经进入信息化社会,网络技术的应用越来越广泛,如今人们的生活已越来越离不开网络。尽管,当前网络的传输效率仍然有限,无法满足庞大的用户群体对网
本论文主要研究了 Orion A巨分子云中纤维状结构。我们使用紫金山天文台青海观测站13.7 m毫米波望远镜,对Orion A巨分子云进行了大范围(~4.4 deg2)的12CO、13CO和C180(J=1-0)的谱线观测。在局部热平衡假设下,我们利用12CO和13CO的分子谱线计算该区域的H2柱密度图。基于DisPerSE算法,我们从该H2柱密度图中证认出225条纤维状结构。我们选取其中的46条
近些年,我国资产管理行业经历了快速发展,资管的规模逐年保持高速增长,银行、信托、券商、基金、保险、私募等资管机构既相互合作又各自竞争。宽松的监管环境和层出不穷的金
锆合金由于具有机械强度高、抗腐蚀和变能力强以及热中子吸收截面小等优异性能,在核反应堆中被广泛应用。本文以Zr-Sn-Nb合金为研究对象,在室温以及375oC其进行了轴向力和内压共同作用的多轴棘轮试验,并在室温下将Zr-Sn-Nb合金和Zr-Nb合金的多轴棘轮应变累积规律进行了对比,探究了温度、轴向应力幅值、内压以及合金元素对锆合金单/多轴棘轮效应的影响,主要得到以下结论:(1)室温下,在内压和轴向
无线mesh网络(WMN)具有组网灵活、覆盖范围广和可靠性高等优势,成为下一代网络的研究热点。多路径并行传输(Concurrent Multipath Transfer,CMT)技术能够有效聚合网络带宽、
新疆蟠桃作为新疆特色水果产业中的一种,其商品化处理环节技术较为落后,主要以人工为主,分选效率低,对新疆蟠桃在国际商品化进出口贸易中竞争力产生较大影响。为了能通过对蟠
1993年,越南政府出台了关于推动发展民办高等院校系统的社会化教育政策。在这一教育政策背景下,升龙大学于1994年8月通过了教育培训部审核并正式成立,成为越南的第一所民办高
卫星通信市场是一个竞争激烈和迅速发展的市场。为了更好地适应市场的发展,卫星有效载荷的规模和复杂性也随之增加。其结果是,当放大器发生故障时,以前由工程师人工枚举实现
能量采集型无线传感网(EH-WSN)在近些年被广泛应用于各种领域。不同于电池供电的无线传感网,EH-WSN由从环境中采集的能量供电。因此EH-WSN的系统优化目标就从最大化网络寿命