【摘 要】
:
互联网世界发展日新月异,在线社交网络已经成为人们日常生活中不可或缺的一部分。在线社交网络上涌现出了大量被自动化程序控制的社交机器人,模拟正常人类的浏览行为和活动内容,与正常人类建立信任关系,从而达到发起社会工程学攻击的目的,对网络空间安全造成了不容忽视的危害,在在线社交网络中检测和删除恶意社交机器人已经成为行业和学术界重点关注的领域。现实环境中社交机器人和正常人类用户的数量具有显著差异,目前广泛使
论文部分内容阅读
互联网世界发展日新月异,在线社交网络已经成为人们日常生活中不可或缺的一部分。在线社交网络上涌现出了大量被自动化程序控制的社交机器人,模拟正常人类的浏览行为和活动内容,与正常人类建立信任关系,从而达到发起社会工程学攻击的目的,对网络空间安全造成了不容忽视的危害,在在线社交网络中检测和删除恶意社交机器人已经成为行业和学术界重点关注的领域。现实环境中社交机器人和正常人类用户的数量具有显著差异,目前广泛使用的基于机器学习的机器人检测方法由于不同类别的样本数量失衡会导致分类器出现偏差,少数样本的检测率较低。为了保证社交机器人检测准确率,本文提出了改进的CGAN(Conditional Generative Adversarial Networks),用于解决数据不平衡的问题,同时提出了基于高斯核的密度峰值聚类算法产生条件变量,设计并实现了社交机器人检测系统将理论技术付诸于实践。本文的主要研究成果和创新点如下:(1)提出了基于高斯核的密度峰聚类算法(Gaussian Kernel Density Peak Clustering Algorithm,GKDPCA)。原始 DPC A(Density Peak Clustering Algorithm)采用欧几里得距离来计算数据点的距离。当样本空间线性不可分割时,原始DPCA出现错误分类。使用高斯核距离改进了原始DPCA,通过将有限维的原始数据映射到高维特征空间来测量距离。为了提高所提方法的性能,我们引入了高斯核计算数据点的局部密度。通过高斯核距离实现低维到高维的映射,因此GKDPCA可以检测非球形聚类,并且GKDPCA更适合小数据集,对聚类中心的选取更加精准。(2)提出一种改进的条件生成对抗网络方法,用于解决数据不平衡问题。论文将聚类模型用于CGAN,避免了过采样数据噪声的产生,通过输入特定的条件变量生成对应的样本,消除了社交机器人类别分布之间以及内部的不平衡。同时,通过引入带有梯度惩罚的Wasserstein距离改进了 CGAN收敛判断条件,解决了传统CGAN中模型崩溃和梯度消失的问题。(3)设计并实现了社交机器人检测系统。在提出方法的基础上,本文设计并实现了社交机器人检测系统,主要实现了数据检测和账号检测功能。社交机器人检测系统主要包括数据收集模块、特征提取模块、分类器模型训练模块和社交机器人检测模块,同时介绍了各个模块的主要功能和实现流程,最后为了验证系统的有效性和稳定性,对社交机器人检测系统进行了测试。论文将改进的CGAN与三种常见的过采样算法进行比较,研究了不平衡度和原始数据的采样比例对过采样的影响,实验结果表明,改进的CGAN的性能优于其他采样方法,在F1 score、G-mean、AUC等方面获得了更高的评估分数。同时,针对社交机器人检测系统的测试结果表明该系统能够根据用户的输入准确辨别待检测账号的类别,该系统通过改进的CGAN改善原始数据集的不平衡特性,同时利用平衡数据集训练稳定分类器,鉴别用户的输入样本类别。
其他文献
特征选择是数据降维的方法之一,在机器学习中具有去除数据集冗余特征,降低计算时间开销的作用。过滤式特征选择是特征选择方法中的一种,传统的过滤式特征选择方法注重于选出有利于分类器分类的特征,却缺乏对安全问题的考虑。近几年的研究表明,传统过滤式特征选择方法选出特征后,已选特征的数据子集提供给分类器使用时,攻击者能轻易地逃避分类器的检测。为解决此问题,目前现有方法FAFS对此提出了对抗过滤式特征选择模型,
创意文化产业是当前我国重点发展的产业集群,并已经纳入“十三五”规划之中,预计2020年创意文化产业GDP贡献比例将达到5.0%,成为我国新的经济支柱型产业。创意文化产业作为一种新的战略性新兴产业,具有高技术、高附加值和高融合性的特点。发展创意文化产业不仅可以创造新的经济增长点,还可以有效的促进产融结合以及结构的优化。目前黑龙江省正处于经济发展方式由粗放型向节约型的转变,由重点发展重工业向轻工业倾斜
随着大数据技术的不断发展,数据共享变得更为普遍,共享的数据量也随之剧增。大数据共享和交易的普及,在给工作和生活带来便利的同时,不可避免地给大数据的版权保护带来了新的调整,比如数据库在上下级分发和售卖后可能存在二次分发和二次售卖的情况。因此如何在数据库泄露后,实现其版权保护并追溯泄露源成为信息安全研究的一个重点问题。鲁棒数据库水印作为一种行之有效的大数据版权保护技术,得到了广泛研究,但该技术不可避免
近年来,由于石油价格的不断攀升以及汽车排放污染物带来的严重环保问题,使得节能减排成为全球的新课题,为电动汽车发展迎来了最佳时机。未来城市交通将以电动汽车为主,无论是混合动力汽车还是纯电动汽车都需要公用充电设施外插电源充电。然而,随着电动汽车规模化发展,大量电动汽车在充电时的无序充电将会对电网、充电设施和用户产生不可忽视的影响,电动汽车如何快速高效充电有着重要的研究意义和实用价值。本文在电动汽车,基
广西汽车制造业经过近五十年的发展,在产、销量等方面取得了瞩目的成就。广西成为我国重要的汽车生产基地,汽车制造业亦成为广西的支柱性产业之一。然而在发展过程中,亦显现
三维ISAR成像算法可得到目标的三维ISAR散射点集,相较于二维图像,能反映目标的真实尺寸及形状,从而为目标参数提取及目标识别提供必要的信息支持。但受限于雷达分辨率,单视角的三维ISAR散射点集包含较少的目标特征及信息,难以有效提取目标的各项参数。而不同视角的点集间具有互补性,配准后可得到更完整的点集数据,但不同视角的点集间也存在大量的非重合区域,造成三维ISAR散射点集配准相较于二维图像配准更加
催化脱羧加成是模拟自然生物合成反应途径的碳-碳键形成最有效的方法之一。β-酮酸可以作为酮烯酸类化合物的理想替代物,在反应结束后释放出微量的二氧化碳,因此它与其它有机化合物的脱羧转化,已经被认为是一种高效、绿色的方法来获得羰官能团的分子。由于β-酮酸在酸性、碱性或者加热的条件下容易分解成相对应的酮类化合物,所以如何实现β-酮酸在温和的反应条件下高效率转化、高化学选择、高立体选择成为主要研究对象。我们
全世界范围内海洋渔业资源总量连年减少,海洋鱼类保护和管理工作备受关注。为了合理地、可持续地开发海洋渔业资源,设计出高效准确的鱼类检测识别系统意义重大。传统的鱼类检测识别方法主要依赖人工设计的特征,但通常这些特征是不具有通用性的,并且人工特征的设计需要专家级别的经验。为解决上述问题,本文针对船载电子监控场景中的鱼类识别任务提出了基于深度学习的检测识别方案,主要工作包含以下两个方面:首先,本文提出了一
全(多)氟烷基化合物(Per-and polyfluoroalkyl substances,PFASs)是一类高度氟化的有机物,被广泛应用于各类工业和民用产品,因具有高持久性、生物积累潜力、毒性和远距离迁移
锰氧八面体分子筛(OMS)是一类孔道截面为矩形的分子筛,按其孔道截面的长宽可分为OMS-1~OMS-7,OMS-2(具有2*2孔道结构的锰氧八面体分子筛)作为其中的一员,是一种电导率高(10-2Ω-1 cm-1))、比表面积大(102 m2 g-1)、合成方法简便的分子筛材料,在CO的氧化、苯乙烯的氧化、过氧化氢的分解等催化反应中表现出了优良的催化性能。本文包含两项工作,一为Cu或Ni掺杂的OMS