欺诈网页挖掘中特征优选及检测性能研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:liongliong430
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的蓬勃发展,互联网在带给人们方便的同时,也带来了许多安全问题,其中,以网页欺诈为核心的网络诈骗行为肆意横行。欺诈网页通过各种伪装手段欺骗搜索引擎,提高自身网页排名,从而达到广告、非法传销等目的。在网页欺诈与反欺诈的博弈里,如何快速有效、低成本地检测出欺诈网页,加速构建和谐、安全的互联网环境,成了刻不容缓的问题。在欺诈网页检测的研究中存在两个挑战:一方面,网页基本特征的高维、冗余增加了欺诈网页检测的计算消耗和计算代价,影响检测效率;另一方面,挖掘欺诈网页的过程中可能会泄露敏感数据的隐私。为了应对上述两个挑战,提出了多种有效的特征选择算法,并在此基础上进一步提出一种兼顾数据隐私保护和检测性能的特征选择算法,以及一个高效安全的欺诈网页检测模型。本文首先深入研究了欺诈网页的基本分类以及对应的网页基本特征,并将研究重点放在网页基本特征的优选上,通过分析多种特征选择算法,提出一种基于信息增益(Information Gain,IG)和遗传算法(Genetic Algorithm,GA)的改进特征选择算法IFS-BIGGA,并且得到了最佳最小的特征子集(OMFS)。为了分析对比IFS-BIGGA算法的有效性,本文另外实现了三种基于随机森林和邻域粗糙集的高效的特征选择算法,实验结果证明了IFS-BIGGA算法优于其他特征选择算法。考虑到欺诈网页挖掘中数据隐私保护的重要性,本文结合网页特征选择,在IFSBIGGA的基础上,加入基于条件熵的隐私度和置信度,实现了基于隐私保护的级联特征选择算法PPGAFS,解决了欺诈网页挖掘中提高欺诈网页检测性能和保护数据隐私之间的矛盾,并在此基础上提出了一个高效安全的欺诈网页检测模型WSDM,主要包括数据离散化、数据平衡化、特征选择和分类检测四个阶段。为了验证提出算法和模型的有效性,在WEBSPAM-UK2007数据集上进行了多组对比实验,实验结果表明了提出的基于PPGAFS的欺诈网页检测模型优于其他多种新提出的检测方案,有效保护了数据隐私,并且提高了欺诈网页检测性能。
其他文献
当今社会,计算机的发展可谓是一 日千里,人们利用计算机从生活中获得了越来越多的信息。比如在计算机视觉领域中,随着计算机软硬件的发展以及数码产品的普及,图像的数量以及
放线菌以其非凡的次级代谢产物编码能力而为人们所熟知,是一类具有巨大应用价值的微生物资源。随着从普通环境挖掘新的放线菌资源难度越来越大,近年来很多科学家们将目光聚集
王宏印的《中国传统译论经典诠释》是一部着眼于中国现代译论建设,对中国传统译论进行系统审视和梳理,运用现代理论语言对传统译论进行阐释和转换的理论翻译学专著。该书2003
第五代移动通信技术(Fifth-Generation,5G)将面临着更高的服务速率,更广的覆盖范围,更好的网络稳定性等要求。为了满足这些需求,网络密度越来越大,信道干扰环境也随之变得越
针对村镇地区砌体结构房屋,课题组研制出适用于该结构承重墙的承重型横孔连锁混凝土砌块。该砌块具有砌筑质量好、对工人技术要求低、施工速度快、保温隔热和节省砂浆等优点
半智能基站天线技术是由英国伦敦大学玛丽女皇学院天线与电磁传播实验室提出,它通过改变天线辐射波束的形状,提高百分之二十的用户容量的同时,简化了天线结构和降低天线基站
随着全球气候变暖,使得青藏高原冻土地区公路、铁路、管道等生命线工程面临着很多新的问题与挑战,尤其是在近相变区冻土地区,其具有较高的未冻水含量,导致在附加应力的作用下
镁及镁合金作为最常见的工程材料,质轻是其表现出的主要特征。此外,镁合金还具有低的密度、高的比强度和比刚度、易回收等一系列优点,在军工、航空航天和交通运输等领域具有
三维编织复合材料不需缝合和机械加工,具有良好的综合性能指标,如高的比强度、比模量,高的损伤容限和断裂韧性,耐冲击、不分层、抗开裂和抗疲劳,并可与第三相复合形成力学性
随着新一轮基础教育课程改革在我国正式启动,“思维发展与提升”作为语文学科核心素养之一越来越受到重视。本研究根据写作教学与思维发展的过往研究及相关理论,确定了写作思维的构成要素,并根据小学阶段的现实要求构建分析框架。基于小学阶段写作思维的理论框架,通过访谈、观察等方法对X市5所小学语文写作教学中的思维培养现状进行调查。当前学生写作存在的主要问题有:在写作准备阶段,重写作教学模式讲解,轻写作思维形象训
学位