基于拟合特征分布的垃圾网页检测方法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:kylinbird1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了有效地检测垃圾网页,通过分析网页内容特征和链接特征的分布,发现正常网页特征分布有规律而垃圾网页特征分布散乱,根据正常网页特征分布与垃圾网页特征分布的不同,提出了用分布函数拟合正常网页特征分布,并计算正常网页和垃圾网页比例与分布函数的差值,以差值为阈值使用C4.5决策树对垃圾网页进行检测。实验结果表明,该方法能够有效地减少被错误分类的正常网页,提高准确率。
其他文献
民办职业院校作为我国高等教育体系的重组成部分之一,在为社会培养大量优秀技术人才的同时,也面临着生源匮乏、社会认可度低、激烈的高校竞争等困境,改善民办职业院校教育的发展
详细介绍了李新品种‘鸡蛋李’的选育过程、果实经济性状、品质、植物学特征、生物学特性等。‘鸡蛋李’开花期晚,成熟期中晚,果实卵圆形,紫红色,色泽艳丽;果实个大,平均单果
HWMP(hybrid wireless mesh protocol)协议中的路径选择判据仅注重考虑链路中节点所占信道的资源量,而没有综合考虑其它节点的干扰。针对该问题,结合802.11sMAC层的特点,通过提
前苏联著名教育理论家和教育实践家苏霍姆林斯基在《苏霍姆林斯基论家庭教育》中曾说过,家庭教育是教育学的第一篇章,儿童是从父母那里开始认识世界的。家庭教育既是摇篮教育又
目前经济迅速发展,建筑行业也兴起繁荣,对于建筑施工的要求也越来越高,建筑工程中的施工器械质量的保证也是施工安全的一大要素。作为建筑工程中必不可少的一种施工器械,起重机的
针对传统基于角色的访问控制机制中授权方式单一的不足,提出一种基于信任相似度的RBAC访问控制机制。通过计算用户信任特征向量与标准特征向量之间的相似度估量用户的可信程度
随着社会经济的飞速发展,我国的数控加工在产品制造中的作用越来越突出。刀具是数控加工工作最主要的工具,对其的选用关系到数控加工的质量,也是衡量该工作水平的重要指标。由于
在小麦出苗后,由于受土壤、水分、播深等影响,加上受自然条件和栽培措施的影响,往往形成各种不同类型的弱苗。由于造成弱苗的原因不同,为便于因苗对症管理,应采取相应的补救措施。
HiCuts(hierarchical intelligent cuttings)算法需要对搜索空间进行切割,导致规则的复制,消耗过多存储空间,HyperCuts算法虽然允许每一步对多个维同时进行切割,降低了决策树的
在21世纪,教育市场竞争日趋激烈,就业压力增加,学生就业已成为普遍关注的问题,学生自身的就业心态也成为不可忽视的问题。本文运用文献资料、问卷调查、数理统计等研究方法对北京