基于随机森林和欠采样集成的垃圾网页检测

来源 :计算机应用 | 被引量 : 0次 | 上传用户:idea0315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK-2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging和Adaboost集成分类器算法效果
其他文献
目的探讨鼻内窥镜手术配合及总结护理经验。方法回顾性分析198例鼻疾病患者性内窥镜治疗术前护理及术中配合的过程,并加以总结。结果手术过程顺利,本组198例患者总有效率达95
本文论述了医院图书馆在发展过程中的现状及所面临的问题。重塑医院图书馆的形象要从根本上转变观念,从自身优势出发,强化服务意识。努力提高信息服务质量,使其更好地为医院宣传
Backgrounds:Streptozotocin(STZ)-induced diabetic monkey is a wide used preclinical animal model for the investigation of diabetes such as islet transplantation
为解决拖挂式移动机器人系统路径规划算法精准性低、稳定性差和无法考虑系统间安全性等的问题,提出一种基于路径跟踪方法的路径规划算法。该算法融合快速拓展随机树(RRT)基本算法和路径跟踪控制方程,通过自动拟合样条曲线,跟踪并生成节点间轨迹,以此提高路径精准性;加入系统夹角约束条件和节点击中机制提高算法稳定性和结果安全性;此外,加入贪心优化算法,针对结果路径进行优化处理。通过仿真实验结果表明,相较基本RR
<正>1研究目的工作记忆(working memory,WM)是人类日常生活、学习中非常重要的高级认知能力,它是指在执行认知任务过程中,暂时储存与加工信息的能量有限的系统,是个体认知活
会议
根据全站仪三角高程测量的原理,应用误差传播定律进行精度分析,确定了造成三角高程测量误差的原因及消除方法,探讨了全站仪三角高程在公路等线性工程中的应用方法,提出了非控制点设站的三角高程测设方法,以供参考。
介绍了广州市某商务办公楼的工程概况,对其结构超限进行了分析,基于专家审核意见提出了结构设计与抗震构造措施,并进行了结构计算与分析,具有一定的参考价值。
目的探讨外伤性急性硬脑膜下血肿术后患者复查头颅CT继发对侧硬脑膜外血肿,报告日见增多,危害性大,值得临床重视。方法对本组18例外伤性急性硬脑膜下血肿术后患者复查头颅CT.继发
为提高突发事件级联失效对现实碳排放关联系统破坏程度的评估可信性,在传统复杂网络的"负载-容量"级联失效模型基础上,考虑个体成员对负载的冗余能力,提出一种过载失效概率,构建了考虑节点过载状态的级联失效模型,并基于节点特性提出了6种过载节点负载分配策略。仿真结果表明:在过载节点负载分配策略中,综合分配策略整体上较优,能够有效控制级联失效的规模,增加网络鲁棒性;在一定范围内提升过载参数有助于降低级联失效
针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于Web Harvest的健康领域Web信息抽取方法。通过对不同健康网站的结构分析设计健康实体的抽取规则,实现了基于Web