基于免疫克隆特征选择和欠采样集成的垃圾网页检测

来源 :计算机应用 | 被引量 : 0次 | 上传用户:hls123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本合并构成多个平衡的子训练样本集;然后,设计一种免疫克隆算法遴选出多个最优的特征子集;基于最优特征子集对平衡的子样本集进行投影操作,生成平衡数据集的多个视图;最后,用随机森林(RF)分类器对测试样本进行分类,采用简单投票法确定测试样本的最终类别。在WEBSPAM UK-2006数据集上的实验结果表
其他文献
目的比较醇提工艺和水煎工艺生产的蠲痹胶囊(熟地黄、肉苁蓉、骨碎补等)防治大鼠膝骨性关节炎的差异。方法 90只SD大鼠,除空白组10只外,其余采用4%木瓜蛋白酶制备膝骨性关节炎
目的分析2018年唐县主要恶性肿瘤发病及死亡情况。方法根据全国肿瘤登记中心制定的审核方法和评价指标,计算恶性肿瘤的发病率、死亡率以及顺位。结果2018年唐县共报告恶性肿
教学内容:北师大版《义务教育教科书·数学》三年级上册第52-53页。教学目标:1.在解决问题的过程中探索并掌据两、三位数乘一位数(不进位)的计算方法,能正确进行计算。2.
输液敷贴与皮肤粘连时间较长,受到温度的影响,敷贴上的胶质与输液部位皮肤粘连较牢实,非常不易清除干净。有很多患儿第2d来输液,还可见背上残留并且已经发黑的输液敷贴残胶,如果直
针对目前基于视频的车辆测速方法均需通过手工标定而造成的低效和可操作性差的问题,提出了一种对典型配置的道路监控摄像机的焦距、俯仰角、离地距离等重要参数进行自动标定的方法。首选利用自然场景中两组正交平行线在视频图像中形成的消失点之间的内在关系对摄像机的焦距和俯仰角实施精确标定;在此基础上利用视频中目标车辆群体的平均宽度对摄像机与地面之间距离进行自动标定。实验表明,该算法具有参数测量精度高和可靠性好等优
近年来,本是解决万千家庭住房难的公租房,却屡屡出现空置问题。对此株洲市委书记毛腾飞表示,不仅要使没有房子的城市居民住有所居,也要对来株洲的就业创业者提供"兜底"保障,解决他
报纸