【摘 要】
:
Web spam是指采用某些技术手段,使得网页在搜索引擎检索结果中的排名高于其应得排名的行为,它严重影响搜索结果的质量。考虑到Web spam数据集的严重不平衡情况,本研究提出先
【机 构】
:
山东师范大学信息科学与工程学院; 山东省分布式计算机软件新技术重点实验室;
【基金项目】
:
国家自然科学基金资助项目(61170145);教育部高等学校博士点专项基金资助项目(20113704110001);山东省自然科学基金资助项目(ZR2010FM021)
论文部分内容阅读
Web spam是指采用某些技术手段,使得网页在搜索引擎检索结果中的排名高于其应得排名的行为,它严重影响搜索结果的质量。考虑到Web spam数据集的严重不平衡情况,本研究提出先使用SMOTE过抽样方法平衡数据集,再利用随机森林算法训练分类器。通过对常见的单分类器和集成学习分类器的对比实验,发现SMOTE+RF方法表现较为突出,并根据实验结果优化了方法中的重要参数,对使用SMOTE方法后AUC值提高的原因进行了分析。在WEBSPAM UK2007数据集上的实验证明,该方法可以显著提高分类器的分类效果,其AUC值已经超过了Web Spam Challenge 2008上的最好成绩。
其他文献
在利用C++处理非数值问题中,用户自己定义数据类型的情况比较普遍,以至运算符重载问题非常突出,程序设计者只要合理选择运算符重载的形式,正确使用重载格式,就一定能充分发挥
详细综述了国内外钽铌资源的储量、特点、品位和分布及世界钽铌产品的结构、消耗数量及应用领域。着重介绍了我国钽铌在采矿、选矿、冶金和钽铌金属加工方面的技术进步和创新
语文教学作为培养学生语文素养与人文精神的重要组成部分,初中语文教学作为语文教学中的重要内容,语文学科性质与特点决定了其所具有的传统文化内涵的包容以及传统文化精神的
<正>前言2018年,原本陌生的大数据、云计算、人工智能成了常用词,也被誉为是新生产力代表的"三大神器",在金融、消费、公共交通、教育、医疗等各行各业广泛应用。大数据、云
心房颤动(房颤)是临床上常见的心律失常,以往通常发生在风湿性瓣膜性心脏病,但是随着风心病人的减少,其他的危险因素已经成为主要病因。高血压目前已成为最常见的可干预房颤的独立