基于随机森林的SVM训练数据选择研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:Hotcoolman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(SVM)在统计学理论基础上建立的研究数据分类和回归的算法.其坚实的理论基础、巧妙的算法实现和高精度的分类性能已经成为机器学习和人工智能领域的研究热点,并且在许多领域中获得成功运用.但是当训练数据的规模非常大时,训练该算法所需的时间及空间复杂度呈指数增长.本文就如何降低支持向量机训练的时间及空间复杂度展开研究,通过引进新的算法对支持向量机的训练数据进行预处理,并将引进的数据预处理算法作进一步的推广,用来解决不平衡数据的分类问题.本文在数据预处理方面提出了随机分组抽样集成算法(Random Packet Sampling Ensemble,RPSE).通过随机分组抽样法来选择基分类器的训练数据,与已有的算法相比,RPSE算法提高了数据选择过程的运行速度,保证了基分类器训练样本的随机性.根据集成间隔来选择支持向量机的训练数据,用选出的数据集来训练支持向量机分类器并得到最终的分类结果.实验表明,与传统的数据选择算法相比,RPSE算法加快了数据选择的速度,并且在保证支持向量机分类精度的前提下,降低了其训练的时间及空间复杂度.本文将提出的随机分组抽样集成算法应用到解决不平衡数据的分类问题上.该算法主要是解决不平衡数据集中的类不平衡问题.对正类数据用随机分组抽样集成算法进行分组,每组中正类样本与负类样本的个数相同.将负类数据集分别与分好组的正类数据集相结合训练基分类器.根据集成规则判断每一条测试数据的分类结果.实验仿真结果表明,与传统的不平衡数据处理方法相比较,随机分组抽样集成算法获得了更为理想的分类结果.
其他文献
由于高的湿强度,高力学强度,高的耐疲劳性能,优异的加工性能和形状保持能力,产自巴西三叶树的天然橡胶广泛用于轮胎工业,耐疲劳制件,医药和家用制品,是最重要的工业橡胶材料
口蹄疫(FMD)一种接触性、热性、急性的传染病,它主要发生在偶蹄动物身上且是由口蹄疫病毒引发的。该病的临诊特点是成年动物的口腔黏膜、蹄部和乳房等处皮肤产生水疱和腐败,幼龄动物多因为心肌炎使其死亡率升高。OIE将该病列为必须报告的动物传染病,在我国被列为一类动物疫病。口蹄疫是一种严重危害奶牛健康的烈性传染病,该病传播途径多,传播速度快、流行范围广,同时,也会造成奶牛养殖业严重的经济损失。该课题选取某
排课管理是高校教学管理信息化的一个重要组成部分,它涉及到与排课相关的教师资源、教室资源、上课班级、上课时间资源等多方面的资源合理调配。而随着目前各高校办学水平不
本文重点介绍了中厚板轧机在轧制过程中由于各种原因造成的轧辊轴向窜动,并探讨了轧辊轴向窜动对带钢平直度及其横断面几何精度等的影响,文中分析了产生轧辊轴向力的原因,从产生
当今在我国经济快速发展的背景下,人们对设计与生活的认知也不断提升,商业空间的品质成为人们对设计文化评价的重要标准。商业空间环境设计并不仅仅是空间的设计更是一种营销策划,它的设计系统都在遵循着一个依据——灵魂,而这个灵魂就是品牌。商业空间的物质层面是它的空间布局、材质、灯光等设计要素,可是当品牌涉及到现实中所处的空间时,仅仅物质层面就不能满足一个企业品牌的发展了,更重要的是这个空间设计怎么体现企业、
钢管混凝土是钢-混凝土组合结构中的一种组合设计形式,兼具钢结构和混凝土结构的一些特征,可以充分地发挥钢材和混凝土两种材料的优点,弥补彼此的缺点,因而具有优良的力学性
本文中作者就当前城市河道整治存在的主要问题,即防洪标准低,水体污染,河道淤积,河床形态,面减少,护岸结构不稳定等方面展开叙述。通过研究表明,通过科学规划的发展,完善长效管理机制
罗氏沼虾(Macrobrachium rosenbergii)是国内主要的淡水虾养殖品。当前,我国罗氏沼虾种苗繁育和养殖技术达到国际先进水平,但仍存在规格不均、个体小型化、产量低下等问题,严重制约着我国罗氏沼虾养殖业优质、高效地发展。因此,开展罗氏沼虾生长性状候选基因的研究,明确其表达规律,可为进一步探究候选基因在生长发育过程中的调控机制提供依据。以孟加拉群体为基础群,构建20个全同胞家系,比较其
邓小平的国际战略伦理思想是他的丰富的国际战略思想和重要组成部分。本文主要论述了邓小平国际战略思想的伦理设计和国际战略伦理的主要原则。
为了探讨600MW超,临界机组直流锅炉燃烧的调整,本文主要以平圩发电厂两台600MW超临界机组的直流锅炉作为范例,针对其制粉系统不足,磨煤机煤量大,锅炉排烟温度高等问题,通过对直流锅