不平衡数据的距离加权算法的误差分析

来源 :浙江师范大学 | 被引量 : 1次 | 上传用户:Q529801428
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着科技和信息技术的发展,高维小样本问题和不平衡数据问题越来越受研究者的重视。支持向量机算法是最流行的分类算法之一,由于其分类边界的确定只依赖于部分被称之为支持向量的训练样本,这导致其在处理高维小样本数据时产生了“数据堆积”现象,从而影响了其分类效果。距离加权分类算法旨在解决支持向量机在处理高维小样本数据时所固有的“数据堆积”现象,但该算法并不能很好地处理不平衡数据的分类问题。带权的距离加权分类算法的提出旨在通过灵活地选择两类样本的权重改进标准的距离加权分类算法对不平衡数据的分类效果。目前距离加权分类系列算法已得到了广泛的应用,但其数学理论方面的研究还比较缺乏,尤其是缺乏定量的误差分析理论。本论文主要研究带权的距离加权分类算法,旨在统计学习理论的框架下对该算法进行定量的误差分析。首先我们建立了加权比较定理,该定理建立了加权错分误差与加权推广误差之间的关系,其在误差分析中起着关键作用。接着我们通过引入新的投影算子克服了本文中目标函数无界带来的分析上的困难。最后通过概率不等式和覆盖数等技术估计了加权推广误差,并在此基础之上建立了基于核的加权距离加权分类算法的收敛速率。本文为处理不平衡数据的距离加权分类算法建立了定量的误差分析,完善了该算法的误差理论。
其他文献
随着高等教育规模的不断扩大,如何才能提高教学质量成为当前高校面临的难题。同时,在国家“一带一路”的发展战略的推进过程中,航运事业也需要更多具有较高综合素质的人才。
新型材料UHPC超高性能混凝土板在上音歌剧院幕墙工程中首次大面积应用,由于国内尚未形成规范文件,这种超大规格板块在幕墙设计时如何连接,在满足结构计算前提下如何实现三维
2019年湖北省正式启动了新高考综合改革,国家、地方、学校三级课程体系逐渐铺开,校本课程的开发的意义也就更显重大。校本教材是校本课程开设的关键,更是实施校本课程的前提
随着全球化的加深,世界各国交往更加密切。在当今复杂的国际政治环境中,日益增多的全球公共议题需要世界各国开展合作才能解决,国际关系的主题逐渐从冲突转向合作。在硬权力
污染问题是现在人类发展遇到的普遍问题,其中油类污染和有机化合物污染尤为常见,研发出高性能的具有应用价值的吸附材料是缓解污染问题的一个重要途径。多孔聚苯乙烯(PS)纤维膜作为吸附剂已有较多报道,所得到的纤维膜对于油类污染尽管具有较好的吸附效果但由于力学性能较差影响了该类材料的进一步应用。而β-CD由于其独有的锥形空腔结构,能够与有机化合物形成主客体包合物,从而引起人们极大的兴趣。本文试图利用同轴静电
东天山构造成矿带是我国第二大铜镍硫化物矿床成矿带,铜镍矿大多集中分布在库姆塔格砂垄至图拉尔根一带。近年来随着白鑫滩、路北、月牙湾等矿床的发现,表明该地区铜镍矿的产出范围已经西延出库姆塔格砂垄,向北延伸至了大南湖-头苏泉岛弧带,扩大了铜镍成矿带的规模。本文通过系统的野外地质调查和成矿作用研究,取得的主要认识如下:月牙湾基性杂岩体岩相分异明显,具多期次贯入特点,岩浆的侵位分为三个期次,第一期为辉长岩相
本论文旨在探索合成结构新颖的过渡金属取代的钨氧簇,实验过程中采用水热合成技术,以缺位导向思想为指导。本文根据文献,制备了Na9[A-α-PW9O34]·7H2O、Na10[A-α-SiW9O34]
软件测试往往需要通过完全测试来保证软件系统的质量。然而,现实生活中引起系统发生故障的输入域参数可能有很多,这使得完全测试几乎成为不可能。组合测试是一种输入域测试技
为了深入贯彻《中共中央国务院关于深化教育改革全面推进素质教育的决定》,无锡市滨湖区教育局试行了滨湖区中小学实施学校体育、艺术、科技教育“211”项目指导意见,各学校
近年来酰胺类杀菌剂在我国一些产地的瓜果、蔬菜、烟草中检出率较高,但这类杀菌剂若大量进入环境或人体中,会对环境及人体造成一定影响,因此对其进行检测有必要性。但现行的酰胺类杀菌剂的检测方法存在设备昂贵、检测成本高、检测周期长,且需要专业人士操作等方面的缺点。本文基于分子印迹电化学传感器具有灵敏度高、检出限低、操作简便、制备成本低、应用范围广等方面的优点,对4种不同的酰胺类杀菌剂(甲霜灵、氟吗啉、苯霜灵