【摘 要】
:
分类问题中,当数据集中某类别所包含的样本数目显著少于其他类别时,很多分类算法的准确率明显下降。针对这一问题,研究者们提出了多种解决方法,其中以决策树为基分类器的集成
论文部分内容阅读
分类问题中,当数据集中某类别所包含的样本数目显著少于其他类别时,很多分类算法的准确率明显下降。针对这一问题,研究者们提出了多种解决方法,其中以决策树为基分类器的集成学习方法是重要的一类。本文研究了决策树处理不平衡数据集的三个问题。第一,不同于常用的将少数类与多数类样本数目调整至相近的采样方法,本文从决策树最优分裂的角度,提出了在不同分裂指标下确定少数类过采样比例的算法;第二,对于调整样本类别比例对二分类决策树分裂的影响,本文从最优分裂特征的选择出发,给出了类分布变化对二分类决策树影响程度的判别方法;第三,本文研究了采样方法调整了训练集的类分布后,二分类分类器后验概率估计出现的偏差,并给出了一种修正后验概率估计偏差的简洁方式。结合第二章的主要结论,在第三章,对于过采样与集成学习结合的处理方法SMOTEBoost,本文将算法每次迭代中固定的过采样数目,改进为根据样本类别数目做适应性调整;对于欠抽样与集成学习结合的处理方法EUSBoost,本文对其后验概率估计的偏差进行了修正。在UCI数据集上的实验结果表明了以上改进均提升了分类效果。
其他文献
近年来,用户需求呈现爆炸式增长,不同应用程序对计算需求也越来越大,时延要求越来越高。传统的集中式云计算虽然有充足的计算和存储能力,但应对大量的时延敏感型应用,统一的集中式处理不仅会导致网络拥塞严重,用户距离云基站较远,数据在终端和基站间传输不能保证传输链路的可靠性且会耗费大量时延。因此,移动边缘计算收集利用网络边缘的闲置资源,保证一定的处理能力同时,距离用户更近,满足时延敏感型任务的需求。本文在基
随着改革开放的深入推进,我国经济发展水平提升显著,然而在经济建设和发展的过程中,一些问题也逐渐涌现,例如,住房拥挤、交通堵塞、城市垃圾增加、空气污染加重等,然而这些问题影响着我们的居住环境,所以在城市的发展建设中,人们对人居环境建设的关注持续增加。新疆作为“一带一路”的核心区,同时也处于西北干旱区,生态环境较为脆弱,生态环境对人类的活动的影响关系密切,所以一些城市人居环境问题也开始出现,为了给人类
随着计算机视觉技术在工业控制、目标检测等各个领域的长足发展,越来越多的技术运用到遥感卫星成像、视频监控检测等户外场景中来,并取得了良好的效果。然而当出现雾、沙尘等恶劣天气时,此类室外视觉系统所获图像的质量就会受到影响,算法难以完成既定任务。因此,有雾图像的复原处理,就有着重要的研究意义。因此为了提高单幅图像去雾算法的图像恢复能力,本文主要完成了如下工作:(1)针对合成训练数据集构建过程中,学者对大
中国当代艺术的表现形式通过对外来艺术的不断学习与借鉴,从主题性创作逐渐转变成对个人内心世界的呈现。强烈的个体意识冲击了中国传统文化中的集体主义,在艺术创作中把人性和个性作为核心阐述。中国当代艺术家的思想从固有的意识形态中解放出来,并朝着个性化和多元化发展。本文主要针对“故事性”解读、举例说明、人文情怀、情感表达以及自我创作来分析“故事性”在当代油画人物创作中的重要性。“故事性”绘画的定义是用来描绘
统一战线是党的“三大法宝”之一。新时代坚持统一战线国家战略依然是我党凝聚人心、汇聚力量的政治优势和战略方针,是新时代建设社会主义现代化的重要法宝,是全面增强党的阶级基础、不断巩固扩大党的群众基础、筑牢党的执政根基的重要手段,是全面建成小康社会的决胜关键。在新的历史条件下,对乌兰夫统一战线思想展开与时俱进的剖析研究,可以帮助我们不断扩大团结面,凝聚正能量,为我国“五位一体”总体布局、“四个全面”战略
几十年来,分类器设计取得了很多很好的成果。然而目前一些正确识别率高的SVM分类器、SVDD分类器、深度学习分类器等仍然有2%左右的错误识别率。由于在比较严肃的认证识别场合,要求错误识别率接近于0%,因此这些分类器不能直接用于重大疾病认证识别、人的身份认证识别、钞票认证识别、票据认证识别、恐怖分子认证识别等需要高精度认证识别的场合。针对以上问题,本文基于SVDD算法和仿生模式识别理论的覆盖思想,提出
中国共产党党内监督,是党员和党组织按照党章等党内法规,对党员和党组织进行督查以达到自我完善目的的实践活动。党内监督不仅是中国共产党的优良传统和政治优势,更是中国共产党实现自我净化、自我完善、自我革新、自我提高的重要举措。党的十八大以来,随着党的建设新的伟大工程持续推进和全面从严治党的不断深化,党内监督建设面临着一系列新要求与新挑战。以习近平总书记为核心的党中央高度重视党内监督问题,在吸取党的历史经
文本情感分析是自然语言处理领域中一项重要任务。随着互联网的发展,网络上出现了大量的文本资源,对其中蕴含的情感进行分析可以提炼出巨大的价值,为政府和企业等机构的决策提供支持。本文主要关注文本情感分析领域中的两类任务:句子层级与目标层级的情感分析。同时,探索深度学习在情感分析领域中的研究方法和创新,主要研究工作如下:(1)在句子层级的文本情感分析任务中,基于顺序特征的长短期记忆网络等结构只提取到了文本
无线通信系统的更新换代与持续发展对作为其关键部件的天线提出了更高的小型化、集成化、高增益和低剖面等技术要求。滤波天线不仅兼备辐射特性,滤波特性以及阻抗匹配功能,还能有效减小无源电路的尺寸,满足小型化设计要求。介质谐振器天线的损耗小,辐射效率高,同时具有较高的功率容量,易于激励和辐射模式多样化等特点。将滤波天线与介质谐振器天线相结合的滤波介质谐振器天线将同时兼备二者的优势,在无线通信系统中具有潜在的
视线方向作为一种重要的预测目标注意力的手段,在科学、医疗、商业、教育、刑事、人机交互等各个领域都有深入广泛的应用。随着微电子技术和数字图像处理的不断发展和进步,越