【摘 要】
:
不完整数据分类问题是机器学习领域中的一个重要分支。随着传感器技术、信息技术等科学技术的迅猛发展,数据获取途径日益丰富,这给机器学习、数据挖掘等领域的发展带来了极大的机遇。然而在实践中,通常会因为存储设备损坏、数据采集设备能力有限等多种因素导致数据出现缺失的情况,传统的机器学习分类算法往往是针对完整数据而设计的,因此,缺失值的存在导致了多数现有数据分析方法的不适用。尽管有少数算法可以直接对不完整数据
论文部分内容阅读
不完整数据分类问题是机器学习领域中的一个重要分支。随着传感器技术、信息技术等科学技术的迅猛发展,数据获取途径日益丰富,这给机器学习、数据挖掘等领域的发展带来了极大的机遇。然而在实践中,通常会因为存储设备损坏、数据采集设备能力有限等多种因素导致数据出现缺失的情况,传统的机器学习分类算法往往是针对完整数据而设计的,因此,缺失值的存在导致了多数现有数据分析方法的不适用。尽管有少数算法可以直接对不完整数据进行分类。但是,当原始数据集中包含大量缺失值时,分类性能严重降低。因此,对于不完整数据处理和分类问题的研究逐渐成为备受关注的课题。缺失值填充是当前较为主流的不完整数据处理方法。当前已有许多缺失值填充方法(包括单一填充和多重填充)用于处理不完整数据分类问题。大量研究表明,这些经典的填充方法在不同场景下有着各自的优势且在分类之前将缺失值填充完整的策略能够有效提升不完整数据的分类精度。因此,如何融合不同填充方法的优势来提升不完整数据的分类性能具有十分重要的意义。此外,现有方法在填充缺失值时对于样本在空间分布上的有效信息考虑不多。鉴于此,本文对于如何利用样本的空间局部邻域信息提升不完整数据填充效率和分类性能进行研究。首先介绍了不完整数据分类问题中的难点及其主要存在的问题;然后简述了现有的传统不完整数据分类方法并简要分析了它们的核心思想和优缺点;然后本文主要从以下两个方面进行研究:1、本文首先提出了一种可广泛应用于诸多现有填充方法的框架(CCA-IR),由预填充、空间邻域信息挖掘和修正填充三部分构成,主要思想是对经过现有填充方法填充过后所得完整数据集构造性的建立覆盖,以此进一步挖掘样本在空间分布中的有效信息,利用样本在空间分布中的局部邻域信息对预填充结果进行修正填充从而提升不完整数据的填充效果,使得修正填充后的值更接近于真实值。2、CCA-IR框架的提出是为了提升现有不完整数据填充方法的填充效果,并且仅考虑对单个填充方法所得结果进行修正填充。在此基础之上,本文进一步的又提出了两种新的方法对不完整数据进行分类:1)基于精度加权修正填充的不完整数据分类方法(WIRFA)和2)基于局部邻域信息修正填充的不完整数据集成分类方法(E-IRSNI),二者在对不完整数据分类前均对原始数据集进行了修正填充,但区别于CCA-IR框架的是,两种方法都融合了不同缺失值填充方法的优势,前者通过分类精度进行缺失值的加权修正,后者则是通过挖掘样本在空间中的分布,利用局部邻域信息修正缺失值,继而构建集成学习进一步提升分类精度。
其他文献
如何通过恰当的宏观财政手段,实现提升农地利用效率、农村经济发展水平和农民收入的目的,是急需研究的关键问题。近年来,农业补贴政策已经成为中央政府强农惠农政策的最重要
以往的决策研究关注的大多是个体如何在可选项间立即做出选择,却忽略了决策领域另一个普遍现象——延迟选择。近年来,有关延迟选择的研究得到了广泛的关注。已有的研究分别从认知、情绪和个体差异特征的角度探究延迟选择的影响因素。此外,有研究表明决策风格这一个体差异特征在决策中发挥着重要的作用。而关于最优化、满意型决策风格和延迟选择的关系,目前少有研究。因此,本研究重点探究最优化、满意型决策风格和延迟选择的关系
中国的煤炭产量占世界总煤炭产量的近45%,而且煤炭开采破坏大量土地产生巨大的碳排放,所以低碳减排已成为中国等世界采煤大国的责任和共识。科学研究表明土地利用优化能在很大程度上增加碳汇,对促进区域乃至全球低碳减排具有重要意义。但是目前国内外对井工煤矿区低碳土地利用优化的研究很少,也缺乏响应的理论来指导井工煤矿区低碳土地利用的规划和实践。本文以晋煤集团大型煤炭基地内的集中连片井工煤矿区为研究对象,首先以
基于标记点的谱聚类算法降低了谱聚类算法的计算复杂度,避免了传统谱聚类算法计算时间长的应用局限。但是,使用聚类准确性和标准化互信息衡量聚类有效性,基于标记点的谱聚类算法的聚类有效性较低。如何平衡聚类有效性和聚类时间成为了基于标记点的谱聚类算法面对的难题。针对此问题,提出了一种基于KD标记点的谱聚类算法。首先,提出一种KD标记点选取方法,该方法使用超平面将样本空间不均等划分为p个子块,超平面垂直于样本
为了遏制囤积商标等恶意注册行为,2019年新修订的商标法明确将“不以使用为目的的恶意商标注册申请”列为驳回注册或宣告无效的绝对事由,不受申请主体和期限的限制。商标注册阶段“使用意图”或者“使用目的”要求第一次在我国商标立法中被提及,其制度定位、调整范围、判断标准等关键问题有待论证。2019年10月,国家市场监督管理总局发布的《规范商标申请注册行为若干规定》将缺乏使用意图的恶意注册行为类型化为五类情
近年来,流式文档广泛地应用在社交、媒体、办公以及出版等领域。面对海量的流式文档,如何使计算机自动、准确地理解文档成为了各行各业开展其他应用研究的基础。其中对流式文档结构的理解,一方面可为文档检查优化、文档自动排版、结构化检索等应用奠定基础,另一方面也可辅助篇章层次分析、文章主题抽取等更高层次的语义研究,有较大的应用价值。由于流式文档格式的复杂性、排版风格的差异性等因素,导致计算机自动理解其结构较为
知识爆炸的信息化时代,人们获取信息的途径、思考的方式都发生了深刻变化。正是环境、工具的改变,信息时代对学习者的能力也有了不同以往的要求,更加注重学习者的批判性思维、问题解决等高阶能力。深度学习作为一种注重学习者以批判质疑的态度看待知识、积极主动的将新旧知识进行联结,并能利用获取的知识解决存在于现实生活中问题的学习过程,与当前社会对人才的要求不谋而合。面对知识的爆炸增长,仅仅凭借单纯的死记硬背、填鸭
针对传统入侵检测模型在高维数据且数据不均衡环境下检测性能较差的问题,采用基于深度学习模型的特征学习与泛化能力与不平衡算法中过采样算法对数据分布不均问题的解决方案,提出了一种自适应过采样算法(ADASYN,Adaptive Synthetic Sampling Approach)与改进堆叠式降噪自编码器(SDA,Stacked Denoise AutoEncoder)结合的入侵检测模型,在保持原有深
复值神经网络是一类用复数变量解决复杂问题的网络。梯度下降法是训练复值神经网络的流行算法之一。目前,建立的传统网络模型大多数是整数阶模型。与经典的整数阶模型相比,建
近年来,随着互联网技术的快速发展与应用,线上数字内容呈现出爆炸式的增长趋势。用户在使用传统搜索系统进行信息搜索时,经常会获得海量不相关的搜索结果,这些结果往往与用户