缺失值填充的若干问题研究

被引量 : 0次 | 上传用户:lvhuan009a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据缺失在实际中是经常发生的,甚至是不可避免的。造成数据缺失可能是信息(暂时)无法获取或者在操作过程中被遗漏等。数据缺失对数据挖掘的过程和结果都有十分严重的影响。数据缺失可能直接影响到模式发现的准确性和运行性能,甚至导致错误的挖掘模型。处理有缺失数据的数据集是极端困难的,因为,现有的模式发现算法通常假设输入的数据是无缺失的。于是,这些可用的模式发现算法和实际数据之间存在一条不可逾越的鸿沟。缺失数据的处理方法可分为删除元组、缺失数据填充和不处理三大类。Han和Zhang等认为,从使用的频率和研究的程度等各方面来看,填充方法是最常用的一种处理缺失值的方法,因此,本论文研究如何用填充的方法处理缺失数据。填充缺失数据的方法无论是在技术上还是理论上都得到了空前的重视,国际上有很多专门机构研究这个问题,例如:美国宾州大学和佛蒙特大学都成立有专门的研究小组。但是,无论在统计方面还是数据挖掘领域的缺失填充方法仍然存在许多致命的缺陷。首先,现实数据集通常缺失十分严重,常见的填充方法仅仅利用没有缺失值的完全事例去填充缺失的数据。这类处理方式一方面可能要面对可用信息不足;另一方面忽略了含有缺失值的事例中的有效信息,这样不仅造成了资源浪费,而且填充效果也会出现偏差。其次,用户对所处理的数据集通常没有任何先验知识,常用的参数填充方法经常可能由于参数的错误估计而导致填充的结果严重失实,存在的非参数填充方法在技术上和理论上都很粗糙,并且只在本应用范围内十分有效,一旦被应用到其他应用领域或者一些交叉应用领域,这些在某领域内十分优秀的方法可能会导致极差的填充效果。上述表明,缺失数据填充是一个实际且具有挑战性的研究课题。本论文研究缺失数据填充的如下三方面问题。填充决策属性的缺失问题:本论文提出的DAIM算法能处理混合类型的条件属性,算法首次使用基于混和核的非参重复填充方法填充离散型或者连续型缺失决策属性,并且提出了一种新颖的发现最优窗宽(bandwidth)的网格搜索(grid search)方法,能在有限的空间内穷举式地搜索最优窗宽,大大地减少搜索空间和时间。在缺失值填充过程中研究了填充代价和填充代价约束的问题:本论文首次提出建立代价敏感的填充器必须考虑构造填充器的有效信息问题,算法折中考虑了经济因素和构造填充器所需有效信息来对缺失数据进行排序,提出了一个考虑填充顺序的条件属性缺失的增量式填充算法CAIM。条件属性和决策属性同时有缺失的问题:本论文分析了kNN算法中Minkowski距离公式正确选择Minkowski参数的复杂性,提出了用灰色分析的方法代替Minkowski距离的思想,然后分析了填充缺失值充分利用所有有效信息的必要性,并且提出非参重复填充方法来充分利用所有有效信息的理论,最后的填充算法CDAIM能处理条件属性和决策属性同时缺失的情况。本论文的每种算法都用模拟数据和真实数据进行评估和分析,在各个评价指标的比较中,本论文的算法都优于存在的一些经典算法。本论文的主要创新点如下:(1)在对所处理的数据集的分布没有任何先验知识的情况下,参数填充方法经常由于错误的参数估计导致填充的结果严重失实,此时非参方法是一个很好的替换,但是存在的非参方法在技术上和理论上都很粗糙,本论文的三个算法都对传统的非参方法进行了改进。为了充分利用所有有效的信息,本论文的三个算法都采用重复填充技术。本论文提出的非参数重复填充算法收敛速度要比现有的参数重复填充算法EM算法快,且填充效果上优于一次填充或者多重填充的效果。本论文的三个非参重复填充方法既丰富了重复填充算法理论,也是对非参理论无重复算法的填补。(2)本论文在核填充方法中首次引入混合核,在填充过程中能加强核函数的内插能力和外延能力;在最近邻算法中使用灰色分析代替Minkowski距离的方法,弥补了由于选择Minkowski参数造成填充效果不稳定的缺陷。这些研究建立了新的缺失值填充的理论、方法和技术。(3)本论文首次把填充代价和构造填充器所需的有效信息综合考虑,把填充理论和代价理论有机地融合在一起进行研究。
其他文献
目的:观察紫苏叶提取物(PCPE)对HaCaT细胞增殖及分化能力的影响,旨在明确其在角质形成细胞增殖和分化过程中的作用,为相关皮肤病新的治疗方法的开发提供实验依据。方法:1.采用常温
日本于1955年加入关贸总协定,1995年又随着WTO的诞生成为该组织的成员。作为积极倡导贸易自由化的主要国家之一,日本始终将关贸总协定和WTO的自由贸易原则作为其对外贸易的基本
目的 :探讨维持性血液透析患者血管通路阻塞后的处理方法。方法 :血管通路急性血栓形成者采用局部药物溶栓和经皮腔内取栓法 ;血管通路狭窄伴或不伴血栓形成者采用自体血管、
植物生长素响应因子(ARF)参与调节了植物的向性运动、子叶发育、胚胎形成、叶片器官衰老、维管束形成等,在植物生长发育过程发挥重要调控作用。为研究慈竹ARF基因家族及虫害
目的:评价胰十二指肠切除术后患者以富含支链氨基酸(BCAA)的复方氨基酸为氮源的营养支持效果。方法:选择胰十二指肠切除术后进行1周全胃肠外营养的患者60例,随机分成研究组(
近年来,市场对宽带无线网络需求越来越大,以IEEE 802.16系列空中接口标准为基础的接入技术成为业界关注的焦点。如何在宽带无线接入系统中,为不同服务提供QoS保证是一个非常重要
电感耦合等离子体光谱(ICP-AES/MS)以其检测限低、精密度高、选择性好、基体效应小、线性范围宽和多元素同时测定等优点得到了广泛应用。但是随着科学的发展仅靠ICP-AES/MS常
目的:对母婴血型不合导致新生儿发生溶血的实验室数据进行分析,为新生儿溶血病(HDN)的诊断提供早期直接依据。方法:共纳入160例新生儿溶血病患者,清晨空腹抽取160例新生儿及
目的:探讨尿激酶胸腔内注射治疗结核性包裹性胸腔积液的临床疗效。方法:将结核性包裹性胸腔积液98例随机分为治疗组(50例)及对照组(48例)。两组均给予抗结核、保肝、口服糖皮
骨质疏松症(Osteoporosis)以骨量减少、骨的微观结构退化为特征的,致使骨的脆性增加以及易于发生骨折的一种全身性骨骼疾病。骨质疏松症的发病率已跃居常见病、多发病的第七位