数据挖掘中处理不完全数据的类均值方法及其扩展

来源 :长安大学 | 被引量 : 0次 | 上传用户:zhengguowei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据收集和存储技术的不断发展以及人们对信息获取的要求越来越高,数据挖掘已经成为许多行业不可缺少的有效工具。在数据挖掘的整个过程中,数据预处理无疑是非常关键的一个步骤,因为只有采用了可靠、准确的数据才能得到比较满意的挖掘结果。据不完全统计,数据预处理大约占整个挖掘过程工作量的60%左右。不完全数据是数据预处理中遇到最多、也最基本的问题,况且现实世界的数据库很少是完整的,没有缺失的,因此,如何处理这些缺失的不完全数据已成为一个国内外比较关注的、亟待解决的热点研究问题。不完全数据的处理方法可分为删除元组、缺失数据填充和不处理三大类。Han和Zhang等认为,从使用的频率和研究的程度等方面来看,最常用的一种处理缺失值的方法是数据填充法,这种方法无论在技术上还是在理论上都应得到很好的重视和研究。本文主要针对数据挖掘中的不完全数据,研究能够简单有效地填充缺失数据的处理方法。首先,对常用的缺失数据填补方法进行系统总结和比较,其次,针对类均值法的不足,着力予以改进,提出加权类均值调整法和基于模糊技术的类均值填补法。本文的主要研究工作如下:1、通过介绍数据挖掘的相关知识和对挖掘过程的详细阐述,说明数据预处理是数据挖掘中最关键的环节和阶段之一;对该阶段中不完全数据的处理问题进行细致讨论,包括它的产生原因、事前预防、事后处理等内容;分析几种常用的事后填补方法,阐述各方法的原理并指出各种方法的优缺点。2、针对简单填补策略中常用的类均值法主要缺点,提出我们的改进方法:通过对各组赋予不同的权值进行加权调整使得填补结果尽量接近真实值,且通过赋予不同的权重可以使每个对象的填补值都不一样,最终达到提高变量间变异程度的目的。另外,针对加权调整法中权重比较主观的问题又提出了基于模糊技术的类均值填补法,该方法能够很好地克服上述两个缺点。3、用R软件对三种方法进行了模拟实验,通过实验结果的比较验证了所提两种改进方法的可行性和有效性。
其他文献
1965年L.A.Zadeh给出了模糊集的概念,随着模糊集理论的不断研究和深入,越来越多的学者研究模糊积分不等式.而且积分不等式在处理实际问题中起到了重要作用,我们也在此基础上研
对非线性微分方程精确解和可积性的研究有助于对相应物理现象的科学解释和工程应用.  本文第二章和第三章重点介绍了Bell多项式和Riemann theta函数,并将它们推广到GKdV方
本文主要研究几类非线性微分方程的对称,守恒律与解析解.  首先简单介绍了相关的研究背景和本文的主要工作.然后,将李对称方法推广到一种压力波Kudryashov-Sinelshchikov方
本文研究线性时滞奇异系统的鲁棒稳定性及鲁棒控制问题。给出了奇异系统的鲁棒稳定性,鲁棒镇定的判据;针对给定的性能指标,提出了鲁棒H∞控制器、鲁棒H∞滤波器、鲁棒H∞动态
群与图理论作为基础数学学科研究的热门方向,近些年来得到了较快地发展.学者们结合科技工具发现了很多重大的新理论,这些理论同时又为科技的发展奠定了相应的理论基础.图的对称
学位
本文主要研究如下一类反应扩散方程在无界域上的解的渐近行为:   其中g∈L2loc(R,L2(Rn)),u(x,t)是未知函数,f满足如下假设:   f(0)=0, f′(s)≥-μ0,(0.2)   α2|s|p-k2|s
(α,β)-度量是一类可计算的重要Finsler度量,在物理学和生物学等领域有着广泛应用.本文研究了光滑流形M上一类特殊的(α,β)-度量,即对数度量F=α(1+ln(1+β2/α2))的几何性