数据挖掘中处理不完全数据的类均值方法及其扩展

来源 :长安大学 | 被引量 : 0次 | 上传用户：zhengguowei

【摘要】

：

随着数据收集和存储技术的不断发展以及人们对信息获取的要求越来越高,数据挖掘已经成为许多行业不可缺少的有效工具。在数据挖掘的整个过程中,数据预处理无疑是非常关键的一

【作者】

：

纪燕霞

【机构】

：

长安大学

【出处】

：

长安大学

【发表日期】

：

2010年期

【关键词】

：

数据挖掘不完全数据类均值填补法加权调整法模糊技术隶属度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数据收集和存储技术的不断发展以及人们对信息获取的要求越来越高,数据挖掘已经成为许多行业不可缺少的有效工具。在数据挖掘的整个过程中,数据预处理无疑是非常关键的一个步骤,因为只有采用了可靠、准确的数据才能得到比较满意的挖掘结果。据不完全统计,数据预处理大约占整个挖掘过程工作量的60%左右。不完全数据是数据预处理中遇到最多、也最基本的问题,况且现实世界的数据库很少是完整的,没有缺失的,因此,如何处理这些缺失的不完全数据已成为一个国内外比较关注的、亟待解决的热点研究问题。不完全数据的处理方法可分为删除元组、缺失数据填充和不处理三大类。Han和Zhang等认为,从使用的频率和研究的程度等方面来看,最常用的一种处理缺失值的方法是数据填充法,这种方法无论在技术上还是在理论上都应得到很好的重视和研究。本文主要针对数据挖掘中的不完全数据,研究能够简单有效地填充缺失数据的处理方法。首先,对常用的缺失数据填补方法进行系统总结和比较,其次,针对类均值法的不足,着力予以改进,提出加权类均值调整法和基于模糊技术的类均值填补法。本文的主要研究工作如下：1、通过介绍数据挖掘的相关知识和对挖掘过程的详细阐述,说明数据预处理是数据挖掘中最关键的环节和阶段之一；对该阶段中不完全数据的处理问题进行细致讨论,包括它的产生原因、事前预防、事后处理等内容；分析几种常用的事后填补方法,阐述各方法的原理并指出各种方法的优缺点。2、针对简单填补策略中常用的类均值法主要缺点,提出我们的改进方法：通过对各组赋予不同的权值进行加权调整使得填补结果尽量接近真实值,且通过赋予不同的权重可以使每个对象的填补值都不一样,最终达到提高变量间变异程度的目的。另外,针对加权调整法中权重比较主观的问题又提出了基于模糊技术的类均值填补法,该方法能够很好地克服上述两个缺点。3、用R软件对三种方法进行了模拟实验,通过实验结果的比较验证了所提两种改进方法的可行性和有效性。

其他文献

模糊数学中积分不等式以及分配方程的研究

1965年L.A.Zadeh给出了模糊集的概念，随着模糊集理论的不断研究和深入,越来越多的学者研究模糊积分不等式.而且积分不等式在处理实际问题中起到了重要作用，我们也在此基础上研

学位

模糊数学积分不等式分配方程聚合算子

非线性微分方程的精确解与可积性及其保对称离散格式的研究

对非线性微分方程精确解和可积性的研究有助于对相应物理现象的科学解释和工程应用.　　本文第二章和第三章重点介绍了Bell多项式和Riemann theta函数,并将它们推广到GKdV方

学位

非线性微分方程保对称离散格式Painlevd可积性精确解

若干非线性微分议程的对称与守恒及解析解的研究

本文主要研究几类非线性微分方程的对称,守恒律与解析解.　　首先简单介绍了相关的研究背景和本文的主要工作.然后,将李对称方法推广到一种压力波Kudryashov-Sinelshchikov方

学位

非线性微分方程李对称方法幂级数解守恒律

线性奇异系统的鲁棒稳定性及控制研究

本文研究线性时滞奇异系统的鲁棒稳定性及鲁棒控制问题。给出了奇异系统的鲁棒稳定性,鲁棒镇定的判据；针对给定的性能指标,提出了鲁棒H∞控制器、鲁棒H∞滤波器、鲁棒H∞动态

学位

奇异系统时滞相关鲁棒稳定鲁棒H_∞控制输出反馈滤波器

两类偶阶半传递图的研究

群与图理论作为基础数学学科研究的热门方向，近些年来得到了较快地发展.学者们结合科技工具发现了很多重大的新理论，这些理论同时又为科技的发展奠定了相应的理论基础.图的对称

学位

有限群Cayley图半传递图块图

N人线性-非二次微分对策问题

学位

无界域上一类非自治反应扩散系统的渐近行为的研究

本文主要研究如下一类反应扩散方程在无界域上的解的渐近行为：　　其中g∈L2loc（R,L2(Rn)），u(x，t)是未知函数，f满足如下假设：　　 f(0)=0, f′(s)≥-μ0,(0.2)　　 α2|s|p-k2|s

学位

非自治反应扩散方程一致吸引子渐近紧广义绝对连续无界域

局部对偶平坦以及射影平坦的对数度量

(α,β)-度量是一类可计算的重要Finsler度量,在物理学和生物学等领域有着广泛应用.本文研究了光滑流形M上一类特殊的(α,β)-度量,即对数度量F=α(1+ln(1+β2/α2))的几何性

学位

(αβ)-度量对数度量局部对偶平坦射影平坦充要条件

数据挖掘中处理不完全数据的类均值方法及其扩展

其他学术论文