领域知识参与数据挖掘预处理阶段的研究

来源 :北方工业大学 | 被引量 : 5次 | 上传用户：leezuo

【摘要】

：

众所周知,数据库中往往存在冗余数据、缺失数据、不确定数据和不一致数据等诸多情况,这些数据成了知识发现的一大障碍。因此,数据预处理就成为数据挖掘过程中非常重要的一环

【作者】

：

张文凌

【出处】

：

北方工业大学

【发表日期】

：

2008年01期

【关键词】

：

领域知识数据预处理数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

众所周知,数据库中往往存在冗余数据、缺失数据、不确定数据和不一致数据等诸多情况,这些数据成了知识发现的一大障碍。因此,数据预处理就成为数据挖掘过程中非常重要的一环。如果将领域知识应用于数据于处理当中,可以有效地改善数据集的质量,缩小数据集的样本数量,从而提高数据挖掘的速度和质量。本论文针对应用领域知识的数据预处理技术进行了深入的理论和应用研究,改进了部分现有的数据预处理算法,并设计和实现了通用的应用领域知识的数据预处理系统。主要研究内容如下:1、对数据预处理技术的概念和意义做了全面和详细的描述,分析了数据预处理的各种主要方法,涉及数据清理、数据集成、数据变换和数据规约,并指出了现阶段数据预处理存在的缺陷;2、介绍了领域知识的概念和研究现状,重点给出了领域知识在数据挖掘各个阶段的重要意义和领域知识的表示方法;3、重点研究了面向数据预处理技术的领域知识的分类和表示,将应用于数据预处理的领域知识分为:范围知识、层次知识、规则知识和数理统计知识,依据此分类设计了领域知识的基于数据字典和XML文件的两层存储结构和存储方法,以及将领域知识应用于数据预处理过程的通用算法;4、着重研究了缺损数据处理和数据离散化两种数据预处理方法,分析了基于聚类的缺损数据处理算法,使用量化相似关系模型改进了ROUSTIDA算法,从初始分割点、最大容忍区间和综合考虑各属性的分割点三个方面改进了属性类别差异数据离散化算法;5、给出了所开发的应用领域知识的数据挖掘系统的框架结构、设计方法及处理流程,实现了基于领域知识的数据预处理系统。

其他文献

高校保健体育课实施分层次教学的研究

通过文献资料法，对高校弱势群体学生的范围、形成的原因以及目前高校保健体育课教学存在的问题进行了分析，并从学生身体形态、身体机能水平的层面对弱势群体学生进行了重新确定

期刊

保健体育课分层次教学弱势群体划分health care PE education of multiple levels weak group

rt-PA静脉溶栓对急性缺血性卒中患者血管再通率及神经功能的影响

目的:探讨rt-PA静脉溶栓对急性缺血性卒中患者血管再通率及神经功能的影响。方法:选取急性缺血性卒中患者100例作为研究对象,按照随机数字表法分为对照组和观察组各50例,对照

期刊

急性缺血性卒中RT-PA血管再通率神经功能Acute ischemic strokert-PAVascular recanalization rateN

低空无人机遥感技术在交通工程中的应用研究

交通工程项目具有带状分布的特点,常规的区域状航线规划方式无法适用,对无人机测绘工作的开展带来了一定困难。本文探讨了低空无人机遥感技术在交通工程中应用的可行性,结合

期刊

无人机遥感交通工程空三加密

叶燮美学思想研究

清初叶燮的《原诗》以其史、论、评相结合的言说方式,有别于传统诗话的形而上学品格,得到学术界的广泛关注和认可。《原诗》作为继《文心雕龙》之后又一部自成体系的理论著作

学位

叶燮《原诗》和谐现代意义

低分子肝素联合血栓通注射液治疗急性脑梗死患者的效果

目的:观察低分子肝素联合血栓通注射液治疗急性脑梗死患者的效果。方法:选取96例急性脑梗死患者为研究对象,按随机数字表法分为对照组与研究组各48例。对照组给予血栓通注射

期刊

急性脑梗死低分子肝素血栓通注射液

市场经济条件下北京奥运会市场开发问题探讨

主要探讨市场经济条件下北京奥运会市场开发中存在的市场开发的概念,市场发育程度,市场运行规律、功能以及市场失灵等问题,以期为2008年北京奥运会的市场开发提供合理、科学

期刊

奥运经济北京奥运会市场开发市场经济market economy Beijing Olympic Games market development

农民协会发展问题的研究

随着我国农民负担和贫困的加重,农民要求摆脱贫困、维护农民利益的呼声越来越高,并随之出现了多种要求利益表达、政治参与的农民代表团或协会等自发性组织,在一定程度上发挥

学位

农民农民组织化农民协会

马来酸依那普利叶酸片治疗H型高血压患者的效果

目的:观察马来酸依那普利叶酸片治疗H型高血压患者的效果。方法:选取142例H型高血压患者作为研究对象,按照随机数字表法将其分成对照组和观察组各71例。对照组给予苯磺酸氨氯

期刊

H型高血压依那普利叶酸片血浆同型半胱氨酸H-type hypertensionEnalapril maleate and folic acid table

领域知识参与数据挖掘预处理阶段的研究

其他学术论文