面向数据挖掘的数据预处理系统设计与实现

被引量 : 36次 | 上传用户:jsdfyxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
企业信息化的高速发展使得各企业都积累了大量的数据,他们都在绞尽脑汁的试图将这些数据应用到自身发展的决策中.数据挖掘的目的是从大量数据中提取隐含的同时又是极为有用的信息,使数据得到有效的利用.然而,由于数据库架构设计不合理,数据管理维护不当,数据采集或录入的错误和一些其他原因等,导致数据中难免会存在一些问题.此外,企业与企业间的数据交流也产生了大量的数据质量问题.这些问题很大程度上影响着数据挖掘的成败.因此,使用数据预处理技术改善数据的质量显得尤为重要.本文首先介绍了数据预处理的相关理论知识,按照一般文献中对数据预处理的任务划分对数据预处理的各个部分进行了理论上的概述.其次,根据数据预处理中的基本任务结合实际应用和研究情况将数据预处理重新分为了质量检查、数据清理、属性变换、实例变换、属性选择和实例检测六个部分.进而以此为架构设计并实现了一套面向数据挖掘的数据预处理系统,该系统包括数据格式转换子系统和预处理算法实现环境子系统两部分:(1)数据格式转换子系统能够连接各种数据源,包括数据库或者平面文件等,实现对数据源的统一浏览、操作以及相互间的格式转换.(2)预处理算法实现环境子系统主要功能有数据质量的检查,缺损值的填充,数据的规范化,噪音数据的平滑以及重复记录的检测.最后,本文还对重复记录检测问题所涉及的属性相似度、记录间的比较策略和重复记录的识别策略进行了详细分析与深入研究,并针对记录集合的分块策略中的后缀数组分块策略无法解决属性值结尾处的不一致问题,提出了一种利用排序滑动窗口策略的改进方法.改进后的算法能有效应对属性值结尾处的不一致问题,增加了记录分块的准确度.通过使用这套系统对数据进行预处理,能够有效的改善数据中的质量问题,使得数据更加符合数据挖掘算法的要求,极大的方便了数据挖掘任务中的数据预处理过程.
其他文献
传统廉洁文化涉及个人修身、廉洁从政、治国理政等内容。清心养廉、戒奢以俭、慎独自省的修身自律思想,廉洁无私、正直公道、执事以敬的廉政建设理念,对当代廉政建设具有重要
随着银行业竞争日趋激烈,竞争层次不断提升,国际领先银行率先实施了以“业务流程再造”和“组织体系优化”为主要内容的运营模式优化运动,并取得了良好的效果,凸显了其核心竞
“十七年”战争题材电影,在中国电影发展中占有显著的位置。它在主流意识形态的影响下,形成了政治与美学高度统一的独特类型,留下了一批优秀作品。本文以中国“十七年”战争
《周礼》中的“官计”指的是国家对各级官吏实施的考课制度。当时的考课制度已经非常系统。从时限上讲,可分为日成(旬考)、月要(月考)、时考(季考)等短期考课,和岁会(年考)、
近期我国铁路施工企业积极参与国际铁路市场的竞争,但承包企业管理水平多停留在设计、采购、施工平行建设承包模式上,而国际市场普遍采用“设计-采购-施工总承包”模式(即Eng
随着新媒体技术的发展和网络视频业务的壮大,微电影以其短小精悍、成本低、分享快、传播渠道新、自由度高等多重优势迅速兴起,成为当今一个显著的文化现象。随着时间的推移,
城市轨道交通中,车辆的轮轨噪声是主要噪声来源,而轮轨振动是产生轮轨噪声的根本原因。本文应用多自由度动力吸振原理和阻尼减振原理,设计出符合城市轨道交通的钢轨噪声控制
作为现代社会人人必备的社交APP,微信承载着双重意义:它不仅是个人日常应用最多的社交工具之一,还给企业线上营销带去巨大的潜在商机。本文将从微信公众号入手,着重分析公众
基层党组织是中国共产党有机组织系统的基础性因子。农村基层党组织是中国共产党联系、组织、宣传农村群众的基础,是落实党在农村的路线、方针、政策的中坚力量。基层组织直
本文对自古典经济学以来的经济增长理论进行梳理,包括古典增长理论、新古典增长理论、新增长理论等,对各时期增长理论的主要代表人物如亚当·斯密、大卫李嘉图、罗伊·哈罗德