论文部分内容阅读
随着社会信息化程度不断提高,大量信息系统广泛应用于不同领域,积累了海量数据。为了使信息系统能够有效可靠地支持组织的工作,要求系统的数据必须准确的反映现实世界的真实状况。而在实际运行的系统中,数据重复、数据缺失、数据不一致等问题普遍存在,数据质量(Information Quality)问题日益突出,引起了学术界和企业界的高度重视。本文面向高校教育信息化,针对学分制教务管理信息系统中出现的数据质量问题进行了深入的探讨和研究,认真分析该系统各个功能模块中出现的数据质量问题,并以解决学籍管理模块中出现的伪缺失值问题为研究重点。针对数据库中存在的伪缺失值问题,本文首先介绍伪缺失值的定义以及常见的伪缺失值检测方法,比如:基于统计的方法(又包含基于分布的方法和基于深度的方法)、基于距离的方法、基于密度的方法、基于聚类的方法、基于偏离的方法等。伪缺失值记录是指用户没有进行某项信息填写时系统采用属性值域内的某个合法值缺省填入数据库中而产生的与实际不相符的记录,该类记录的大量存在给数据分析统计(假设性检验、相关性分析和回归性分析等)的结果带来严重的偏差,现有方法在伪缺失值被大量使用的情况下检测效果不是很理想,为了有效的检测出教务管理系统中存在的伪缺失值记录,本文结合无偏样本同分布相关的原理以及教务管理系统的实践应用要求,提出一种简化的基于单属性同分布原理的伪缺失值检测算法,并应用教务管理信息系统中的学籍信息数据对算法的有效性和可行性进行实验验证。最后在认真分析伪缺失值产生机制以及教务管理信息系统业务流程的前提下,从面向对象程序开发的角度,对伪缺失值检测模块进行设计,确定检测操作的用户界面,绘制业务逻辑层的主要设计文档,包括:流程图、时序图、类图,详细分析并确定了数据访问层主要存储过程的功能。完成伪缺失值检测模块与现有教务管理信息系统集成的基本设计工作。