论文部分内容阅读
摘 要数据质量对于学生成绩具有十分重要的意义。本文在分析成绩上报的业务流程和成绩元数据的基础上,将异常成绩检测与业务相结合,给出异常成绩检测系统的设计原型。本文的工作不仅对于提高成绩的运行质量有直接的作用,而且为将数据质量研究成果应用于教育信息化领域提供了良好的开端。
关键词数据质量;异常成绩检测;成绩管理系统
AbstractInformation Quality to Student grade has fundamental significance. Based on analyzing the business process of grade report and grade of metadata, having combined the detection of grade-outliers with process, we propose a prototype design of grade-outliers detection system. The results of this paper not only have directly effect for improving the quality of grade, but also have provided a fine start to apply the study of Information quality to educational informationization.
Key wordsInformation Quality;Detection of Grade Outliers;Achievement Management Information System
当今社会信息化程度不断提高,大量信息系统广泛应用于不同领域,积累了海量数据。为了使信息系统能够有效可靠地支持组织的工作运行,要求系统的数据必须准确的反映现实世界的真实状况[1]。然而在实际运行的系统中,数据重复、数据缺失、数据不一致等问题普遍存在,数据质量(Information Quality)问题日益突出,引起了学术界和企业界的高度重视。为了适应高等教育改革发展的需要,教育信息化已经取得了很大的发展,各个高校的教务管理基本上实现了信息化。与其它领域类似,在教务管理信息系统中也出现了许多的数据质量问题,给学校的管理带来了不便。由于成绩与学生的评优评先、升留级、毕业、学位等密切相关,其数据质量尤其引人注目。通常,成绩管理部门认为成绩中不真实成绩所占比例越少则数据质量越高。从数据的生命周期来看,数据质量提高手段可分成两个类型:事前预防、事后检测[1],前者一般采取管理手段以减少脏数据进入信息系统,后者多采用数据清洗技术以减少系统中的脏数据。
一、业务分析
学生成绩的产生通常要经过评分、汇总、登分几个步骤。教师阅卷评分时,有时会出现误判;成绩汇总时,有时会发生计算错误;在登分时,有时会出现输入错误。这样产生的不真实成绩,会引起学生的疑问,带来大量的成绩复核,从而影响成绩的权威性,给教学管理造成不良的影响。因此不真实成绩是影响成绩数据质量的主要原因。人员操作失误是造成数据集中离群点或孤立点(outlier)的主要原因之一,因此通过检测成绩中的离群点能够有效地发现不真实成绩,从而改善学生成绩的数据质量。近几年,国内研究者对教育信息化领域的异常数据挖掘进行了初步的尝试[2,3,4,5,6],其中文[4]提出了基于分布特征的异常成绩检测方法,并通过抽取真实成绩进行实验证明了该方法的有效性。
成绩数据是通过成绩上报业务进入教务管理信息系统的,因此它是影响数据质量的关键业务。如果将成绩看作信息产品,它的生产过程存在3种角色,数据收集者(data collectors)、数据管理者(data custodians)、数据消费者(data consumers),研究表明数据生产者对数据质量的影响最大[7]。任课教师是成绩的生产者,因此他们是整个业务中的质量关键点。在成绩上报时,任课教师对录入成绩进行异常检测,尽可能从源头减少不真实成绩进入系统,意义尤其重大。同时,从检测效率考虑,成绩上报的级别越高,记录数量越大,检测时间越长,效率越低,因此应尽可能在录入阶段进行检测,以减少不真实成绩流入系统。
二、系统设计
因为办公地点分布较广,并且网络接入方式各异,所以系统选用B/S模型。这样不但可以解决上述问题,而且大大简化了客户端电脑载荷,减轻了系统维护与升级的成本和工作量,降低了用户的总体拥有成本(TCO)。
成绩元数据有:学生ID、课程ID、学年、学期、平时成绩、考试成绩、总评成绩等,学生元数据有:学生ID、学号、姓名、性别、身份证号等;课程元数据有:课程ID、课程号、课程名称、考核方式、学时、学分等。学生通过班级与所属专业、院系关联,课程通过开课信息与任课教师、教研室等信息关联。
(一)用户界面层
异常成绩检测流程为:选择待测成绩,确定检测方法,返回检测结果,用户对试卷进行复核。因此可以确定三个界面:①待测成绩选择界面;②参数设置界面;③检测结果界面。如图1、图2、图3所示。因为成绩是按课程分批录入的,根据元数据的分析可知,课程由学院、专业、教研室管理,因此①中应提供上述层次以选择待测课程。由于课程具有时间属性,所以①中还应提供学年、学期选项。在选定待测课程后显示所含全部记录,用户可选择一条或多条待测成绩。异常检测是将待测数据与参照数据进行对比,用户应可以选择检测方法及相关参数,如:待测课程、参照课程等。然而,大部分用户不具备异常数据检测的相关知识,因此系统不提供检测方法的参数值设置。这样,既可提高系统灵活性,又可保证检测的可靠性。因此界面②中,提供手动、自动两种检测方式,以及检测方法、参照课程选项。由于元数据中存在三种成绩,故增加成绩选项。界面③中将检测结果(异常成绩、OK)以不同颜色返回给用户。
图1 待测课程选择界面
图2 参数设置界面
图3 检测结果界面
(二)业务逻辑层
无论采用何种异常成绩检测方法,都可看做将待测成绩与参照成绩通过某种算法做运算,获得计算结果。今后可能添加新检测方法,以及参照课程生成方式,所以应对它们进行封装。这两种封装是有所区别的。前者目的是封装不同的检测方法,也就是说,当增加新的异常成绩检测策略时,系统结构保持稳定不变。因此采用了策略模式(Strategy),通过抽象定义公共接口,实现对不同检测方法的封装;后者目的是实例化不同的参照课程对象,即根据参数实例化出合适的参照课程集合,所以使用了简单工厂模式(Simple Factory),利用多态性生成不同的参照课程对象。
图4 业务逻辑层类图
图4为业务逻辑层的类图。当添加新的检测算法时,只需继承接口OutlierDetectionStrategy,生成新算法类;同样,当新增 Cold对象时,只需继承抽象类AbstractHistoryScore,生成新的对象。此外,当要对某算法进行修改时,只能修改相应类,不会影响其它算法类,从而使系统对修改关闭。
三、小结
本文从数据质量管理的角度出发,确定成绩上报为影响成绩质量的关键业务,且任课教师为其中的质量关键点。在分析业务和元数据的基础上,将异常成绩检测与业务相结合,给出异常成绩检测系统的设计原型。本文的工作不仅对于提高成绩管理系统的运行质量有直接的作用,而且为将数据质量研究成果应用于教育信息化领域提供了很好的开端。
参考文献
[1] 韩京宇、徐立臻、董逸生. 数据质量研究综述[J]. 计算机科学, 2008, 35(2):1-5.
[2] 黄万华、陆声链、林士敏. 孤立点挖掘在教务管理中的应用研究[J]. 广西科学院学报, 2004, 20(3):155-158.
[3] 赵泽茂、何坤金、胡友进. 基于距离的异常数据挖掘算法及其应用[J]. 计算机应用与软件, 2005, 22(9):105-107.
[4] 阳小华、李 萌. 基于分布特征的异常成绩检测方法[J]. 南华大学学报自然科学版, 2008, 22(4):7-9.
[5] 陆声链、林士敏.基于距离的孤立点检测及其应用[J]. 计算机与数字工程, 2004, 32(5):94-97.
[6] 庄严. 基于距离的异常数据挖掘在成绩检测中的应用[J]. 中国教育信息化(基础教育), 2007, 1:43-45.
[7] YANG W. LEE, DIANE M. STRONG. Knowing-Why about data processes and data quality[J]. Journal of Management Information Systems, 2003, 20(3):13-39.
关键词数据质量;异常成绩检测;成绩管理系统
AbstractInformation Quality to Student grade has fundamental significance. Based on analyzing the business process of grade report and grade of metadata, having combined the detection of grade-outliers with process, we propose a prototype design of grade-outliers detection system. The results of this paper not only have directly effect for improving the quality of grade, but also have provided a fine start to apply the study of Information quality to educational informationization.
Key wordsInformation Quality;Detection of Grade Outliers;Achievement Management Information System
当今社会信息化程度不断提高,大量信息系统广泛应用于不同领域,积累了海量数据。为了使信息系统能够有效可靠地支持组织的工作运行,要求系统的数据必须准确的反映现实世界的真实状况[1]。然而在实际运行的系统中,数据重复、数据缺失、数据不一致等问题普遍存在,数据质量(Information Quality)问题日益突出,引起了学术界和企业界的高度重视。为了适应高等教育改革发展的需要,教育信息化已经取得了很大的发展,各个高校的教务管理基本上实现了信息化。与其它领域类似,在教务管理信息系统中也出现了许多的数据质量问题,给学校的管理带来了不便。由于成绩与学生的评优评先、升留级、毕业、学位等密切相关,其数据质量尤其引人注目。通常,成绩管理部门认为成绩中不真实成绩所占比例越少则数据质量越高。从数据的生命周期来看,数据质量提高手段可分成两个类型:事前预防、事后检测[1],前者一般采取管理手段以减少脏数据进入信息系统,后者多采用数据清洗技术以减少系统中的脏数据。
一、业务分析
学生成绩的产生通常要经过评分、汇总、登分几个步骤。教师阅卷评分时,有时会出现误判;成绩汇总时,有时会发生计算错误;在登分时,有时会出现输入错误。这样产生的不真实成绩,会引起学生的疑问,带来大量的成绩复核,从而影响成绩的权威性,给教学管理造成不良的影响。因此不真实成绩是影响成绩数据质量的主要原因。人员操作失误是造成数据集中离群点或孤立点(outlier)的主要原因之一,因此通过检测成绩中的离群点能够有效地发现不真实成绩,从而改善学生成绩的数据质量。近几年,国内研究者对教育信息化领域的异常数据挖掘进行了初步的尝试[2,3,4,5,6],其中文[4]提出了基于分布特征的异常成绩检测方法,并通过抽取真实成绩进行实验证明了该方法的有效性。
成绩数据是通过成绩上报业务进入教务管理信息系统的,因此它是影响数据质量的关键业务。如果将成绩看作信息产品,它的生产过程存在3种角色,数据收集者(data collectors)、数据管理者(data custodians)、数据消费者(data consumers),研究表明数据生产者对数据质量的影响最大[7]。任课教师是成绩的生产者,因此他们是整个业务中的质量关键点。在成绩上报时,任课教师对录入成绩进行异常检测,尽可能从源头减少不真实成绩进入系统,意义尤其重大。同时,从检测效率考虑,成绩上报的级别越高,记录数量越大,检测时间越长,效率越低,因此应尽可能在录入阶段进行检测,以减少不真实成绩流入系统。
二、系统设计
因为办公地点分布较广,并且网络接入方式各异,所以系统选用B/S模型。这样不但可以解决上述问题,而且大大简化了客户端电脑载荷,减轻了系统维护与升级的成本和工作量,降低了用户的总体拥有成本(TCO)。
成绩元数据有:学生ID、课程ID、学年、学期、平时成绩、考试成绩、总评成绩等,学生元数据有:学生ID、学号、姓名、性别、身份证号等;课程元数据有:课程ID、课程号、课程名称、考核方式、学时、学分等。学生通过班级与所属专业、院系关联,课程通过开课信息与任课教师、教研室等信息关联。
(一)用户界面层
异常成绩检测流程为:选择待测成绩,确定检测方法,返回检测结果,用户对试卷进行复核。因此可以确定三个界面:①待测成绩选择界面;②参数设置界面;③检测结果界面。如图1、图2、图3所示。因为成绩是按课程分批录入的,根据元数据的分析可知,课程由学院、专业、教研室管理,因此①中应提供上述层次以选择待测课程。由于课程具有时间属性,所以①中还应提供学年、学期选项。在选定待测课程后显示所含全部记录,用户可选择一条或多条待测成绩。异常检测是将待测数据与参照数据进行对比,用户应可以选择检测方法及相关参数,如:待测课程、参照课程等。然而,大部分用户不具备异常数据检测的相关知识,因此系统不提供检测方法的参数值设置。这样,既可提高系统灵活性,又可保证检测的可靠性。因此界面②中,提供手动、自动两种检测方式,以及检测方法、参照课程选项。由于元数据中存在三种成绩,故增加成绩选项。界面③中将检测结果(异常成绩、OK)以不同颜色返回给用户。
图1 待测课程选择界面
图2 参数设置界面
图3 检测结果界面
(二)业务逻辑层
无论采用何种异常成绩检测方法,都可看做将待测成绩与参照成绩通过某种算法做运算,获得计算结果。今后可能添加新检测方法,以及参照课程生成方式,所以应对它们进行封装。这两种封装是有所区别的。前者目的是封装不同的检测方法,也就是说,当增加新的异常成绩检测策略时,系统结构保持稳定不变。因此采用了策略模式(Strategy),通过抽象定义公共接口,实现对不同检测方法的封装;后者目的是实例化不同的参照课程对象,即根据参数实例化出合适的参照课程集合,所以使用了简单工厂模式(Simple Factory),利用多态性生成不同的参照课程对象。
图4 业务逻辑层类图
图4为业务逻辑层的类图。当添加新的检测算法时,只需继承接口OutlierDetectionStrategy,生成新算法类;同样,当新增 Cold对象时,只需继承抽象类AbstractHistoryScore,生成新的对象。此外,当要对某算法进行修改时,只能修改相应类,不会影响其它算法类,从而使系统对修改关闭。
三、小结
本文从数据质量管理的角度出发,确定成绩上报为影响成绩质量的关键业务,且任课教师为其中的质量关键点。在分析业务和元数据的基础上,将异常成绩检测与业务相结合,给出异常成绩检测系统的设计原型。本文的工作不仅对于提高成绩管理系统的运行质量有直接的作用,而且为将数据质量研究成果应用于教育信息化领域提供了很好的开端。
参考文献
[1] 韩京宇、徐立臻、董逸生. 数据质量研究综述[J]. 计算机科学, 2008, 35(2):1-5.
[2] 黄万华、陆声链、林士敏. 孤立点挖掘在教务管理中的应用研究[J]. 广西科学院学报, 2004, 20(3):155-158.
[3] 赵泽茂、何坤金、胡友进. 基于距离的异常数据挖掘算法及其应用[J]. 计算机应用与软件, 2005, 22(9):105-107.
[4] 阳小华、李 萌. 基于分布特征的异常成绩检测方法[J]. 南华大学学报自然科学版, 2008, 22(4):7-9.
[5] 陆声链、林士敏.基于距离的孤立点检测及其应用[J]. 计算机与数字工程, 2004, 32(5):94-97.
[6] 庄严. 基于距离的异常数据挖掘在成绩检测中的应用[J]. 中国教育信息化(基础教育), 2007, 1:43-45.
[7] YANG W. LEE, DIANE M. STRONG. Knowing-Why about data processes and data quality[J]. Journal of Management Information Systems, 2003, 20(3):13-39.