元数据评估模型及质量提升对策

来源 :中国新通信 | 被引量 : 0次 | 上传用户:yanzixu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】    跟随教育信息化的飞速发展,高校信息化系统迅速扩张,产生了海量教育大数据。许多高职院校都建立了校级的数据中心,高质量的元数据是数据中心的最基本部分。元数据质量直接决定着大数据分析结果的准确性,但由于数据来源的多样化和复杂化,导致数据形式、格式不一,元数据的质量难以保证;导致难以支撑高校教学、科研和管理模式改革。本文以数据质量的判定模型为标准,对重庆医药高等专科学校元数据来源进行分析,并针对性提出提高数据质量的解决方法策略,为其他高职院校数据质量分析提供借鉴。
  【关键词】    元数据    数据质量    判定模型    对策
  一、元数据质量是智慧校园建设的基础
  随着教育信息化的来的深入发展,各高校纷纷开始启动大数据战略,并建立数据中心,来深度推进学校信息化的建设和发展。当前各高校正在从数字化校园的建设逐步迈向智慧校园的建设,这样就使得数据中心的数据变得更为海量化、复杂化、多样化和快速化。另一方面,数据中心元数据的质量直接决定着大数据分析的结果,数据中心元数据的质量如果得不到一定程度的保证,后续的大数据分析将会建立在这些不可靠的数据之上。因此学校数据中心的元数据质量是决定学校能否从数字化数园顺利过渡到智慧校园的关键。但学校元数据的质量到底如何,又该如何进行评价,下面通过元数据质量评估的模型,以重庆医药高等专科学校元数据为例来进行探讨提升数据质量的方法。
  二、数据质量的判定模型
  通常对数据质量的理解就是存储于计算机及网络系统中的数据质量的好坏和优劣[3]。如何来判断数据中心数据质量的好坏和优劣,当前并没有一个很好的标准。我们在对学校数据质量的判定中,主要是按照元数据四个不同的维度对质量进行评估:如下图1。
  2.1数据质量模型评估标准四个方面的关系
  从图1中可以看出,评估标准的四个方面中,可获得度是解决能否从系统中获取数据的问题,包括通过一定的数据转换模型来获得的数据[3]。数据的可获得度是数据可理解度的基础,它与数据可理解度一起,构成了挖掘数据的基本条件。只有获取了数据,并且对数据的语法、语义理解之后,用户才能进行数据挖掘。但当用户获取并理解了数据之后,随之而来的一个问题是:数据是否可信。假设数据的可信度很高,那么接下来的问题是:数据是否有用。因此可以说数据质量评估的四个方面:可获得度,可理解度,可信度,可用度,是一种递进深入的关系。元数据质量的是否优劣,须依次回答四个问题[5]:一从哪里获取数据;二是否明白和理解已获取的数据;三数据有多少是可信的;四可信的的数据中有哪些数据对分析和挖掘有用。经过上述四个流程筛选之后,元数据质量就会得到保证,接下来就可放心地对数据进行预处理,然后就可以根据创立相应的算法,使用相应的模型进行数据分析了。
  2.2数据质量12个影响因子的相互关系
  影响数据质量的因素,既可按照评估标准分成4个大的方面,又可根据每个具体的评估标准拆分成12个最终影响因子(如图1)。即数据质量的优劣其实是根据这12个因子来评判的,当然这12个因子在对数据质量判定上的作用各有侧重,并不是都完全相同的。有些因子,如准确性、可靠性等之类的,对数据质量的判定作用几乎是一票否决,而有些因子如相关性、可比性等之类的,对数据质量的判定作用相对而言要弱一些。这些影响因子既在评估标准每个方面的内部之间相互关联、相互影响,同时又能影响其他评估标准下的影响因子。
  比如数据的准确性较差,那么数据的可靠性、有效性就不会太高;如果数据同时能够做到准确、一致、有时效,那么数据的可靠性就比较高。因此12个影响因子缺一不可、相辅相成构成了对数据质量优劣的评判。
  2.3数据质量研究判断的难题
  从上述12个数据质量的影响因子中可以看出,这些影响因子对数据质量的评判更多的是一种定性的判断。相对于数据分析而言,数据质量的评判需要给出定量的结果。假设抽样数据的准确性不是100%,而是准确性为90%,一致性为91%、完整性為92%。按工程上的准确率计算方法,根据这三个因子相乘计算得出的数据质量优劣率为90%*91%*92%*100%=75%,如果再有其它的几项因子相乘,那么数据质量的优劣率将会变得更低。除非保证数据质量影响因子的参数值都为100%,否则数据质量优劣率都将会低于100%,也就是说数据都将是不完全可信的,但是12个数据质量影响因子同时定性为100%,这在现实中不太可能。在实际中,总是希望数据质量越高越好,这只是一种定性的说法,能不能对数据质量建立一种更为精确的定量分析方式,使得数据质量根据各项指标的参数值进行综合评判,当数据质量的各项影响因子达到某些阈值的时候,数据才是可靠和可性的,才会在数据分析中具有研究的价值,但是实际的情况是阈值的确定,这是数据质量评估要深入研究的一个课题[5]。
  三、重庆医药高等专科学校元数据质量现状
  在高职院校的各项信息数据中,高校普遍存在数据质量不高的事实,而且当前越来越多的高校也已经意识到因数据质量不高而可能产生的各类问题。为了摸清我校数据质量的状况,学校信息图书中心联合其它相关职能部门,对本校数字化校园内的,一段时间内和一定范围内的数据作了一次数据质量抽样的摸底调查分析。由于数字化校园数据类型多样、庞大,因此有必要在作摸底调查之前,对每种类型的数据作一个从数据选择到分析方法的大致规划。将结构化类型数据采取数值量化、将非结构化数据中不易量化的数据划分为优、良、一般、劣四个等级[4-5],确保本次抽样数据质量分析接近本校的实际情况。
  3.1个人手工输入方式数据
  在整个系统中涉及数据手工输入的操作者主要有学生、普通教师、系统平台管理员类, 它们一方面由于对系统各个子平台使用不熟悉,对某些填写内容理解不透彻[3];另一个方面是由于计算机技能欠缺, 培训机会不多和责任心不强,在录入数据时可能会误填、漏填或误添某项数据;又加上系统中的某些数据定义不明确、概念混淆,系统在开发时控制和校验不严,造成数据的缺项和漏项,导致系统中数据质量问题很多,从而影响数据的准确性。   3.2外部系统来源的结构化数据
  从外部系统导入到学校系统的结构化数据,主要存在不同系统之间数据编码冲突的问题,这是因为大多数系统之间没有统一的技术和数据标准,数据不能自动导入,缺乏有效的关联和共享[5]。
  不同数据源的相同数据编码不一致,常见的有两种情形,一种为属性编码的不一致。以学校招生管理系统中学生的性别为例,外部系统数据源编码为“男=1,女=2”,而在学校系统数据源中编码为“女=1,男=2”,这样就造成了数据导入的出错,影响数据的准确性。另一种为字符编码的不一致,常见的中文字符编码有GBK编码和UTF-8编码,一种字符编码的数据在导入到另一种字符编码的数据时容易出现乱码,因此在导入外部系统来源的结构化数据之前有必要做好属性编码和字符编码的转换。
  另一方面,在高校当前的各个应用环境中,不同系统之间存在大量的业务数据依赖,比如教务系统中学生的基本信息数据,可能是从招生管理系统或者迎新管理系统中导入,来自迎新管理系统的数据,因为某些学生未来入学和各管理员没有在系统中对学生的信息进行及时核对,导致学生的数据变得不准确,因此在从其它系统导入数据之前,有必要对相关数据进行核对,以保证数据的准确性和完整性。
  3.3外部来源的非结构化数据
  非结构化数据一般是指无法用固定结构来逻辑表达实现的数据,包括办公文档、文本、图片、XML、HTML、各类报表、图像和音视频等等,相比结构化数据而言,这类数据特别是音视频文件没有统一的格式,关键词不统一。这类非结构化数据的内容大多数不易改动,质量的决定主要是清晰度,但是一般而言在存储时候,都会作一次筛选,因此数据质量较高。
  3.4应用系统自动生成的结构化数据
  应用系统自动生成的结构化数据,如门禁系统数据和一卡通系统数据,相比外部导入的结构化数据而言,数据的准确性,完整性的都很好,数据质量相對较高,这主要是因为系统自动生成的数据格式固定,不会出现手工输入数据存在的各种问题。因此从这上面可以看出,如果要想数据质量高,尽量应使用系统自动产生的规范线上数据。
  3.5应用系统自动生成的非结构化数据
  由于是应用系统自动生成的非结构化数据,数据的准确率相对也是很高。
  四、提高元数据质量的措施
  4.1组建专业的管理人员队伍
  高校数字化校园系统对学校来说是及其重要的部分,不可能让每一个人都对系统进行增删改,必须赋予一部分特定的人员较高或最高的权限,来对系统进行管理和独立操作。另一方面,高校数字化校园系统对数据的处理要求很高,这主要是因为业务中对数据的提取,加载,转换和处理比较频繁[5],这必须要求要有一定计算机水平的管理人员来维护数据的一致性与完整性,在数据录入时控制数据的来龙去脉,对输入的数据,要进行完整性约束。 我校在意识到此问题之后,是在每一个部门设一个部门数据管理员,并且定期组织数据管理技能培训。
  4.2建立严格的审核机制
  正确地输入数据是系统进行有效数据分析的前提和保证,错误的数据只会让系统输出不正确或无用的结果,从而导致后续数据的处理和分析失去意义,因此有必要要求各平台和各系统管理员对手工输入的数据进行严格的审查和核对;另一方面要求信息系统也具有一定的自动审核机制,比如自动清除字符之间的空格,判断必填项是否为空等等,真正实现从源头上控制数据的质量,从而降低数据出错的概率,为后续数据的导出或分析奠定坚实的基础。
  4.3建立统一的数据标准
  业务数据的标准化包括统一的数据字符编码标准和统一的属性编码标准,统一的属性编码标准是指属性的值有多个字段,给每个字段进行统一的编码,比如“民族”这个属性,对汉族进行编码为1,壮族编码为2等等。目前中华人民共和国教育行业标准中的《高等学校管理信息标准》以及数据标准化的思想尚未得到全面应用[3],但是很有必要在全国进行推广。我校通过此数据治理也建设了一套适用于本校的数据标准,主要原则是“有国标用国标,有省标用省标,无标就自建校标”的方法。
  4.4建立可靠的数据质量评估和监督机制。
  数据质量的持续改进和提高,需要相应的数据管理部门来评估和监督,需要相关部门负责对数据质量标准进行定义和控制,包括抽查等,目的是为了当有数据质量问题时,及时告知各业务部门,找出导致问题的源头数据,并监督相关业务部门改进,这些在保证数据质量继续改进的同时,又避免了较大数据事件的出现。
  五、结束语
  随着各高校的数字化校园建设正逐步迈向智慧校园建设,用户对各个系统的功能要求也越来越高。一方面,要求系统提供更多更强的功能,从原来功能的“单一化“发展为现在功能的“多样化”,从原来数据的简单获取,发展为现在数据的综合分析,再到数据为决策者提供决策支持;另一方面,信息化建设的重心正在发生转变,之前主要是以关注各个应用系统的功能要满足各个业务部门工作为主,现在逐渐过度到了以关注用户包括各职能部门管理者的决策分析使用需求为主。
  并要求系统能提供定制化和个性化的集成服务。因此高校的信息化建设要真正实现精准化服务,真正满足用户对系统和数据日益增长的需求,就必须进一步提高各系统数据的质量,为智慧校园打下坚实的数据基础。
  参  考  文  献
  [1]贾宏.高校机构资源库元数据质量控制研究.南阳师范学院学报,2017(16):65-67.
  [2] 郭晓明,高校信息化环境中数据质量问题探析.中国教育信息化,2016(15):59-62.
  [3] 宓詠.智慧时代数据服务的发展与思考[J].中国教育网络,2015(8):23-26.
  [4] 郭晓明,张巍.高校信息化建设中公共数据平台的探讨[J].中国教育信息化,2015(19):69-72.
  [5]杨勤.高校统计数据质量问题若干问题[J].现代经济信息.2016(1).
  蒲飞(1970.05),男,本科,高级工程师,研究方向:系统规划与管理、数据管理、治理。
  通讯作者: 陈苗(1990.07),女,研究生,讲师,研究方向:计算机系统结构、移动计算。
其他文献
【摘要】 本文对电信、联通目前采用的4G共建共享网络架构、共享载波的共享方式等进行阐述,并在分析对比“A2+A3”、“A2+A4”、“A2+A5”3种异频切换策略特点的基础上,针对广阔乡村及密集城区场景分别开展策略部署试点,同时围绕路测、网管关键性能指标等评估试点结果,提出4G共建共享网络的移动性部署策略。  【关键词】 4G共建共享 共享载波 异频切换  引言:  为充分发挥电信、联通双
【摘要】 根据党的十九大报告关于建设社会主义现代化强国的战略部署和《中国教育现代化2035》,积极参与国家现代化建设行动,努力发展基于互联网的教育服务新模式,构建“数据+”条件下的人才培养新模式,探索信息时代教育治理新模式,是山东省昌乐二中实现卓越品质、家国情怀、全球视野培养目标的必然选择。  【关键词】 271BAY 数据驱动 教育 学生成长  271BAY是山东省昌乐二中信息化建设的
【摘要】 在医疗行业,云计算技术的应用场景极为丰富,合理利用云计算技术,可以突破医疗行业特别是基层医院信息化建设的诸多壁垒。因此,文章以基于云计算的医院信息化建设为核心,阐述了基于云计算的医院信息化建设目标,论述了基于云计算的医院信息化建设方案,并对基于云计算的医院信息化应用内容进行了展望。  【关键词】 云计算 医院 信息化建设  引言:  医院是与大众息息相关的机构,随着科学技术的发展
【摘要】 为解决职业院校参加各级各类技能大赛获奖情况的管理和统计问题,作者对省域内各高职院校进行了调研,研究设计出了针对职业院校大赛获奖管理系统,使用网络形式实现对职业院校参加技能大赛获奖信息进行采集、管理、查询、统计等操作,方便解决了以往人工管理诸多不便。  【关键词】 职业院校 技能大赛 获奖管理  引言:  党的十八大以来,习近平总书记高度重视职业教育改革发展,作出了一系列重要讲话、
【摘要】 大数据技术在近年不断快速发展,由于其不同于一般业务系统软件的个性化特点,在数据采集、处理、分发、分析以及呈现等关键步骤上和传统业务系统有较大差异。因此在对大数据项目进行成本度量时,需在通用的成本度量方法上,定制设计针对性的补充规则,从而指导大数据项目的成本度量实践。  【关键词】 大数据 软件 成本 功能点 度量  一、大数据项目成本度量  2018年国家发布了国家标准《软件
【摘要】 作为APP等信息技术软件基础性页面及展示界面的前端开发技术进行分析,结合Web页面创设技术的基础特点进行探究,综合其中不同的内容和优势设计针对性的优化政策,是互联网发展的重要根本。本文将针对基于Web前端开发技术特点及优化策略进行全面分析。  【关键词】 Web前端开发 特点 优化策略  引言:  不断优化web前端开发技术将会全面促进提升及优化网络运用模式,以更加科学、全面的网
期刊
【摘要】 随着信息时代的到来,传统的保护与传承方式已逐渐不能满足非遗文化的各项内容要求,改变脆弱的保护与传承方式,探索新的传播媒介,实施数字化保护,才是实现民族文化优质资源共享及系统规范整理的有效途径。本文依据广东非遗技艺的传承和创新为主题内容,通过确定交互目标和用户体验,依照核心功能完成产品架构设计。  【关键词】 非物质文化遗产 APP产品设计 用户体验  党的十八大以来,非遗保护工作
【摘要】 大数据及人工智能的广泛应用,为促进学生全面发展、实现个性化学习成长提供了新的解决方向。基于大数据的网上学生发展中心就是在建立模型的基础上,通过数据挖掘和智能分析,建立一个智能化的学生成长辅助体系。  【关键词】 大数据 学生发展 信息化 智能化  引言:  《国家中长期教育改革和发展规划纲要》提出:“树立全面发展观念,努力造就德智体美全面发展的高素质人才。树立人人成才观念,面向
【摘要】 传统基于高分辨率遥感图像的道路提取方法计算复杂度高,难以实现自动化,基于深度学习的方法可以显著提高提取的精度和效率。本文选取CVPR 2018 Deep Globe数据集作为训练数据集,基于Tensorflow框架的Adam优化算法,采用ResNet模型对孟加拉国沿海区域进行了道路识别和提取。经与人工目视解译数据集验证,得到道路提取总体精度为97.85%,验证了方法的有效性。  【关键