大数据的质量问题分析

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户:YT479102771
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】如今,大数据是一种不断增长的技术。大数据有很多用途;人工智能、医疗保健、商业等等。因此,有必要对所获取的大量数据进行预处理与分析,以确保使用和生成的数据具有更高的质量。如果想拥有较高质量的大数据,那么它的获取规则、管理架构等条件必须得到满足。本文从数据本身、数据管理、数据处理和数据用户的角度出发,提出了需要测量的主要大数据质量因素。这项研究强调了质量因素,这些因素在以后可能会用于创建不同的大数据质量模型。
  【关键词】大数据、数据质量、回归规模
  1 引言
  大数据概念已经使用了这么多年,研究人员在1944年以“信息爆炸”的名义开始注意到它。在信息技术领域,“大数据”一词最早是在1980年由Charles Telly使用的。Tim O'Reilly在2005年定义了我们今天所知道的术语“大数据”。这一术语将于2013年出现在牛津词典中。此后,许多研究者从定义、应用、技术、工具和质量等方面对“大数据”进行了讨论。而现在的大数据是一个术语,用来描述一个企业或系统日常的大量数据,它可以是结构化的、半结构化的或非结构化的。
  软件质量是软件开发的一个基本过程。它是“软件产品满足既定需求的程度;然而,质量取决于这些既定需求准确表示涉众需求、愿望和期望的程度”。数据,作为任何软件产品的四大支柱之一,它必须尽可能高质量,以确保它不会在系统中产生任何故障或失效。本文主要对大数据的质量因素和问题进行了讨论,以帮助大数据生产者,分析师和用户衡量他们的大数据质量。
  2 大数据基本特征
  如今,大数据涉及许多领域,如社交媒体、人工智能、机器学习、医疗保健、电力和核系统等等。2001年,Doug Laney[8]提出了大数据的三大主要特征,后来被称为“大数据的三个V”:
  1、容量(Volume):大数据,顾名思义,是需要处理和存储的海量数据;
  2、速度(Velocity):是通过系统移动数据的速度。面对如此庞大的数据量,移动数据是一个巨大的挑战;
  3、多样性(Variety):大数据是不同类型数据(图像、视频、音频、文本等)的巨大集合。此外,收集的数据的格式和呈现方式也不同。
  大数据的特点和应用提出了大数据质量问题。任何将要使用它的应用程序都必须确保数据具有高质量标准,这是生成良好质量系统的强制性要求。主要考虑大数据的质量因素与传统数据集相同。此外,一些额外的质量因素,处理大量的数据,如数据管理和修复。
  在以往的研究中,大多数研究者都讨论了传统数据的质量因素。然而,传统数据与大数据有许多相似的质量因素,它们在质量应用和度量上存在差异。
  在文献[2-3]中,研究人员描述了网站数據的六个质量评估标准:权威性、准确性、客观性、通用性、覆盖率/预期受众和交互/交易特征。另一位研究人员讨论了网络数据质量,并与用户进行测试,以确定每种数据的重要性级别。另一位研究人员提出了六个质量指标,包括货币、可用性、信息噪音比、权威性、流行性和凝聚力,以进行调查。文献[4]中引入了一个新的质量模型,称为IQIP(Identify,Quantify,Implement,and Perfect)。他们总结了最常见的不同的数据质量/信息质量框架。该模型作为一种管理互联网爬虫搜索引擎质量相关算法的选择和实现的方法。
  3 大数据质量挑战
  大数据的准确性、完整性、冗余性、可读性、可访问性、一致性、信任度是主要的数据和大数据质量因素。每个因素都与一个或多个必须满足的质量标准相关联,以满足质量因素。
  此外,对于大数据开发人员来说,还有一些特性需要讨论,这些特性是:准确性;数据源的多样性和处理的复杂性是评估大数据质量的一个挑战。可变性;大数据类型和格式的变化可能导致质量的巨大差异。可能需要额外的工作和资源来识别、处理和过滤低质量的数据,以减少工作量和成本增加数据的有用性。价值;大数据在处理和过滤大数据时所传递的价值是什么?这个问题是大数据分析师面临的主要挑战。大数据质量的衡量不仅仅是数据质量,数据质量管理(DQM)也是一个必须考虑的质量挑战,DQM在大数据质量度量中起着关键的作用,大数据生命周期的每个阶段都必须根据一些质量规则来衡量。
  大数据的生存周期图如图1所示,而DQM有五个主要步骤,可总结如下:
  1)人员:项目经理、组织变革经理、业务/数据分析师是任何数据质量管理的关键角色;
  2)数据分析:数据审查、比较、报告和统计分析,以检查数据的准确性或找到使用可用数据的最佳方法;
  3)定义数据质量:在此阶段创建并定义数据的质量规则;
  4)数据报告:删除和报告所有泄露数据;
  5)数据修复:在这个阶段,修复和更改数据的最佳方法。
  大数据生命周期也引入了质量因素和需要衡量的问题。因此,大数据的质量因素包括关注数据本身以及大数据管理和用户需求的因素。
  外国学者曾做过一项关于大数据的品质因素研究,在这项研究中,这些品质因素被分为四类,取决于他们的视角,这些类别是:
  数据透视图:关注数据质量因素,这些与通常的数据质量因素非常相似;
  管理视角:如何从管理的角度处理数据;
  处理和服务视角:如何使用和分析数据;
  最后是用户视角:如何将这些大数据交付给目标用户并使其可视化。
  一个国外的研究小组曾经也进行了四个独立的、特定领域的大数据应用案例研究。这些案例研究是对大数据收集中遇到的数据质量问题是否与传统规模的数据收集中遇到的数据质量问题在原因、表现形式或检测方面有本质不同的问题进行的初步调查。这项研究从多个层面探讨了影响大数据质量的几个因素,包括收集、处理和存储。这项研究的主要发现强调了影响大数据的主要因素在于在保持数据完整性的同时处理大数据的局限性和复杂性。这些关注点比数据的来源、处理以及用于准备、操作和存储数据的工具更重要。数据质量对于所有的数据分析问题都非常重要。从研究结果来看,“关于大数据的真相”是在大数据分析项目中没有根本上新的“数据质量”问题。不过,一些“数据质量”问题表现出规模回报效应,在大数据分析中或多或少变得明显。大数据质量因不同类型的大数据和不同的大数据技术而异。
  4 结论
  在本文中,主要对大数据质量因素进行了讨论。得出大数据的质量不仅与数据本身有关,而且还受到数据管理、数据处理和服务以及使用这些数据进行决策的用户的影响。因为数据的重要性不仅仅在于数据本身,但事实上,如何使用、保护、呈现和使用数据才是正确的方法。在未来,将使用所述大数据质量因素来产生不同的大数据质量模型,这些模型将用于以不同的术语衡量大数据应用的大数据质量。
  参考文献:
  [1]亓林芳.谈全面提高统计数据质量[J].合作经济与科技,2021(07):132-133.
  [2]J. E. Alexander and M. A. Tate,Web Wisdom;How to Evaluate and Create Information Quality on the Webb:L. Erlbaum Associates Inc.,1999.
  [3]L. Cai and Y. Zhu,The Challenges of Data Quality and Data Quality Assessment in the Big Data Era vol. 14,2015.
  作者简介:
  卫鑫,2001年生,汉,研究方向:大数据质量分析
  (作者单位:西南科技大学城市学院)
其他文献
【摘 要】随着时代的进步国家与国家之间的经济、政治、文化较量拼到最后都是各个国家之间教育基础的较量。小学教育作为作为我国九年义务教育的一个开端和我国教育体系的重要组成部分,这一阶段教师的教学方法会对学生以后的学习生活和思想观念会产生重要的影响。同时,随着近些年来各种有关小学教育活动的新闻报道引发了社会上各个阶层的广泛关注和密切讨论。基于这样的多方因素国家教育部门通过具体的实际调查和专门的讨论后对我
期刊
【摘 要】在目前科学和经济更快速发展的同时,生活质量也在更好地提高。目前有大量的智能家电应运而生,但这些刚出的智能家电仍然存在很大的发展空间,就现阶段的空调系统的智能插座系统而言,大部分能实现语音控制和远程WIFI控制,但其使用局限性比较大,其智能交互仅限制在连接插座电器的定时开关或定时开关,因此智能化体验比较单一。本次研究针对目前智能插座系统交互模式的简单单一,添加了智能自学习功能,使该插座系统
期刊
【摘 要】儿歌的语言优美、充满童趣、朗朗上口、意境温馨,通过拟人的手法能够把幼儿带到一个五彩缤纷的童话世界,同时,教师也可借助PPT和图片,给幼儿展现一幅幅优美的画面,运用多种教学策略感知儿歌内容,体验儿歌的意境,通过音乐声音缓解幼儿情绪,让幼儿更好地融入班集体。幼儿通过学习儿歌,唱响儿歌,感受语言声音的意境美,感受温馨的氛围,以及來自老师和学生温柔爱,通过曼妙的音乐熏陶,有助于培养幼儿的审美能力
期刊
【摘 要】在将原油开采出来以后要对原油进行相应的脱水处理之后才可以应用到我们的工业生产过程中,但是在脱水过程中联合站脱水设备经常会因为各种各样的原因而出现脱水效果不佳的情况。如果不能很好的对原油进行脱水,那么有可能导致原油在运输和储存过程中增加相应的成本,或者造成原油的损坏等。  【关键词】联合站;原油脱水;影响因素;对策  1、前言  原油脱水工作对于原油的运用是十分重要的,而脱水效果也直接决定
期刊
故事教学法指的是在班级管理、课堂教学中为了激发学生的学习兴趣、达成教学目的,在课堂上引入一些与德育和课文主题相关的故事,将学生带入特定的情境中,让学生在倾听故事的同时养成良好的习惯和掌握课文的主要内容,提高学习效率的一种方法。我在小学语文教学中尝试运用故事教学法,以提高学生的学习兴趣,同时也运用故事的特性来启迪学生的思维,提高学生的思维能力。  一、在班级管理中,故事比唠叨的说教更深入人心  作为
期刊
【摘 要】城市发展的加快,经济的提升,车辆越来越多,交通拥堵成为隐患。地铁作为一种安全、可靠、节能、环保的公共交通工具,是解决城市交通拥堵的首选。随着地铁的大规模建设,地铁信号系统也成为了关键信息基础设施,它的网络安全关乎公众利益。  【关键词】地铁;信号系统  1 绪论  近些年来,地铁在生活中的使用也越来越广泛,地铁运行的安全也受到了极大的重视。作为确保地铁列车安全运行和高效率运行的关键系统,
期刊
【摘 要】天然气压缩机广泛用于天然气增压开采、管网集输等环节,因其使用环境特殊,对设备本质安全提出严格要求,压缩机设计、制造必须严格执行石油天然气行业标准。近三年石化机械三机分公司年产压缩机数量实现跨越式增长,生产管理水平显著提升,生产效率大幅提升。  【关键词】压缩机;生产制造;管理  一般天然气压缩机需经过立项研究,设计开发,采购物料,生产制造,试验测试等环节,其生产周期为5-10个月。与用户
期刊
【摘 要】美学作为一门人文学科,人文学科的研究对象是具有主体性的人,它的终极目标是追问人生命的意义与人生的价值何在,而且这种意义与价值的实现不是神秘主义的,它的实现就融渗于我们的日常生活之中,这一意义和价值就是对于审美的不断追求。所以,美学就拥有了另一个维度,就是对于终极价值的追问。那么问题来了,美学是如何追问的?  【关键词】美学;差异  中国美学,中国美学不像西方美学那样具有很强的思辨性,他们
期刊
【摘 要】贝多芬是西方音乐史上一位少有的伟大音乐巨匠,他的音乐创作对欧洲乃至全世界的音乐事业发展都具有不可替代的积极作用,贝多芬为人类文明留下了极为宝贵的音乐文化遗产,对我们现代音乐发展乃至以后的音乐创作都有宝贵的研究学习的价值,他的每一部作品都值得我们去深挖,去分析,去学习。这首作品是贝多芬早期钢琴奏鸣曲的巅峰制作,创作与1799年,全曲充满着激昂悲愤的情绪和激动人心的力量,由呈示部展开部再现部
期刊
【摘 要】當前社会处于数字化网络信息时代,计算机网络技术应用于各个行业领域和日常生活中,为社会群众在学习、实际工作以及日常生活中带来了互联互通共享的便利,与此同时,计算机网络中信息安全问题也逐渐显现出来。特别是现阶段,社会中越来越多的领域将新型的科学技术应用其中,借助科学技术的优势促进自身更好的发展和进步,计算机网络信息安全中面临着各种因素的威胁:网络病毒、信息泄露、黑客入侵、恶意软件、不良网站、
期刊