大数据技术及其发展综述

来源 :科学与生活 | 被引量 : 0次 | 上传用户:yooeo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着互联网技术的蓬勃发展,信息化技术已经深入到人类生活、军事、科技等方方面面,21世纪以来,数据呈现爆炸式增长。本文主要介绍了大数据的概念与特性,归纳了大数据相关技术以及我国大数据的行业应用,最后总结了当前大数据发展困境以及发展趋势。
  关键字:大数据、数据挖掘、数据清洗
  1、引言
  当今世界的任何一个角落,遍布各种移动设备、传感器、社交网络等,它们每分每秒都在产生各种数据,据统计全球数据量每18个月翻一番,因此,大数据也受到越来越多的行业和专家的关注,不可否认,我们已经进入了大数据时代。
  大数据是一个复合型领域,包含了大数据工程、大数据技术以及大数据应用等多学科交叉的领域,其中大数据技术是指能够从海量数据中提取、清洗、挖掘、分析与结果解释,快速获得有价值的信息的技术,通过大数据技术能够帮助人们做出正确的预测、评估发展趋势,衍生出更多未知的知识,提高各个领域的生产效率等。大数据技术是一项面向实际应用的技术,随着流量时代的到来,大数据技术的应用也更加广泛,收益与潜力也更加惊人,科学家与企业家们对此都寄予厚望。
  本文主要分析和归纳了当前大数据技术的主要内容,总结了当前大数据发展的困境并预测了未来大数据技术的发展趋势,希望可以为大数据研究提供相关参考。
  2、大数据技术概述
  大数据作为一门新兴技术,还没有形成完善的、统一的技术标准,比较公认的说法就是4V特征:Volume(容量大)?Variety(种类多)?Velocity(速度快)和Value(价值密度低)。主要包括以下技术:
  2.1 数据采集
  数据获取是通过数据采集工具采用一定方法采集原始数据输入到系统内部的过程,是整个大数据技术全过程的最初始的一步。目前我们研究的大数据获取领域非常广泛,主要来源于两方面:一是虚拟世界里各种网络数据,如用户交互数据、移动设备数据等;二是现实世界中的一些科学实验数据和传感器数据。据统计,这些数据有百分之八十以上为半结构化数据和非结构化数据,且同一时间可能出现数以亿计的数据信息,考虑到数据的异构性和并发性,目前主流的大数据采集方式有两种:MapReduce分布式并行处理模式和基于内存的流处理模式。
  2.2 数据抽取与清洗
  在大数据技术中,数据抽取与清洗位于数据获取之后,其实可以分成两个步骤来看,数据清洗的主要工作是将多种数据库运行环境中的数据进行整合与处理,然后设计新数据的存储结构并定义与源数据的转换机制和装载机制,以便能够准确地从每个数据源中抽取所需的数据,并将这些结构和转换信息作为元数据存储起来;而数据清洗则是在保证数据质量的前提下从数据量巨大、数据类型丰富的大数据中得到干净、完备的数据集。
  数据抽取过程是检索全部的数据源,按照某种标准筛选符合要求的数据,并将被选中的数据送到目的文件中。通常在数据抽取前会做大量的工作去了解数据源的类型,以及采用哪种数据库,根据数据的特征制定不同的抽取方法。数据抽取方式分为全量数据抽取、增量数据抽取。
  数据清洗相对来讲时一个比较新的研究领域,尤其不同领域对数据质量的要求不统一,因此针对不同领域需要制定不同的清洗算法,对数据清洗算法的衡量标准主要包括:返回率、错误返回率、精确度。
  目前对数据清洗这块的研究主要是:不完整数据的清洗方法、异常数据的清洗、重复数据清洗以及文本清洗。
  2.3数据集成
  数据集成是指将不同来源、不同格式、不同特点与不同性值的数据在逻辑上或物理上有机地集中、存放在一个一致的数据仓库中,使后续的数据分析与数据挖掘提供全面的数据共享,使用户能够以透明的方式访问这些数据源。
  数据集成要考虑的核心问题一是异构型,被集成的数据源往往使来源不同的异构数据模型,其数据语义、表达形式、和数据源的使用环境不同都给数据集成带来很大的困难;再者是分布性,考虑到数据源往往分布在不同的地区和网络中,需要通过网络传输来完成数据集成,这中间就要考虑数据的安全性问题以及传输性能问题。
  2.4数据分析与建模
  大数据分析指通过应用技术和分析工具把自有数据整合起来分析与理解,从而得到有价值的信息,重点在于数据挖掘。
  数据挖掘融合了数据库技术、人工智能、机器学习、数据可视化等最新技术的研究成果,重点在发现未知的模式与规律。数据挖掘的过程需要建立、选取挖掘模型,一般常用的方法就是样本学习,先取一部分样本数据建立模型,再用其他数据来反复测试、验证该模型,注意的是当样本较小情况下,要提高随机性保证效果。数据挖掘是一个反复的过程,通过不断地产生、筛选、验证结果集,才能获得有意义的解。数据挖掘有关联规则挖掘、分类、聚类、序列模式挖掘、web挖掘、空间数据挖掘、非结构化文本数据挖掘。
  3大数据应用
  随着大数据的普及,全球许多国家都意识到了数据资产的重要性,纷纷发布了大数据发展战略,我国也把大数据技术提升到了国家战略层面上。目前我国大数据技术应用行业较深的有电信、政务、医疗、交通等。
  电信行业无疑是我国最大的大数据来源,涉及移动语音、无线上网、家庭宽带等多类业务,目前国内运营商运用大数据主要有以下方面:利用大数据技术合理分配基建资源和基站选址、通过流量分析对网络设备和运营进行优化;基于客户资料和通话行为等刻画用户画像,实现精准营销和个性化推荐;通过大数据分析手段从网络、用户、业务等多维视角监控运营管理和客户管理。政务服务是国家党政机关的基本职能,在大数据浪潮下,智慧政务登上舞台,例如电子身份证、网上办事平台等实实在在起到了便民作用,尤其在19年末20年初,新冠疫情席卷全球,大数据技术在助力我国抗击疫情、恢复生产上起到了很大的助力,随之还催生、推动了“无接触经济”的发展。京东图书大数据在医疗、交通方面的应用更是融入到我们的日常生产、生活中,例如现在的智慧医疗、电子病历等,交通道路的实时监控、出租车的实时定位、交通费用以及违规记录等。
  4大数据技术发展困境
  虽然大数据技术具有較强的应用前景,但是目前而言存在以下问题:
  1、采集到的数据源不够丰富,不同领域、行业、单位之间数据交流缺乏统一的标准,导致数据往往只在内部流通,形成数据孤岛。需要制定一个通用的标准来实现数据交流、共享。
  2、缺乏先进的数据开发软件平台和分析算法,在大数据处理、分析、展示等方面均落后国外,难以满足各行各业发展需求。
  3、数据资源建设相对不足,缺乏完善的管理与运营机制。针对据所有权、隐私权等相关法律法规和信息安全、开放共享等标准规范缺乏,技术安全防范和管理能力不够,尚未建立起兼顾安全与发展的数据开放、管理和信息安全保障体系,制约了大数据发展。
  参考文献:
  [1]何友,朱扬勇,赵鹏,等.国防大数据概论[J].系统工程与电子技术,2016,38(6):1300-1305.
  [2]徐超,陈勇,葛红美,等.基于大数据的审计技术研究[J].电子学报,2020,48(5):1003-1017.
  [3]刘昕,王晓,张卫山,等.平行数据:从大数据到数据智能[J].模式识别与人工智能,2017,30(8):673-681.
  [4]何清,李宁,罗文娟,等.大数据下的机器学习算法综述[J].模式识别与人工智能,2014(4):327-336.
其他文献
摘要:合作伙伴的选择一直是供应链管理研究的热点问题之一,吸引了全世界各国学者的广泛讨论,供应链管理的合作伙伴理念模式和方式五花八门,在供应链环境的影响下,良好的合作关系不但是供应链管理的关键,也是集成化供应链管理的重点。这种合作关系能够帮助企业处理许多问题,怎样选择科学的合作伙伴已成为一个关键问题,本文分析了供应链环境下伙伴选择的主要目的,影响因素,一般流程,来帮助企业进一步处理好供应链管理的合作
目的 评估抽动障碍儿童的行为,分析不同临床状况抽动障碍儿童的行为特征.方法 选用儿童行为调查表(CBCL)对63例抽动障碍儿童进行评分,通过方差分析、t检验分析抽动障碍儿童不同临床类型、不同抽动严重程度、是否共患注意缺陷多动障碍(ADHD)的CBCL总分及各因子得分.结果 3种不同临床类型间CBCL总分及各因子得分差异未见统计学意义(P>0.05),中重度抽动障碍组躯体主诉(4.15±2.34)分
患者女,44岁.19年前妊娠足月,产后无乳、闭经,此后出现乏力、精神不振、嗜睡.因恶心、呕吐10 d入院.入院查体:血压80/55 mmHg(1 mmHg =0.133 kPa),神志清,表情淡漠,心音低钝,生理反射对称减弱.实验室检查:血钠111.2mmol/L,血氯75.0 mmol/L,血皮质醇1.9 mg/L(正常参考范围525 mg/L),FT3 0.591 ng/L(正常参考范围1.4
目的  探讨大肠癌组织中血管内皮生长因子(VEGF)与淋巴结转移的关系.方法 采用免疫组化方法检测40份大肠癌组织中VEGF的表达,采用CD34标记计数肿瘤组织微血管密度(MVD),分析VEGF与大肠癌淋巴结转移的关系,采用x2检验和Spearman等级相关分析对相应资料进行分析.结果 40例大肠癌患者淋巴结转移24例,MVD为40.65±11.80,VEGF阳性21例(87.5%);无转移16例
目的 总结分析中重度颈动脉狭窄患者缺血性卒中的临床特点,提高临床上对此类疾病的认识、指导下一步的治疗.方法 收集52例缺血性卒中合并中重度颈动脉狭窄患者(狭窄组)和同期48例无颈动脉狭窄的患者(对照组),对2组患者影像学特点及临床症状作比较分析.结果 狭窄组中短暂性脑缺血发作(TIA)事件比对照组多,2组比较差异有统计学意义[分别为34.6%(18/52)与12.5%(6/48);x2=6.65,
目的 探讨多囊卵巢综合征(PCOS)患者的妊娠结局.方法 回顾性分析2004年2月至2011年2月我科收治的76例PCOS经治疗后妊娠的患者与80例普通孕妇(对照组)的临床资料,分析并比较两组自然流产、早产、双胎、剖宫产、妊娠期糖尿病(GDM)、妊娠期高血压疾病(PDH)的发生率以及新生儿情况.结果 PCOS组自然流产率与对照组比较,差异有统计学意义[23.68% (18/76)与8.75%(7/
摘要:隨着我国新冠肺炎得到有效控制,当前吉林省疫情已进入常态化防控阶段,吉林迎来了旅游新时代时期。通过对新时代时期旅游行业发展现状、发展变化、发展趋势的分析,得出吉林省旅游业虽然遭受重创,但是也面临着疫情得到控制,旅游行业催生新的消费方式和旅游方式、创新旅游产品、改变经营模式等挑战与机遇,提出了通过康养旅游、乡村旅游、智慧旅游等途径,实现旅游业相关的发展策略,促进吉林省旅游业新发展。  关键词:新
目的 研究血浆同型半胱氨酸(Hcy)在颈内动脉系统进展性缺血性脑卒中(PIS)发病中的作用及其与颈动脉粥样硬化(AS)的关系.方法 收集68例颈内动脉系统PIS患者(PIS组),72例颈内动脉系统非PIS患者(非PIS组),测定血浆Hcy浓度,比较PIS组、非PIS组与正常对照组血浆Hcy浓度、颈总动脉内膜中层厚度(IMT),对PIS组血浆Hcy浓度与IMT行直线相关分析.结果 PIS组、非PIS
目的 观察瑞替普酶静脉溶栓治疗急性心肌梗死的疗效及安全性.方法 27例急性心肌梗死患者应用瑞替普酶静脉溶栓,观察溶栓疗效及出血并发症.结果 27例患者溶栓2h内血管再通率为88.9% (24/27),出血发生率55.6%(15/27),均为皮肤黏膜出血,并于1d内消失.结论 急性心肌梗死患者静脉溶栓治疗中,瑞替普酶是一种安全有效的溶栓药物,其再通率高、血管开通时间短,给药方便,适合在基层医院临床使
冠状动脉无复流(no-reflow,NR)是指急性心肌梗死(AMI)患者经皮冠状动脉介入治疗(Percutaneous oronary interventions,PCI)或静脉溶栓治疗、其梗死的相关动脉(Infarction Relative Artery,IRA)再通后,冠状动脉造影排除病变部位因内膜撕裂、管壁夹层、血栓栓塞、急性支架内血栓形成、心外膜血管痉挛等急性PCI机械并发症因素,冠状动