基于云计算的大数据分析

来源 :大科技·D版 | 被引量 : 0次 | 上传用户:xjdszcjl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:伴随着互联网,物联网,云计算的不断发展,还有智能终端的普及,海量多样的数据呈现爆发性增长,促使大数据时代的到来。基于传统数据挖掘与大数据挖掘的对比,论述了大数据挖掘的内涵,提出了一个集云计算与挖掘服务于一体的数据挖掘体系结构,分析了大数据挖掘的内部工作流程,并分析了其优势和挑战,从而为用户对大数据挖掘的认知和应用需求提供参考。
  关键词:云计算;大数据;分析
  中图分类号:TP311.13 文献标识码:A 文章编号:1004-7344(2018)18-0269-02
  1 引 言
  作为重要的生产要素,大数据已经成为蕴含巨大潜在价值的战略资产,促进行业升级和改造,影响科学思维和研究方法的改革。然而,大数据依托丰富的资源储备和强大的计算技术优势,也同时迎来了挑战。本文通过比较传统的数据挖掘方法对大数据挖掘进行了讨论,提出了基于云计算的大数据挖掘系统结构,构建了特定的大数据挖掘系统,并且基于工作流程客观评价了大数据挖掘的优缺点。这将为推进大数据的应用和开发提供参考方法。
  2 大数据挖掘概述
  大数据挖掘是指从大量,多种类,快速动态循环,低价值密度的大数据中挖掘巨大的潜在信息和知识,并以服务的形式提供给用户。与传统的数据挖掘相比,它还旨在挖掘有价值的信息和知识。然而,在技术发展背景下,大数据挖掘所面临的数据环境以及挖掘的广度和深度方面存在差异。
  2.1 发展背景
  由于技术的进步,数据的大量生产以及对宝贵数据的需求,两者都有所发展。但是,就技术进步,数据量,复杂性和处理而言,传统的数据挖掘技术在大数据时代并没有实质性的环境和技术条件,而是处于数据库和互联网发展的背景下,实现了独立的,水平向垂直数据挖掘的发展。在大数据背景下,大数据挖掘受益于云计算,物联网和移动智能终端等技术的出现和发展。它基于大数据的特点,规避现有信息系统面临的问题,采用先进技术进行系统集成和改进。与传统的数据挖掘技术相比,已经有相当成熟的应用,算法研究和系统工具开发,其技术研究和应用还处于不断的发展中,对于海量数据的挖掘主要是基于云计算来实现相关技术的整合。
  2.2 处理对象
  由于大数据挖掘和传统数据挖掘所面临的数据环境不同,两种处理对象的特点也存在差异。传统数据挖掘的数据源主要基于在特定范围管理信息系统中生成的被动数据,以及Web信息系统中的一些用户生成的活动数据。数据类型主要是结构化数据,外加少量半结构化或非结构化数据。除了管理信息系统和Web信息系统之外,用于大数据挖掘的数据源还包括由感测信息系统等感测设备自动生成的模拟数据。与传统数据挖掘相比,大数据挖掘具有更广泛的数据源,庞大的数据量和更复杂的类型。相应地,采集方法不再局限于被动,而是更全面的采集范围,高吞吐量以及实时和快速的处理。但是,由于数据的准确性较低,数据冗余和不确定性很高。
  2.3 挖掘程度
  大数据挖掘和传统数据挖掘之间的数据分析的广度和深度也存在差异。当复杂类型,结构和模式的数据交织合并时,大数据挖掘可以利用云平台将多种计算模型和挖掘算法进行整合,对复杂数据进行实时处理和多维分析。处理数据的范围更广,挖掘分析更加先进、全面。然而,传统的数据挖掘主要是利用相应的挖掘工具来分析特定领域中尺寸较小的结构化数据。数据处理的范围相对有限,数据类型相对简单。另外,传统的数据挖掘平台集成本身并不系统,计算和挖掘算法的可扩展性不强,导致其对多源异构数据采集,实时处理和挖掘分析的访问受限。
  一般来说,大数据挖掘是基于大数据作为数据来源,依靠云计算和大数据相关技术的支持,使用挖掘工具发现潜在的有价值的信息和知识以及云服务的结果。与传统的数据挖掘相比,它旨在改变分析对象。基于云平台,进一步扩展传统数据挖掘,并进一步与其他相关技术相结合,实现大数据挖掘的同时时,大规模,快速处理和交互式分析信息。
  3 基于云计算的大数据挖掘体系结构
  传统的数据挖掘系统通常运行在独立的机器上或客户机/服务器上。该体系结构通常是客户机/服务器的两层结构或Web浏览器/服务器的三层结构。其系统结构大致分为数据源,数据存储,挖掘分析,前端显示四层,处理流程主要用于将数据移动到计算机中,将预处理后的数据加载到数据仓库中,数据集中存储和迁移分析服务器上的挖掘并最终以交互方式向用户展示结果。但是,在处理大规模分布和动态异构数据时,这种存储和后处理的集中批处理模式无疑增加了时间,空间复杂度和传输成本。此外,还存在以下问题:①传统信息系统的扩展存在障碍。在异构环境中,群集的计算能力很差,存储受限于数据的大小和类型,而且纵向扩展的成本非常高。②数据挖掘效果不能满足预期的要求。传统分析工具和挖掘算法对于多维和复杂的大数据没有可移植性和可伸缩性。由于分析不够深入,导致低质量和低效率的分析结果。例如,传统的聚类算法以牺牲原始数据,低质量聚类结果和高时间复杂度为代价来处理高维数据。③用户交互体验效果不佳。预处理阶段耗时繁琐的手工排序以及用户需求的被动和非智能认知过程与用户所需的简单,快速,智能和实时的标准不一致。
  3.1 云计算
  面对大数据时代传统数据挖掘的不足,云计算作为高度可扩展,高度灵活和虚拟化的计算模型,为大数据挖掘的存储容量和处理速度提供动态支持。核心技术的云计算包括分散式存储和分布式并行计算。其中,分布式存储主要是分布式文件存储和分布式数据库存储。由GFS代表的分布式文件系统具有高可扩展性,高容错性和高吞吐量。它们大多适用于大规模,分布式,海量数据并发访问。它并不适合存储大量的小数据文件,但是一些系统可以存储大量小文件,如Colossus,Haystack和TFS(TaoFileSystem)。分布式数据库包括事务数据库和分析数据库,请参见表2,部分结合了并行数据库的高性能和MapReduce的高可伸缩性,以存储结构化,半结构化和非结构化数据来解决传统数据分析面临的存储问题。与此同时,以MapReduce为代表的分布式并行计算具有简单易用,扩展性好的特点。它适用于批量处理的大规模的数据,能够有效减少计算复杂度和提高计算效率。目前,一些知名企业正在为自己的业务领域推出基于云计算的相应大数据挖掘解决方案。例如,Google构建的新一代搜索引擎平台可以实现大数据的大规模小文件存储和实时交互分析;微软将使用Windows、Azure与Hadoop集成,并与应用软件(如商业智能BI)集成,以提供多平台兼容的多功能高性能分析挖掘服务;IBM基于Hadoop和流计算,智能分析和其他系统进行实时数据管理和智能分析;其他公司正在改进开源Hadoop平台上的功能,比如Yahoo在Hadoop平台上开发的Pig,Facebook开发的Hive等。虽然上述大数据挖掘体系结构不尽相同,但其云构建平台和挖掘功能的构建策略并无显着差异。然而,面对诸如数据共享和跨多个领域的采矿平台的适用性等问题,各自的解决方案需要相互学习并进一步相互整合。
  3.2 大数据挖掘架构
  基于上述研究,笔者提出了一种集成多种计算和存儲模式的大数据挖掘体系结构,具有强大的分析挖掘功能。该框架从内到外分为支撑平台层,功能层和服务层,如图1所示。
  (1)支持平台层。作为大数据挖掘的资源和动力支撑,该平台通过将混合大数据与基于云计算的多种支持处理技术相结合,创建了一个拥有强大而丰富资源的云环境。这种云环境不仅可以向外界提供数据,硬件和软件等资源,而且可以计算出向数据转移的方式,为多处理器的预处理,分析和挖掘过程注入强大的动力,处理源复杂数据。
  (2)功能层。该层可以根据用户需求和偏好自动执行智能分析和挖掘。其中,分析,挖掘和其他工具依赖于云平台高效的存储和计算能力以及高扩展性。
  (3)服务层。大数据挖掘会自动通过客户端与服务提供商和用户进行交互。其挖掘结果通过诸如可视化和数据源等技术以服务的形式呈现给用户。
  总体而言,大数据挖掘提供了云服务模型。也就是说,功能层,服务层和平台层是相互整合和相互依赖的。三者形成了以强大的计算和存储能力为核心的各种分析,挖掘和显示。通过功能整合,实时分析和挖掘云计算系统中的大数据,从而产生三种形式的基础架构即服务(IaaS),平台即服务(PaaS)和软件作为服务(SaaS)可供用户使用。
  4 结 语
  大数据的出现带来了丰富而多样的潜在宝贵资源,以及传统数据管理和科学思维的变化。面对庞大,复杂和不确定的动态数据,传统的数据处理方法,无论是计算还是存储,都面临着严峻的挑战。它们的可扩展性和灵活性不能满足大数据实时处理的要求。云计算为大数据处理提供了强大的计算和存储能力,同时,大数据挖掘为大数据和云计算的深度整合提供了机会。
  参考文献
  [1]郭思亮,宋廷山,刁艳华.基于云计算的大数据分析相关问题探讨[J].齐鲁师范学院学报,2015(1):134~139.
  [2]邓仲华,刘伟伟,陆颖隽.基于云计算的大数据挖掘内涵及解决方案研究[J].情报理论与实践,2015,38(7):103~108.
  收稿日期:2018-5-21
其他文献
期刊
随着经济全球化的日益深入,市场对制造企业经营理念和运作模式的要求发生了深刻变化。越来越多的制造企业希望通过企业信息化改造、业务过程重组、知识管理等手段,改进自身不足
我国拥有五千年的历史,也是一个多民族杂居的国家,在长期的历史发展过程中,形成了丰富且具有特色的民族文化,这些民族文化各具特色,在文化和艺术等各个方面都有令人赞叹的美.
物质生活的愈发丰富满足了人们的物质需求,物质需求得到满足的人们也愈发地重视精神需求.工艺产品蕴含了丰富的审美价值和文化内涵,能够满足人们多元化的精神需求.珠宝首饰是
期刊
本文包括下述主要工作和结论:(1)通过分析产品开发模式和VPD的核心功能,提出了VPD框架体系和构成要素.在基于虚拟总线的虚拟制造体系结构下,归纳出"三核心四层次"的虚拟产品
目前船用螺旋桨加工装备通常存在仅能单面加工、需多次装夹、加工效率低、易产生定位误差、易引起桨叶振颤等不足。文中提出一种基于混联机构的加工装备的构型方案,研究该装备
随着人类对地外天体的地质构成、进化演变、星壤物理及化学特性的探索兴趣越来越浓厚,各国争先致力于深空探测技术的研究。不同于复杂的表取、钻取,本课题所研究的潜入器采用非
目的:本研究旨在检验主观真实-持续幸福感量表中文版的信度和效度.方法:应用主观真实-持续幸福感量表对514名大学生进行调查,并同时施测主观幸福感量表、总体幸福感量表和中
目的 探讨高通量血液透析联合尿毒清治疗终末期肾病的疗效.方法 选取2017年10月-2018年10月我院收治的60例终末期肾病患者为研究对象,采用随机数字表法分为观察组和对照组,各