大数据集成开发平台的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:ll6960071
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术的发展,网络中的数据量呈爆发式增长。海量数据中蕴藏了巨大的价值,如何更好更快地挖掘这些价值逐渐成为数据拥有者们普遍关注的焦点。如今大数据处理技术蓬勃发展,很多优秀的大数据计算框架被推出,为海量数据的计算处理提供了众多可靠的解决方案,从海量数据中提取数据价值已经不再是难事。但是,传统的数据开发模式却影响了数据开发与价值提取的效率。经过前期的技术调研与分析,发现传统的数据开发模式中主要存在以下问题:1)数据开发过程相对繁琐,在开发过程中开发人员需要通过命令行与集群进行交互,导致开发效率低下。2)多源数据同步方式不统一,且单机数据同步容易达到性能瓶颈,导致数据互通难,亟需一种统一的分布式数据同步方案;3)大数据处理流程中存在过多人工干预,无法实现大数据处理流程的自动化,严重地影响了数据的生产效率以及生产质量;针对上述问题,本文重点围绕大数据混合任务流编排优化以及分布式数据同步技术展开研究与分析,完成了大数据集成开发平台的研究与实现,主要研究内容有以下三项:1)提出并实现了基于DataX的分布式数据同步方案:基于对开源数据同步工具DataX的研究与改进构建了分布式数据同步工具,实现了多源异构数据同步方案的统一化,同时避免了单机数据同步容易达到性能瓶颈的问题;2)提出了一种大数据混合任务流编排及优化方法:旨在将复杂大数据处理流程中的多个不同类型的任务编排成基于有向无环图的混合任务流,从而通过对大数据混合任务流的自动化调度实现大数据处理流程的自动化;3)设计并实现了一站式大数据集成开发平台:构建了一个基于Web的大数据集成开发平台,针对不同大数据技术及处理框架提供统一的开发环境,面向大数据开发人员提供一站式数据开发能力,从而促进大数据开发的流程化与标准化。本文最终实现一个大数据集成开发平台,平台可以面向开发人员提供从数据产生到数据同步、数据存储、数据处理,最终到数据消费的全链路解决方案。平台应用到了国家重点研发计划项目“基于大数据的科技咨询技术与服务平台研发”中,验证了本文平台与方案的有效性及实用性。
其他文献
近年来我国服装行业得到飞速发展,制造工艺也在不断进步,然而全新面料的出现以及服装风格的多元化对设计师也提出了更高的要求.面料是服装构成的主要要素之一,面料的风格、功能、质地都成为设计师诠释服装设计个性以及流行主题的载体,所以需要在服装设计过程中对肌理技法巧妙运用.基于此,本文从肌理技法研究背景入手,讨论面料原有的自然肌理,阐述面料肌理再造的要素,提出面料表面肌理设计的方法,最后说明面料肌理设计在服装设计中的巧妙应用,希望对相关研究带来帮助.