论文部分内容阅读
随着移动互联网技术的发展,网络中的数据量呈爆发式增长。海量数据中蕴藏了巨大的价值,如何更好更快地挖掘这些价值逐渐成为数据拥有者们普遍关注的焦点。如今大数据处理技术蓬勃发展,很多优秀的大数据计算框架被推出,为海量数据的计算处理提供了众多可靠的解决方案,从海量数据中提取数据价值已经不再是难事。但是,传统的数据开发模式却影响了数据开发与价值提取的效率。经过前期的技术调研与分析,发现传统的数据开发模式中主要存在以下问题:1)数据开发过程相对繁琐,在开发过程中开发人员需要通过命令行与集群进行交互,导致开发效率低下。2)多源数据同步方式不统一,且单机数据同步容易达到性能瓶颈,导致数据互通难,亟需一种统一的分布式数据同步方案;3)大数据处理流程中存在过多人工干预,无法实现大数据处理流程的自动化,严重地影响了数据的生产效率以及生产质量;针对上述问题,本文重点围绕大数据混合任务流编排优化以及分布式数据同步技术展开研究与分析,完成了大数据集成开发平台的研究与实现,主要研究内容有以下三项:1)提出并实现了基于DataX的分布式数据同步方案:基于对开源数据同步工具DataX的研究与改进构建了分布式数据同步工具,实现了多源异构数据同步方案的统一化,同时避免了单机数据同步容易达到性能瓶颈的问题;2)提出了一种大数据混合任务流编排及优化方法:旨在将复杂大数据处理流程中的多个不同类型的任务编排成基于有向无环图的混合任务流,从而通过对大数据混合任务流的自动化调度实现大数据处理流程的自动化;3)设计并实现了一站式大数据集成开发平台:构建了一个基于Web的大数据集成开发平台,针对不同大数据技术及处理框架提供统一的开发环境,面向大数据开发人员提供一站式数据开发能力,从而促进大数据开发的流程化与标准化。本文最终实现一个大数据集成开发平台,平台可以面向开发人员提供从数据产生到数据同步、数据存储、数据处理,最终到数据消费的全链路解决方案。平台应用到了国家重点研发计划项目“基于大数据的科技咨询技术与服务平台研发”中,验证了本文平台与方案的有效性及实用性。