论文部分内容阅读
在许多行业和机构中,大中型数据库和数据仓库的大批量数据集快速批量处理有广泛的应用需求。如何实现海量数据快速交互的批量处理是管理信息系统所面临日益突出的问题,也是数据集中工程中急需解决的关键问题。海量信息技术架构迫切需要具有动态的、可伸缩的存储计算模式,才能实现快速响应的机制。本文研究了业界在海量数据处理方面中的实践,包括基于MPP架构的数据库、集群技术、虚拟化技术等,在此基础上,对某金融系统在数据处理效率方面的不足进行了认真分析,发现主要原因是由于数据架构设计存在缺陷,造成无法进行大规模数据并行处理,影响了系统的可扩展性和处理效率。同时在IT基础架构层面采用的也是传统技术,服务器的并行扩展能力受到限制,系统整体处理效率无法满足业务发展的需要。在问题分析的基础上,结合业界先进实践,本文通过对数据的合理划分和规划,引入多通道、流水线处理的思路,对某金融系统的数据架构重新进行了规划设计,在逻辑层面解决了某金融系统海量数据处理效率较低的问题。在IT基础架构层面,引入云计算技术,规划计算资源池与存储资源池,实现了资源的灵活配置,为某金融系统实现海量数据处理的高效性和灵活性奠定了基础。最后,为了验证解决方案的有效性,开发了原型系统,并搭建了采用基于MPP架构的GreenPlum数据库、WAS集群、IBM虚拟化技术的测试环境进行测试。测试结果表明,上述解决方案较好的解决了目前某金融系统在海量数据处理效率方面的不足,并具有很强的扩展性,完全达到预期。本文在研究海量数据处理技术当中,通过对数据进行合理划分,引入多通道、流水线处理的思路,结合云计算技术、基于MPP架构的数据库、集群技术,有效解决某金融系统存在的海量数据处理效率问题,并构建了具有可扩展、可配置、可伸缩的技术支撑平台,将为某金融系统各种业务的创新和发展提供强大技术保障。