论文部分内容阅读
近年来随着互联网行业的蓬勃发展,互联网数据与日俱增,大数据时代已经到来;数据集成领域需要有更加高效和高质量的方法来应对大数据时代带来的挑战;为了提高工作效率与质量,新的工作形式与技术的运用方式不断产生。在数据集成方面,将常规工作以可视化流图形式进行已经成为主旋律,比如通过执行由可视化数据流图翻译成的目标程序语言代码来完成数据处理任务。这方面的工作依赖翻译器完成。本文经过对数据集成领域相关初级工作内容的总结,引用领域特定语言(Domain Specific Language,简写DSL)的相关理念抽象出一套适用于该领域的可视化模型,即面向数据集成的非文本DSL(Data Integration’s no-text DSL或Data Integration’s Graphic DSL,简称DIG-DSL),并使用WEB前端相关技术实现,可以再浏览器端展示。本文所述系统是腾讯科技(深圳)有限公司(以下简称腾讯)数据集成服务中心(Data Integration Services House,以下简称Dish)的异构语言互译子系统(以下简称互译系统),是基于B/S架构实现的翻译器,与其他该领域翻译器一样,用来完成可视化流图向程序语言代码的翻译工作,在本文具体是将在浏览器端展示的DIG-DSL翻译为SQL代码;除此之外,互译系统还具有将SQL反向翻译为DIG-DSL的功能,这一功能不仅大大提高了互译系统可用性也使数据集成工作方式更加灵活和形式更加丰富。通过该互译系统,用户可以使用DIG-DSL进行数据处理流程的设计,再经过翻译直接得到等价SQL代码。因为DIG-DSL可以通过互译系统提供的DIG-DSL支持工具辅助用户进行流程设计,所以进行数据处理的工作方式从过去编写逻辑复杂的SQL代码变成操作简单的绘图;用户可以将精力集中在数据处理逻辑而不是实现上。将SQL逆向产生DIG-DSL的功能可以帮助用户将过去工作中积累的SQL转换成数据流图的形式;这样可以有效的复用过去工作成果,也提高了互译系统的可用性和灵活性。整体看,互译系统大大提高了数据集成方面的工作效率和降低工作成本。