【摘 要】
:
在当今信息化时代的背景下,数据对于各行业发展的重要性不言而喻。由于数据来源的广泛性和数据模型定义的无关性,在整合数据源数据,尤其是整合多数据源数据时,常常会暴露出严
论文部分内容阅读
在当今信息化时代的背景下,数据对于各行业发展的重要性不言而喻。由于数据来源的广泛性和数据模型定义的无关性,在整合数据源数据,尤其是整合多数据源数据时,常常会暴露出严重的数据质量问题。这些数据质量问题常常会导致错误决策的制定,使信息驱动型应用失去潜在的效益。所以数据质量越来越受到人们的关注,作为提高数据质量有效手段的数据清洗技术得到了广泛的研究和发展。论文所做的主要工作包括以下三部分:第一部分,阐述了当前数据清洗在国内外的研究状况,论述了数据质量的概念,对数据质量问题的分类进行了讨论,并分析了多种造成数据质量问题的原因。同时阐述了数据清洗的概念、原理及一般过程。第二部分,着重研究了几种重复数据清洗算法,提出了一种适合本设计的数据清算法。根据已有项目的需求,结合已有数据特点,制定了清洗流程。第三部分,设计并实现了一个数据清洗框架模型,并利用测试数据对所设计的框架进行了性能测试。数据清洗框架的设计与实现是论文工作的重点。此框架包含多个清洗流程,在数据入库之前就对数据的基本格式与取值进行校验,达到初步控制数据质量的目的。利用多级数据库存取模式实现“脏数据”与决策资源池间的有效隔离,保证进入资源池的数据都是经过清洗的数据。系统使用Java面向对象设计语言与ORACLE数据库进行设计开发,很大程度上提高了系统跨平台运行的能力。框架采用模块化设计的方式,方便以后的拓展和维护。文章最后对所做工作进行了总结并对后续的发展进行了展望。
其他文献
近年来,我国前列腺癌的发病率呈逐年上升趋势,且大多数患者就诊时癌细胞已经发生转移,内分泌治疗可使多数患者的病情得到控制和改善,但经过一段时间缓解后多数患者极易发展为
随着网络时代的到来,数字出版产业逐渐兴起,数字出版凭借其产品的数字化、网络化以及交易电子化等优势,已经成为出版业发展的必然趋势。数字出版产业是朝阳产业,国家从政策方
目前先天性心脏病的病因学已经从胚胎学迅速深入到遗传学领域,尤其是确定其基因型和表型关系。近来,关于 Noonan综合征、马方综合征和长QT综合征的基因型和表型关系的研究已
<正>小麦是我国主要粮食作物,据统计资料,2012年我国小麦产量达1.2亿吨,其中70%以上用于制粉加工。小麦经过制粉加工得到成品面粉的同时,还得到次粉、小麦麸皮以及小麦胚芽3
现代社会中,抑郁或焦虑常与冠心病共病,心理应激常可加重糖尿病,并促发心血管事件;只有对心理应激与糖尿病同时加以干预,预防心血管事件的发生才有显著效果。
近年来扩张型心肌病的治疗有了长足发展。药物治疗方面第三代 β受体阻滞剂的出现显著降低心血管病病死率。非药物方面基因治疗是新近研究的热点 ,免疫吸附疗法、起搏器治疗
针对边坡的稳定性问题,采用矢量和法进行了系统的分析。考虑到左岸桥址边坡的具体工程地质条件对桥址边坡稳定性的不利影响因素,抗剪强度参数按照下限值、平均值、上限值三种
作为未来经济社会可持续发展的最佳模式选择—低碳经济,对其研究的兴趣吸引了众多的自然科学家和社会科学家。产业园区的发展在中国同样是一个新的经济集聚发展形势,而发展到
小麦胚芽的营养与生产焦作面粉厂刘佳凯小麦籽粒由皮层,胚和胚乳三部分组成,三者在小麦中所占的比例为13.5%、2.5%和84%。胚芽是小麦的生殖器官和小麦生命的根源,它虽然大小不同,但平均外形尺
<正>自2001年以来我院康复医学科迅速发展。在医院领导的重视下,在吸取国外康复医学科管理和学习世界现代康复医学的新知识、新观点、新技术的同时,充分发挥我国传统康复医学