数据仓库化中数据清洗问题的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:thiscf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的广泛应用,人们在日常事务中积累了大量的数据.为了更有效地利用这些数据,越来越多的企业开始利用数据仓库技术对数据进行分析.数据仓库中一项很重要的技术是数据集成,即将操作型数据从不同信息源抽取到数据仓库中来.由于不同源间的数据库存在着语义和模式的差异,这使得数据集成成为难度很大的工作;此外,在数据集成过程中存在着大量的信息缺失、信息重复等问题.由此,需要在数据集成中加入数据清洗过程,来消除数据的异构性及其它诸多问题.该文首先讨论数据清洗的问题,提出了一些数据重组方法,并用形式化的方法加以描述;然后研究了数据清洗的具体算法,同时把以上方法集成进数据清洗框架;最后,我们讨论数据清洗工具软件的实现.
其他文献
该文从企事业单位日常大量的专门文档处理工作的数字化出发,通过对几个实际的数字影像系统项目的总结,提出了面向专门文档的高速录入识别和管理系统的开发框架,把可以重复使
随着需求的不断提出和技术的日益进步,下一代电信网络以及在此基础上的增值业务研究成为现阶段计算机和通信技术研究的热点问题,软交换以及Parlay作为其中的代表技术,能实现
为了研制高温超导磁悬浮实验车,西南交大超导技术研究所研制了高温超导磁悬浮测试系统。该测试系统由数控位移装置、传感技术、工控机驱动控制、数据采集和处理及系统软件组成
该文中提出并实现的嵌入式传真服务器以市场需求为背景,结合了传统传真及现代网络Email两者的优点.作者在嵌入式传真服务器产品开发过程中,遵循着嵌入式系统"量体裁衣"的开发
本文主要研究在编码密码中有广泛应用的一些组合设计问题,包括认证直交表向量APAV(q,k)的存在性、正交表向量问V(m,t)存在性,有限域上差族的存在性以及超单平衡不完全区组设
随着移动业务的不断拓展,无线安全问题也越来越受到关注.目前应用较广泛的无线应用协议(WAP)里包括了一个安全层次WTLS,WTLS类似于有线网络里的SSL,WTLS在一般情况下能满足用
广域CENTREX增值业务在电信大客户市场受到欢迎.该文通过对实现电信广域CENTREX增值业务的三种方法对比和分析,指出了基于交换机实现广域CENTREX存在的问题和不足之处,同时指
IP多播是开放式的、尽力而为的模型。它没有为上层提供任何服务质量和投递保证。为了提高多播传输的可靠性,人们提出了大量的可靠多播协议。但是,由于不同应用的需求差异很大
随着Internet的迅速发展,网络安全问题日益突出,传统的访问控制方法DAC和MAC难以满足复杂环境的安全需求。基于角色的访问控制正成为安全可靠的应用系统的重要组成部分。构建一
本论文研究的内容是为了适应四川省网络通信技术重点实验室两项研究工作需要而提出的。首先协议测试系统需要易于修改适合用于测试系统调试的测试对象,其次新的单物理层平面体