基于Hadoop的关系表非冗余键集合识别技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:bldhdh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及和网络技术的飞速发展,互联网上出现了海量数据可供人们利用,关系型数据是其中最主要的数据组织形式之一。在关系数据库中,键集合信息是理解数据库结构和特征的基础,对数据建模、数据集成、异常检测、查询优化、数据索引等大量数据库任务具有至关重要作用。然而,在现实应用场景中的大型、复杂数据库中,键集合信息通常并不完整。数据库管理员和开发者迫切需要有效的键集合信息识别方法,辅助完成数据库优化、分析、维护等繁重任务。因此,如何高效自动发现关系表的键集合具有重要理论意义和应用价值。目前,键集合自动识别相关研究较少,代表性工作有BruteForce算法和GORDIAN算法。受到内存容量等因素的限制,现有工作无法在大型数据表上完成键集合识别任务。Hadoop是以HDFS和MapReduce为核心的开源分布式计算平台,可高效完成大数据集处理工作。本文针对大数据集特征,提出一种基于Hadoop分布式处理平台的大型关系表非冗余键集合自动识别方法,为数据库键集合信息维护提供有效解决方案。   本文首先阐述论文的研究背景与意义,简介Hadoop平台、BruteForce算法、GORDIAN算法等相关技术;然后,深入分析现有键集合信息识别研究工作的优缺点,在充分考虑数据集规模的基础上,提出一种键集合识别方案,并详细介绍方案核心模块的具体实现;接下来,在该方案的基础上,使用属性集修剪及数据修剪策略改进BruteForce算法,采用MapReduce分布式技术进行键判别,从而实现基于Hadoop的高效键集合信息识别;最后,将本文提出的算法与现有键集合识别算法进行实验对比,实验结果表明本文提出的算法具有更好的性能,有较强的使用价值。
其他文献
社区是城市的基本构成元素,也是城市居民的生活空间与发展载体,社区智慧化程度集中反映着城市的智慧水平。“智慧社区”是城市现代化发展进程中的一项重要成果,为城市社区的
设计和实现磁共振图像纹理分析平台,探索基于磁共振图像纹理分析方法对肝脏肿瘤恶性程度进行恶性程度轻级重级分类的算法,可为肝脏肿瘤恶性程度轻重级分类提供新的无创无毒副作
本课题来源于某集团网络办公自动化系统(Office Automation System,简称为OA系统)集团化改造项目。因组成集团公司的各分公司(将集团机关视作一个分公司)地理分布不同、业务
伴随物联网技术迅速发展,作为物联网重要技术之一的无线射频识别技术(Radio Frequency Identification, RFID)也越来越得到人们的关注。RFID技术是一种很强大的自动识别技术,
图像融合是由信息融合发展而来的,是多传感器信息融合中可视信息的处理,根据互补性,把来自多个传感器的数据信息综合起来,得到一个信息更丰富的图像。近年来,图像融合技术在
随着社会的进步和科技的飞速发展,人们的生活已经越来越离不开网络了,为了满足人们日益增长的需求,海量的网页信息也随之产生了,如何从这些海量的信息中找到人们所需要的信息
信息全球化的不断发展,网络技术发展不断成熟,信息交换的发展更加的细化,很多企业甚至是规模较小的企业都拥有自己的完善的内部网络系统,通过内部网络更加安全的完成企业内部
随着现代战争的突发性、快速性和复杂性的不断增强,这就要求通信必须迅速、准确和不间断地传输信息。因此,在指挥自动化系统中,良好的通信保障,是实施及时、正确指挥和快速作
电信运营商OSS(Operational Support System)即电信业务支撑系统,是一个自动化、高性能的电信业务引导、修复及开通运行的支撑系统,利用OSS可以向用户提供多种多样并且稳定可
隐喻是人类基本的思维方式之一,在自然语言中,隐喻的使用是一种非常普遍的现象。现今,隐喻已经成为了语言学家,心理学家和认知科学家所关注的课题之一。一切自然语言处理系统的本