分布式大数据不一致性检测

来源 :软件学报 | 被引量 : 0次 | 上传用户:zydolphin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系数据库中可能存在数据不一致性现象,关系数据库数据质量的一个主要问题是存在违反函数依赖情况.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,尽管检测效率不高;而分布式环境下不一致性检测更富有挑战性,不仅需要考虑数据的迁移,检测任务如何分配也是一个难题.在大数据背景下,上述问题更加突出.提出了一种分布式环境单函数依赖不一致性检测方法,给出了不一致性检测响应时间代价模型.为减少数据迁移量和响应时间,基于等价类对待检测数据进行预处理.由于分布式环境不一致性检测问题为NP-hard问题,多项式时间内难以得到最优解,给出了代价模型的多项式时间3/2-近似最优解.提出了一种分布式环境多函数依赖不一致性检测方法,基于最小集合覆盖理论,通过一次数据遍历,对多个函数依赖进行并行批检测,同时考虑检测过程中的负载均衡等问题.在真实和人工数据集上的实验表明:相对于传统的检测方法以及基于Hadoop的Na?ve方法,所提出的检测方法检测效率有明显的提升,且扩展性能良好.
其他文献
我国宪法、矿产资源法明确规定,矿产资源属于国家所有。但是,由于矿产资源大多埋藏于地下,因此矿产资源具有隐蔽性的特点。矿产资源在被探明储量以前具有不确定性,不能成为物权法
文章把矿产资源资产的产权分为所有权和使用权,由所有权产生的资产是自然资源价值;由使用权产生的资产是投资形成的价值.同时提出国家对矿产资源所有权的行使要考虑五项国家
诗、乐、礼同源共生,诗乐关系是传统文论最重要的命题之一。儒家诗论对诗乐关系的高度重视,建立在"诗"的社会政治功能需要通过"乐"来表述这一具有发生学性质的认识上。这正是
根据客户端网卡启动芯片PXE或固化在BIOS中的启动程序以不同的机制向服务器发出启动请求信号的原理,构建基于UNIX服务器下的C/S型无盘网络,既节省了网络构建和维护所需的财力
在中国加入WTO以及知识经济全面来临的时代背景下,一个国家的综合竞争能力最终体现在两个方面:一个是科学技术能力,另一个就是现代金融能力。国家的科技竞争力取决于该国的高
本文首先阐述了本文的研究目的,分析了我国正处于快速发展中的企业年金市场,通过对企业年金的概念及其发展过程的介绍来引出本文的整体研究思路。在正式的研究过程中,首先研
<正> 超氧物歧化酶(Superoxide dismutase简称SOD)是从红细胞、肝和其它哺乳动物组织分离而得的金属蛋白酶,主要存在于需氧环境的每一个器官中,分子量32000,含有两个相同的亚
<正>从20世纪80年代早期开始,害怕跌倒(fear of falling,FOF)就成为一种威胁老年人健康的公众问题。Gillespie等[1]报道48.2%的老年人害怕跌倒,75.9%的老年人害怕跌倒后活动
在航运实践中,由于船舶周转的快速性与提单流转滞后的时间差,承运人常常被迫凭保函无单放货。据统计,班轮运输中存在15%的无单放货现象,租船运输能到达50%,某些重要商品如矿物、油的
春节前陆续处理了几起物业服务公司与业主委员会、与相关方的纠纷,看到物业服务公司在合同撰写方面存在的瑕疵,正是这些瑕疵为日后的纠纷留下伏笔、给公司造成经济损失,甚至