基于签名的数据完整性评估技术的研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:lostlovestef
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据量的日益增长,大数据的可用性却不断下降,数据质量问题的重要性日益凸显。低质量的数据经常会导致误导分析结果和有偏见的决策,并导致收入、信誉和客户的损失等。为了使数据能够满足用户不同操作下的所需要求,对数据质量相关的研究成为数据管理领域的重要工作。完整性是衡量数据质量的核心标准之一。数据完整性是指数据相对于所描述的客观世界的完整程度,具有高完整性的数据集可以帮助企业进行信誉评估,结果分析和决策。因此对数据集进行完整性评估,对识别高质量的数据至关重要。然而在大数据集成环境下,对数据集进行完整性评估,存在许多挑战。首先,要想获得精确的元组完整性评估,我们需要访问所有数据源的元组。在当前的大数据背景下,这会带来巨大的时间成本,是不切实际的。其次,在实际情况中,很多数据集并不存在唯一标识的元组ID,再加上描述同一实体的元组在不同数据集中可能存在一些数据描述上的不一致,这会导致我们很难判定哪些元组是指代真实世界中的同一实体。第三,在众多研究中,缺乏统一的数据完整性评估模型,无法给出数据集的元组完整性评估系数。本文考虑从多数据源的角度,对目标数据集的元组完整性进行研究。基于数据压缩的相关理论和技术,本文同时考虑了基于元组ID和元组匹配规则的完整性评估,主要研究成果如下:1.本文研究了基于元组ID的元组完整性评估。提出了从多数据源的角度对数据集的元组完整性评估,利用数据压缩设计了对数据源构造签名的随机算法。该算法在不直接访问元组ID的情况下,对目标数据集的元组完整性进行评估,并对算法的有效性和效率进行了分析。在真实数据集和合成数据集上的实验结果表明,我们所提出的随机算法可以对目标数据集的完整性进行有效的评估,在效率和性能方面明显优于用于对比的精确算法。2.本文研究了基于元组匹配规则的元组完整性评估。在数据集不存在唯一标识时,利用元组匹配规则进行实体识别。首先,定义了基于元组匹配规则的数据完整性评估模型。其次,设计了利用元组匹配规则在元组层构建第一层签名,对得到的第一层签名集构建数据集层的第二层签名的二级随机算法。在真实数据集上的实验结果表明,二级随机算法具有很好的可扩展性,可以有效的对基于元组匹配规则的目标数据集的完整性得分进行评估。
其他文献
话题检测是处理互联网新闻数据的一种重要方法。主要任务是从新闻数据中自动检测和组织潜在的话题信息,对网络中分散的信息进行有效地汇集和整理,帮助人们从众多数据中发现未知话题事件,使人们能够从整体上了解该事件的详细内容,有效解决信息过载问题。在话题检测任务中,文本聚类思想是一种有效的解决方法,基于文本聚类思想的话题检测模型主要包括数据获取、特征选择、文本模型化以及聚类策略,本文主要从新闻文本的特征选择和
硝酸锂是一种重要的锂盐,可用于制备锂离子电池的三元正极材料。然而,目前硝酸锂的制备方法存在着操作工艺繁琐,成本高和环境污染等问题,亟待解决。本文首次提出了电渗析复分解法制备硝酸锂的路线,并自主设计和搭建了实验的核心部件——四隔室电渗析膜堆。本论文以序批式电渗析复分解法为研究起点,进而拓展至连续式电渗析复分解法,深入探讨了硝酸锂的膜法制备过程,所得结果将促进绿色高效生产硝酸锂的新工艺技术的诞生。首先
益生菌是一种可以替代抗生素的安全的饲料添加剂,添加到饲料中能够预防疾病并促进机体生长。鼠李糖乳杆菌(Lactobacillus rhamnosus)是目前研究最多的益生菌,它能够产生短链脂肪酸、促进肠道健康和提高免疫力,被广泛应用于预防和治疗人类的腹泻、龋齿等病症。本研究通过体外实验证明鼠李糖乳杆菌GG(LGG)能够耐受胃肠道的理化环境在肠道中定植,抑制大肠杆菌黏附上皮细胞和一些病原微生物的生长。
近年来,水泥搅拌桩成为杭州和上海等沿海地区的基坑工程项目中较受欢迎的加固措施之一,但由于沿海地区的地质条件较差,迅速发展的地下工程使水泥搅拌桩施工事故的数量逐年递增。为了提高水泥土施工项目的安全性,国内外诸多学者使用有限元软件PLAXIS对水泥土加固工程进行数值模拟分析,但水泥土本构模型的选取一般采用已有模型粗略模拟,这就使得有限元分析的结果不够准确,可信度受到质疑。基于此,本文为了更清晰的了解水
船型优化设计一直以来都是人们研究的重点内容。工程师们通常使用计算流体力学(CFD)方法来进行船舶阻力性能预报,并在此基础上开展船型优化,从中选择最佳方案后再应用于实船。但在CFD方法中使用粘流计算船舶阻力时耗时太长,而且CFD方法的计算精度受到多种因素的影响,例如网格划分、湍流模型等等,对使用者的经验要求较高。近年来,随着计算机软硬件技术的高速发展,基于机器学习算法对具有复杂关系的数据进行分类回归
市政工程建设相较于房屋建设工程体量更大、结构更为复杂,其建设周期漫长、施工影响因素众多、参与建设人员庞杂,施工过程始终呈现动态变化的状态。因此,施工项目管理贯穿于工程重要的施工阶段并扮演着举足轻重的作用。随着近年来桥梁建设的不断发展,施工过程的复杂性、动态性、不确定性等因素使得传统的工程管理模式存在一定局限。然而,施工项目管理与新兴建筑信息技术(BIM技术)相结合的工程管理模式的出现将引领着我国建
随着城市不断发展和扩张,城市肌理和形态也在不断发生变化,城市内部的微气候环境也发生显著改变。对于生活在城市内部的人员来说,这种微环境的改变对于人体热舒适性和建筑能耗的影响是本文研究的重点。本文通过微气候模拟的方式对城市室外街道的热环境和热舒适性进行评估,将街道形态的特征与热环境评价指标进行关联性研究,再通过微气候和能耗软件耦合模拟对街区的微气候参数进行精细化评估,将微气候参数作为建筑能耗模拟的边界
在“工业4.0”和“中国制造2025”的时代发展背景下,生产制造企业为提高生产效率,增强自身的竞争力,在物流搬运等方面将改善运输方式和提高搬运效率作为目标,建成一批大载重、高效率、智能化的现代搬运系统。AGV小车是一种新型的自动搬运设备,已经广泛运用于各个行业,不仅显著提升了生产效率,同时还能够使生产成本降低。凭借较高的自动化与智能化水平,AGV小车受到人们的广泛关注。本文内容主要包括了如下几个方
伴随社会经济发展模式的变化,企业不再是一个独立的个体,而是与各利益相关者构成了“利益共同体”,保持与利益相关者之间的稳定合作关系,对企业的长期可持续发展至关重要。而社会责任实践是企业与利益相关者沟通、建立友好关系的重要手段。因此,越来越多的企业重视对社会责任的承担。而且为规范企业社会责任实践,国家开展了一系列的指导工作,企业社会责任实践日益丰富与完善,社会责任逐渐被上升到战略层次,将社会责任落实到
目的:利用siRNA干扰技术干扰不均一核糖核蛋白A2/B1(heterogeneous nuclear ribonucleoprotein A2/B1,hnRNPA2/B1)基因,探讨hnRNPA2/B1基因对宫颈癌细胞自噬的影响及其可能机制。方法:(1)设计3条si-HnRNP A2/B1序列,瞬时转染人宫颈癌Hela与Siha细胞,利用实时荧光定量PCR(reverse transcripti