用于数据质量管理的鲁棒机器学习算法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:erywwb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异构和分布式数据被用于多方面的应用,如信息提取、数据挖掘、电子学习以及网络。而与这些应用相关的所有算法的决策准确性都直接取决于所用数据的质量。用于此类应用的正确可靠数据的缺失将会导致错误的算法决策。所以数据质量管理是非常重要的。虽然数据质量管理的能力在不断发展,但对速度和效率的需求也在不断增加。数据管理专家认为,由于数据量的激增以及获取质量信息的复杂性,数据质量仍然是不断限制数据质量管理与业务联系的瓶颈。机器学习(ML)等技术使从数据中发现复杂模式成为可能,而由于数据的复杂性和可变性,数据质量过程需要从静态的基于规则的方法转变为动态自适应技术,这就对基于机器学习的数据质量管理技术提出了需求。在数据质量管理过程中,机器学习可以用于评估数据资源的质量,预测丢失的数据,并提供清理建议,从而降低数据质量专家与科学家工作的复杂性,减少花费的精力。机器学习中的鲁棒性通过使用算法或计算序列从数据中学习并提高其性能,预测生成模型根据数据输出不断更新,使得系统能够自行完善模型。这类模型允许学习者将模型的预测与实际结果进行比较,使用这些数据来微调模型预测的参数。考虑到数据质量管理的复杂性,用于数据质量管理的机器学习算法需要具有鲁棒性。因而,本文旨在研究用于数据质量管理的鲁棒机器学习算法,以期开发出能够像人类一样检测、感知、学习或比人类更高效的数据质量管理算法。较少的人机交互和有效的性能是机器学习鲁棒性的关键。设计一个基本算法可能需要一个良好的数据表达。如果缺少鲁棒性强的机器学习模型,这种简化的表示很难实现。因此对于这类问题中,理想情况是设计一个能够通过提取属性或特征来有效学习数据的模型,并能够根据模型的需要对数据进行变换,以提高模型的效率和性能。本文共分五章。为了解决数据质量问题,本文首先提出了四个数据质量使用模型(4As)以作为数据质量研究的指标。在进一步的研究中,建立了完整的数据质量管理鲁棒性概念和技术栈。该模型较好地获得了数据分析条目数据的使用质量水平。这些数据质量使用模型级别的充分性,可以理解为数据质量充分性调查的可靠性指标。该模型可以评估数据的使用质量水平,以产生可重复和可用的研究结果。利用使用ISO/IEC 25012和ISO/IEC 25024等国际标准的优势为他们都经过了实践的检验,而且操作简便。由于数据价值只能在其使用的上下文中进行估计,因此数据质量评估中需要充分考虑上下文。然而,在用于常规数据质量评估的众多数据质量模型中,目前没有一个鲁棒的模型能够充分考虑上下文从而有效解决数据质量问题。以此为动机,本文采用4As数据质量使用模型对当前模型进行改进,该模型不依赖于集成到数据质量模型的任何前提条件或技术,以用于数据质量评估。因此这些方法将为广泛的背景数据提供错误检测与纠正。第二,本文提出了扩展的完备分类标准和鲁棒的重复数据消除学习方法(DLM)来检测和纠正上下文数据质量异常。本文指出了现有分类标准和支持向量机(SVM)的不足。这些鲁棒的方法基于结构化数据上设计。因此,可以将这些提出的方法总结为通过估计相似性匹配来检测和纠正重复问题,之后识别相似性的强度以合并重复问题。为了提升该方法在重复问题中的稳健性,我们通过模糊方式、索引和阻塞的集成使用姓名、地址、电话、日期等数据来连接记录,并将阈值设置为0.5到0.65。第三,本文提出了一种新的Modulo 9算法用于处理填充缺失数据,并与支持向量机(SVM)算法、线性回归(LR)、K近邻(KNN)、朴素贝叶斯(NB)、支持向量分类器(SVC)、线性支持向量分类器(LSVC)、随机森林分类器(RFC)、决策树回归(DTR)、删除方法、多层感知器(MLP)和平均值算法等鲁棒机器学习技术进行了比较。Modulo 9可以防止整数溢出,因为问题约束是整数,只有有效的算法才能在允许的有限时间内解决它们。它不会给出运行时错误或异常,而是进行一些虚假计算并存储虚假结果,因为位大小在乘法溢出后出现.这种比较说明了丢失的数据如何影响机器学习算法和基于数据分析输出的决策,并表明本文提出方法方法的性能优于现有的11种方法。第四,本文提出了一种鲁棒性强、效率高、人为干扰少的新型叠加式学习实体识别(ER)系统用于重复数据消除。该方法对双向递归神经网络(Bi RNNs)和长短期记忆(LSTM)隐藏单元的复杂组合方法进行了评估,将元组更新为某种意义上的词表示分布,以捕获元组之间的相似性。该方法将没有预先训练好的单词嵌入,从而在不同情境下实现对ER任务定制单词表示分布的学习和调整。此外,与传统的属性较少的分块方法相比,本文采用基于局部敏感哈希(LSH)的分块方法以考虑元组的全部属性,从而产生了更细的分块。该算法在多个数据集(即基准测试集和多语言数据集)上进行了测试。结果表明,使用现有解决方案,堆叠式重复数据消除学习在效率和准确性之间取得了性能较好的平衡。
其他文献
作为医疗空间的重要组成部分,医院病房室内环境对住院患者的心理健康产生重要影响。随着整体医学和循证设计理念的发展,以患者为中心的病房环境设计得到了越来越多的重视。与此同时,患者在就医过程中产生的心理问题也愈发受到关注。因此,如何通过设计手段改善病房环境,促进患者的复愈,成为了本文研究的着眼点。本研究采用质性研究与量化研究相结合的方法。在质性研究方面,通过文献综述和扎根理论的研究方法实现医院病房环境复
作为神经电生理信号检测的核心部件,神经电极可以对神经电生理信号的原位采集和同步检测,实现脑神经网络活动的解读,是发现重大神经类疾病发病机制的重要途径。然而目前临床上使用的神经电极大都是基于硅基材料的刚性神经电极,该神经电极的力学性能与神经组织之间存在巨大的差异,神经电极-脑组织界面的机械性能不匹配问题在植入使用过程中极易对脑组织造成损伤,引发严重的免疫炎症反应。因此,发展长期稳定且机械性能匹配的柔
随着全球经济和工业化的快速发展温室气体大量排放,导致近一百年来全球气温急剧上升,温室效应对环境造成了显著的负面影响。二氧化碳是最主要的温室气体,而水泥行业又是二氧化碳的主要工业生产源,因而降低水泥行业的碳足迹势在必行。所以,本文提出利用水泥基材料对二氧化碳气体进行捕捉固化。首先,基于分子动力学原理对水泥基材料早期碳化反应动力学进行了模拟与分析计算。揭示了Ca CO3原子尺度沉淀机理,包括无定型方解
纳米光子学(Nanophotnics)是21世纪兴起的一门学科,主要研究纳米尺度下光的行为以及光与物质的相互作用。以纳米光子学为基础开发出的玻片、结构色、超构透镜等各类超构表面具有巨大的应用前景。除了在光学方面的广泛用途,纳米光子学在光化学(photochemistry)领域也逐渐开始吸引大量的研究,将光局域在纳米尺度的空间内,能显著提升光与物质的相互作用,进而提升材料的光化学性能。二氧化钛(Ti
基于非共价键作用的氢键催化和离子对催化由于反应类型丰富,在手性化合物获取方面取得了令人瞩目的成绩。然而非共价键催化仅仅通过分子间的弱相互作用进行底物活化和不对称诱导,因此在处理复杂的多组分反应时较难发挥作用。另外,高催化剂负载量是大部分有机小分子催化的通病,也是小分子催化向大规模工业化应用迈进的拦路石。如何实现复杂反应体系的高选择性转化(包括化学选择性和立体选择性)以及如何实现低催化剂负载量的化学
作为连接数学理论与实际应用的桥梁,以物理、力学问题为背景的非线性发展方程的研究不仅是传统应用数学的主要内容,也是现代数学的重要组成部分。与线性方程相比较,非线性在数学研究上带来实质性的困难。因此,研究非线性发展方程是一项具有挑战性的工作,特别是求非线性发展方程的精确解一直是研究的热点。目前虽然已经提出并发展了许多方法来精确求解非线性发展方程,如逆散射方法、Backlund变换方法、李群方法、以及一
RhoA蛋白作为一种重要的小GTP酶蛋白,在细胞内受到多种蛋白精细且复杂的调控,使其在GTP结合活性状态及GDP结合非活性状态之间相互转换,从而在细胞骨架重构、细胞侵袭迁移等诸多方面发挥着重要的分子开关调控作用。最近研究表明,RhoA基因在多种恶性疾病中会发生较高频率的基因突变,但是由于RhoA蛋白结构的高度可变性、功能调控的复杂性,导致RhoA突变体功能研究进展迟缓,极大限制了RhoA突变相关疾
聚合物的固化、水凝胶的溶胀、金属的氧化、锂离子电池中的锂化或脱锂化、生物组织的生长等过程中都普遍存在着质量传输、热交换、物质变换和力学变形等多场耦合问题。热-化-力耦合的动力过程是这些问题的共同特征,对其进行理论研究具有重要意义。热力学第一定律和第二定律在研究系统的本构方程中起着重要的作用。在文献中,关于与环境交换质量的开放系统,热力学定律有多种形式,如何选择一种合理的形式对开放系统进行热力学分析
热电材料可以实现热能与电能之间的相互转化,且具有无需维护、使用寿命长及可微型化制造等优点,被广泛地应用于废热回收及芯片制冷等研究领域。热电器件在制备和使用的过程中,微裂纹的萌生是不可避免的,随着微裂纹的扩展将进一步导致热电器件发生脱层、屈曲及疲劳破坏等问题,降低热电器件的能量转化性能甚至直接导致热电器件失效。目前,国内外关于热电器件由分层开裂导致的力学失效问题的研究十分匮乏,急需提供相应的理论对热
随着世界范围内人口的增长和人民生活水平的提高,人类工业和农业的活动范围随之扩大,世界各地对优质饮用水的需求不断增加。无论是当下还是未来,水资源短缺始终是人类亟需面对的问题。在满足人类对优质水的需求的同时,还要面对日益加重的水源污染,因此水处理厂的工艺与形式都应当不断完善来应对诸多技术挑战,例如开发可持续的海水淡化工艺,提高水的再利用效率,废水的高效处理同时实现资源回收等。纳滤膜技术可以在压力驱动下