基于机器学习的多源异构大数据清洗技术研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:xiaohw123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
正确使用高质量的数据可以做出更好的预测、分析和决策。由于在多源异构的数据环境中,不同数据源之间数据结构不同,数据表述形式不统一以及往往含有不完整、不正确或不相关的脏数据,多源异构数据环境的数据清洗工作面临巨大的挑战。数据清洗是保证数据质量的有力手段,通过数据清洗可以提高大数据的一致性、准确性、真实性和可用性。为提高多源异构环境数据清洗的效率和降低多源异构数据清洗的复杂度,本文做了以下工作:(1)针对多源异构数据环境下存在大量不精确数据的问题,本文提出层次约减分类清洗(HRSC:HierarchicalReducedSortingCleaning)的策略,通过数据源重要度度量、数据属性和元组进行权重标记和基于机器学习分类算法思想构建TAN网(Tree Augmented Bayes Network),最终利用数据概率值完成对不精确数据的分类清洗。实验表明与现有的解决多源异构不精确数据清洗方法相比,HRSC策略能够有效的提高不精确数据清洗的准确率和清洗效率。(2)针对多源异构数据环境存在大量的冗余或相似重复数据的问题,提出一种属性约减关联清洗(ARAC:Attribute Reduction Associated Cleaning)的策略,通过构建数据属性标准库、属性约减和通过多次排序改进SNM(Sorted Neighborhood Method)算法,最终完成对相似重复记录的清洗。本文采用真实数据集和验证性数据对数据清洗模型和算法进行实验评估,验证了数据清洗相似重复数据的正确性和最终数据的完整性。实验证明了本文的模型和算法可以有效地解决多源异构大数据中的相似重复数据清洗问题。
其他文献
动物栓疫工作是保证食品安全,公共卫生安全和社会稳定的必要前提工作。动物栓疫是防疫的重要前线,关系着动物的疾病预防、控制以及动物产品的安全生产和销售。但基层的动物检疫
通过对养鸡场流行病学调查、临床检查,结合实验室微生物分离培养、涂片镜检等诊断方法确诊,采用白头翁汤加减拌料、煎汤混饮及抗生素注射、混饮结合的方法,并进行免疫注射、
农机推广在推动农业机械化与农机制造业的发展中发挥着桥梁和纽带作用。近年来,农机推广体系逐步建立健全,农机推广工作取得了显著成绩。笔者根据多年的农机推广工作实践,针对存
在兽医临床实践中,常遇到病邪在半表半里的证侯,证见寒热往来,精神沉郁,食欲不振等症状。主要是由于畜主大意,邪入肌表,未及时治疗,表邪未解而顺经传入少阳经,或者是外邪直中
痹症,是指家畜外受风、寒、湿邪的侵袭,致使经络闭阻不通,气血凝滞,运行不畅而引起的肌肉关节疼痛,重者腰背板硬,行步拘急,以致关节肿大,肢体变形等症状的一种疾病。它是临床
目的分析健康教育对高血压患者服药依从性及相关知识认识程度的影响。方法随机从2014年7月至2015年7月期间我院接收治疗的高血压患者中抽取74例,分为两组,对照组行常规护理,
喉炎是喉头黏膜的炎症,以剧烈咳嗽和喉头敏感为特征的一种上呼吸道疾病。在畜牧生产中对羊只造成一定危害,本文仅以该病为例,就该病的中西医疗法做一论述,供大家参考。
肉羊在饲养的过程中会出现疾病,饲养者要在饲养的过程中做好预防工作。饲养者对肉羊疾病的综合防治要在平时做好防疫工作,还要了解常见的肉羊疾病的种类,针对不同的疾病使用
猪无名高热是在密集化养猪环境下出现的一类猪传染性疾病的总称,此类疾病实际传播速度较快,导致的病死率较高,对生猪养殖经济效益会产生较大影响。导致此类疾病发生的原因较
基于真实语料,探讨了汉语公示语中"请"的翻译问题。作为常见礼貌标记,"请"和please在公示语中的使用既有相同之处也存在着差别,二者之间"同中存异"是造成翻译过程发生语用负