基于逆向清理的实时数据整合及数据准确度评估

来源 :湖南大学 | 被引量 : 0次 | 上传用户:szlsh88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,数据在不断涌现,并呈现异构、自治等特点,企业如何高效、正确的分析数据成为当前重要的课题。在数据的时效方面,要求数据更新的频率越来越快,传统的数据集成方法一般是每天、每周甚至每个月更新一次,这远远满足不了现在的需求;在数据的质量方面,尽管有大量的可用数据,但数据的质量一直是个困扰的难点,很多企业为了更准确的制定决策,花费大量的人力物力来提高他们的数据质量,但依然收效甚微。异构数据的整合技术和数据质量应该无缝的协同工作,数据整合过程是一个持续的过程,数据质量也是一样。目前在构建数据整合系统中面临的最大困难是如何解决数据的实时更新和数据准确度问题。针对数据实时更新问题,本文在传统ETL过程的基础上,利用适配器、实时线程等技术来判断时间戳,建立实时的数据装载模式。一旦原数据进行了更新,便实时的将数据装载到数据中心。针对数据的质量问题,本文提出一种数据逆向清理的方法,它利用数据整合过程中构建的数据来源树,在逆向清理时快速的查找原始数据的位置,并对原始数据进行反向清洗、匹配和修改,使原始数据的质量得到提高,为平台提供高质量的数据基础。此外,在数据的质量评估方面,本文在贝叶斯网络、PC算法的基础上提出一种数据准确度评估方法—DAA方法,该方法通过对数据集构建网络,利用PC算法消除独立节点的边,再计算网络的平均度数的方法,能实现对两个数据集的准确度对比判断。本文对两个已知的贝叶斯网络运用DAA方法,并比较网络的度数得分来验证该方法的有效性。该方法的提出对人工智能和知识发现具有一定的研究意义。最后,对基于逆向清理的异构数据整合模型,在本地搜索服务项目中进行实际运用。本文设计并实现了商家数据整合系统的原型,并利用系统原型对数据整合过程和逆向清理过程进行实验验证,通过实地验证比较了原始数据整合前后和逆向清理前后的数据准确度。实验结果表明,实验证明整合后的数据准确度明显高于原始数据,提高平均值达到14.8%;且逆向清理后,原始数据的准确度平均提高了5.15%。实验结果充分说明了数据整合过程和逆向清理过程的有效性。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
2014年9月17日,由产业在线和全国能量系统标准化技术委员会联合主办的“2014中国暖通制冷空调产业发展年会暨节能环保论坛”在北京召开。本届大会主题为“新常态新动能新发展
[目的]探讨品管圈活动在提高临床护理教师教学核心能力中的应用效果。[方法]成立品管圈,确立"提高临床护理教师教学核心能力"的活动主题,进行现状调查、要因分析、实施对策制
新生儿硬肿症(scleredemaneonatorum)病死率较高,许多因素可促使病情加重或恶化。为探讨引起新生儿硬肿症病情加重或恶化的因素,本文选取1990年1月至1995年1月住院患儿病情加重者26例进行分析,现报道如下。1临床资料
在改善电力用户功率因数的工作中,应用该坚持提高自然功率因数为主、人工补偿为辅的原则,论术这了提高电力用户自然功率因数的措施。
1 中药针剂的应用也要遵循中医辨证施治的原则辨证施治是中医的精髓,如果不讲辨证地应用中药,有时在临床上也有一定的疗效,但决不会获得显效、高效、速效.1.1 外感高热的辨证
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
患者,男性,29岁。因“发觉腹部膨大3个月”入院。查体:腹部明显膨大,以右中下腹明显;触之呈囊性感,无明显触痛;叩诊呈浊音。
随着新课改的全面推进,素质教育的呼声越来越强烈,传统的教学方法和理念不断地得到更新。然而,在教学实践中,课堂效率低仍是影响教学管理的一个重要因素,因此,积极构建小学语文高
数字城市地理信息公共平台是依托地理信息数据,通过在线方式满足政府部门、企事业单位和社会公众对地理信息和空间定位、分析的基本需求,具备个性化应用的二次开发接口和可扩