基于语义关联的重复数据清理技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:y358549797
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重复数据的出现会给数据质量带来极大的困扰,严重影响着数据处理和分析的效率,如何对重复数据进行清理是数据处理研究的重要问题。然而,随着数据的急剧增长,数据源的多样性,同名、多词一义等歧义实体的出现,关联数据的大量涌现给现有的重复数据清理方法带来了挑战。现有的重复数据清理方法存在着检测结果不全面,对歧义实体的检测精确度不高,检测时间花费长,计算复杂性高等问题。因此,重复数据的清理研究需从重复数据检测结果的全面、准确、高效等方面展开。这三个方面在一定程度上相互制约,一味追求高的查全率会影响查准率,一味追求高效也会对查全查准产生影响。如何使这三个方面达到一个平衡点,是重复数据检测研究的重点。基于语义关联的重复数据清理,是通过数据之间的语义关系来检测数据之间的重复性、区分模糊信息、过滤掉不相干的数据,解决去重问题中大规模数据比较带来检测效率问题。针对数据源的多样性、数据记录之间的差异对重复数据检测的查全的影响,提出一种基于长度过滤动态权值的数据比较方法。该方法首先针对重复数据检测的两两数据对的比较的计算量大的问题,在数据对比较前,根据数据对的长度差,过滤掉不可能是重复数据的数据对。减少参加数据比对的数据对的个数,以提高检测的效率。然后针对不同数据源之间数据记录的差异影响检测的查全问题,动态的为记录各属性赋权值,减少记录之间因属性缺省对相似度计算的影响,提高重复检测查全率。最后对现有的检测方法对查全的问题进行了改进,提出一种基于动态滑动窗口的数据比较策略。该策略以动态的滑动窗口来控制数据与其它数据比较,进一步提高重复数据的查全率。该方法平均查全率,查全率和查准率调合平均值,均高于现有的检测方法,在提高查全率的同时,没有降低检测的查准率。针对重名、多词一义等歧义实体给重复数据检测带来的影响,提高重复数据清理的准确性的问题,提出一种基于语义关联的实体识别方法。该方法跳出实体数据本身的比较,通过分析实体之间不同类别的语义关联与其作用,并利用实体之间的两种类别的语义关联—相似语义关联和关联语义关联,将歧义实体进行聚类和合并处理,以达到消除实体歧义模糊问题的目的。针对数据量的急剧增加影响重复数据检测效率的问题,为了更进一步的提高在大规模异构数据整合中而产生的重复数据的检测的效率,提出一种“最可能重复”的数据集划分思想,该思想将最可能是重复的数据划分在一个部分里,以减小重复数据检测的范围。基于此思想结合数据的语义链网络提出一种基于语义关联的数据清理策略。该策略利用数据之间的语义链关系的分析和推理,将最可能是重复数据的数据聚类在同一部分中,以达到减小数据比较次数和提高检测精度,提高检测效率的目的。该方法在提高检测效率的同时,查全查准率的调合平均值高于现有的重复数据检测方法。提高效率的同时,没有对检测的查全查准率带来影响。随着语义网技术的发展,关联图数据的大量出现也带来了新的挑战。针对关联数据中存在的重复数据清理的问题,提出一种K-半径子图比较方法。该方法针对关联数据间的错综复杂的关系,提出一种关联层次图模型。该模型可以将关联数据之间复杂的关系在简单图中进行清楚的表达,并可以在关联数据中进行无缝转换。并在此模型上,通过对相似节点的“语义上下文”信息的比较,来对数据是否为重复进行判定。从而避免关联图数据中的数据的歧义模糊问题,以提高关联图数据中数据检测的效率。
其他文献
为准确评估多因素作用下的电缆绝缘寿命,提出了一种基于改进模糊层次分析法的电缆绝缘寿命评估模型。首先利用故障树分析方法明确影响电缆绝缘寿命的因素,其次根据模糊判断矩
目的:本研究应用固体分散技术制备丹参酮IIA固体共融物并考察其在生理盐水中的溶解特性。方法:将丹参酮IIA分散于熔融的聚乙二醇6000中,制备成丹参酮IIA-聚乙二醇6000固体共融物
在现代建筑工程中全过程工程造价具有十分重要的作用,建筑企业要加以重视。科学合理的造价管理不仅可以有效降低企业风险,还可以控制各项资金支出,把控各项施工流程,从而提高各项
美术教育自列入我国的教育方针后,受到了空前的重视,也迎来了空前的机遇。但是当下美术启蒙教育存在很多问题,我们在对孩子美术启蒙时也要遵循马克思主义哲学的基本原理,尊重
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
本文报道了一种新型的Au/SnO2金属-半导体异质同轴纳米电缆结构。通过透射电镜表征,发现其轴心为沿特定方向生长的单晶Au纳米线,而壳层则为沿[100]方向生长的单晶SnO2,整体看
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
在人群中,丙型肝炎病毒(HCV)感染,代谢性疾病和心血管疾病常同时患有,且在疾病谱中占很大比重。这究竟只是偶然的巧合,还是真正存在某种直接或间接的致病机制,使HCV感染患者更容易患
目的研究内侧皮质缺损对肱骨近端骨折锁定钢板内固定轴向稳定性的影响。方法12对成人防腐肱骨,采用标准的截骨法制作肱骨近端两部分(外科颈骨折)模型。随机分为对照组与内侧