论文部分内容阅读
当今世界,人们对信息质量的要求越来越高。如何从海量信息中快速地获取完整、正确且有用的信息,成为了人们的研究焦点。而想要获取一个事物更加完整的信息,需从多个方面对该事物进行详细描述,这些信息就很可能来自多个不同的数据源。大数据环境下,多源异构的数据往往缺乏统一性、准确性和完整性,数据融合时实体统一显得尤为重要。在海量数据集中,运用传统的实体统一方法进行处理,时间复杂度相当高,处理起来十分困难。因此,在保证有效性的同时提高实体统一效率成为关键,具体而言论文主要完成了以下研究工作:首先,针对实体统一中两两匹配计算相似度效率低,难以处理大数据集的问题,在IterER算法的基础上提出一种基于模式快速扫描的实体统一算法PRSER,通过数据分块,并在块内运用模式快速扫描算法PRSA过滤记录相同元素部分,只对不同元素部分进行比较,从而减少模式匹配时间。并利用模式抽取算法PEA得到共同模式来表示相似的记录集合。在Spark计算平台下,通过与IterER算法进行实验对比,结果表明,PRSER算法具有较好的时间效率。其次,针对PRSER算法在模式抽取过程引入了更多不相关实例,导致实体统一的有效性有所下降的问题,提出一种基于token索引过滤的实体统一算法TIFER。该算法对块内记录进行排序,并通过拆分构建token索引表,利用索引表找出相似度高的候选记录对来进行下一步的精确匹配。由于比较时减少了多余模式的参与,避免了更多不相关实例的引入,从而提高了实体统一的准确率,且该算法能有效应对子字符串因为位置的改变导致相似记录无法匹配成功的问题。在Spark计算平台下,通过与PRSER算法对比,实验结果验证了TIFER算法的F-值普遍优于PRSER算法。综上所述,在大数据环境下,结合模式匹配及并行计算框架研究实体统一方法,为提高实体统一算法效率和有效性提供有效途径,具有重要的理论价值和实际意义。