大数据环境下实体统一方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:Longee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今世界,人们对信息质量的要求越来越高。如何从海量信息中快速地获取完整、正确且有用的信息,成为了人们的研究焦点。而想要获取一个事物更加完整的信息,需从多个方面对该事物进行详细描述,这些信息就很可能来自多个不同的数据源。大数据环境下,多源异构的数据往往缺乏统一性、准确性和完整性,数据融合时实体统一显得尤为重要。在海量数据集中,运用传统的实体统一方法进行处理,时间复杂度相当高,处理起来十分困难。因此,在保证有效性的同时提高实体统一效率成为关键,具体而言论文主要完成了以下研究工作:首先,针对实体统一中两两匹配计算相似度效率低,难以处理大数据集的问题,在IterER算法的基础上提出一种基于模式快速扫描的实体统一算法PRSER,通过数据分块,并在块内运用模式快速扫描算法PRSA过滤记录相同元素部分,只对不同元素部分进行比较,从而减少模式匹配时间。并利用模式抽取算法PEA得到共同模式来表示相似的记录集合。在Spark计算平台下,通过与IterER算法进行实验对比,结果表明,PRSER算法具有较好的时间效率。其次,针对PRSER算法在模式抽取过程引入了更多不相关实例,导致实体统一的有效性有所下降的问题,提出一种基于token索引过滤的实体统一算法TIFER。该算法对块内记录进行排序,并通过拆分构建token索引表,利用索引表找出相似度高的候选记录对来进行下一步的精确匹配。由于比较时减少了多余模式的参与,避免了更多不相关实例的引入,从而提高了实体统一的准确率,且该算法能有效应对子字符串因为位置的改变导致相似记录无法匹配成功的问题。在Spark计算平台下,通过与PRSER算法对比,实验结果验证了TIFER算法的F-值普遍优于PRSER算法。综上所述,在大数据环境下,结合模式匹配及并行计算框架研究实体统一方法,为提高实体统一算法效率和有效性提供有效途径,具有重要的理论价值和实际意义。
其他文献
血浆中的"脂"主要是胆固醇和甘油三酯,以载脂蛋白的形式被转运,根据五种载脂蛋白升高或降低程度的不同,将高脂血症分为五型:Ⅰ-Ⅴ型。脂蛋白是多组、异质性的,是哪一种脂蛋白是
三氯蔗糖(简称TGS)是迄今为止发现的最优良的非营养性甜味剂,具有甜度高、稳定性好、无热量、不被人体吸收等优点,在全球范围内应用十分广泛。蔗糖-6-乙酸酯的氯代反应是单基
2017年开始以来,为了响应教育部最新修订发布的《普通高中语文课程标准》,我国普通高中的语文课程教学进行了新一轮广泛深入的改革,在改革的进程中,“核心素养”、“学习任务群”等关键概念迅速引起教育界的关注。新课程标准以语文核心素养为纲,设计了 18个“学习任务群”,其中大部分涉及到阅读。这些学习任务群的完成仅仅依靠课内是完全不够的,必将延伸到课外。课外阅读显然成为高中语文学习的重要组成部分,课外阅读
如今,全球变暖、空气污染和其它环境问题的变得越来越严重,人们对于环境的保护意识不断加强,同时对于产品环境性能的需求也不断增加。制造商只有通过对产品进行绿色设计,才能
支挡结构作为交通工程和岩土工程领域用来进行边坡支护和防护的重要手段,在基本建设尤其是山区的基本建设中占据着重要地位。现代社会中,科学技术飞速发展,各种依据不同的地质条件而发展出的支挡结构越来越丰富,但重力式挡土墙仍然是其中应用最为广泛的一种支挡结构。随着相关研究的丰富,人们已经意识到传统的库仑土压力理论和朗肯土压力理论与实际情况在某些条件下有较大出入,如填土高度较高的时候,而针对高填方的重力式挡墙