大数据下基于块依赖的实体解析方法

来源 :北京交通大学 | 被引量 : 5次 | 上传用户:l907603912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体解析是指对同一实体的不同的表现形式进行识别、连接和分组,它在数据库管理、机器学习和信息检索中均有广泛应用。传统的实体解析方法主要针对小数据集,重点关注解析结果的准确性,随着大数据时代的到来,数据量急剧增加,传统的实体解析方法由于时间复杂度较高,难以处理海量的数据集。因此,我们需要更加有效的策略以解决海量数据带来的困难和挑战。为适应海量数据的实体解析工作,本文针对时间效率问题提出一种基于块依赖的实体解析方法,主要工作如下:(1)通过对原数据按照设定的分块标准进行数据集的分块,依靠分块技术初步减少计算量;(2)提出区域和依赖度的概念,设定数据筛选标准,筛选出与原分块中依赖度较低的实体,使其在下一阶段中进行二次匹配,以保证解析结果的正确性,并通过控制筛选出的实体数量,在一定程度上控制二次匹配的计算量,从而控制解析时间;(3)通过设定跨度距离来控制与已筛选实体进行二次匹配的实体的数量,进一步控制计算量,提高时间效率:(4)实现了数据分块阶段和跨度距离设定阶段的负载平衡策略,使每一个map/reduce任务的计算量相当,再次提高了基于块依赖的实体解析方法的时间效率。本文采用真实数据集DBLP-scholar和citeseer在Hadoop上对基于块依赖的实体解析方法进行了有效性和时间效率的评估,实验结果表明该方法在保证解析质量的基础上具有良好的时效性。
其他文献
在无线局域网接入互联网环境下,无线链路固有的特征(如高误码率、RTT变化大、主机切换等)导致基于固定主机和有线网络设计的传统TCP在无线环境下有很大的局限性。其中一个主
水电仿真系统是一个大型综合的实时仿真系统。水电仿真系统根据特定仿真算法产生运行数据来模拟水电站运行。能够模拟水电站的各种工况,包括开机、停机以及并网之后的工作状态
分布式网络系统具有资源共享,通信便捷,实时控制,风险分散等优势,完全适应信息社会的发展趋势,具有广阔的应用前景。然而在分布式网络系统中,电子数据和信息能够被快速而广泛
随着互联网的发展,企业的实际应用中可能会遇到数据库分布在不同地点的情况,而且这些数据库存在着异构性,这样开发实际应用需要对这些分布式的异构数据进行有效集成。同时由
近年来,伴随盲源分离问题产生的独立分量分析(Independent Component Analysis,简称为ICA)理论已逐渐成为统计信号处理中的一个重要研究方向,并正在迅速成为多维数据分析的一
与传统的周期性汇报或基于查询的无线传感器网络不同,事件驱动型无线传感器网络只有在监测范围内的事件发生时才向Sink节点发送事件报警消息,无事件发生时只发送一些网络健康状
图论是组合数学领域的一个分支,20世纪60年代末,随着计算机技术的产生和发展,组合数学,特别是图论理论得到了人们越来越多的关注,时至今日,人们面对的计算模型以及数据结构仍然在变
随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编撰、词义消歧和跨语言
粗糙集能有效地处理不精确、不完整等各种不完备的信息与知识,它与其他不确定性理论的最大区别就是除了需要处理的数据集外,不需要其他任何先验知识,通过直接对数据进行分析
XML(extensible markup language,可扩展标志语言)是由World Wide Web Consortium(W3C)的XML工作组定义的。XML以其扩展性、结构性、平台独立性和自描述性等特性成为数据表示