基于属性权重和标记记录的实体解析技术

来源 :东北大学 | 被引量 : 1次 | 上传用户:Melaniemei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,数据增长的速度越来越快,实体解析的重要性也变得尤为突出。实体解析是将在同一个数据源或者不同数据源中,指向现实世界同一实体的元组识别出来并合并的过程。因为数据在存储的过程中可能存在拼写或者排版错误,也可能相同实体存在不同的表达形式,而数据又没有唯一的标识符,所以实体解析的作用不可轻视。如何高效而准确的将指向同一实体的记录识别出来一直是研究人员不懈追求的目标。在基于规则的匹配算法中,大多数算法是将所有的属性都作为匹配属性进行计算,并且认为各个属性的权重都是一样的,然而这样不能体现关键属性的重要性,容易造成实体解析的错误;识别出匹配记录之后,很多研究都不对这些匹配记录进行处理,容易造成记录比较的冗余,使得实体解析的速度减慢。因此,本文提出了基于属性权重和标记记录的实体解析技术来提高实体解析的准确率和效率。首先,主要针对关系数据库中实体解析准确性的问题,本文提出了基于属性权重的实体识别方法,主要采用信息增益的方法和概率统计的方法来计算记录属性的权重,用来代表该属性在记录中的重要性,达到提高实体解析准确度的目的。并且在此基础上采用top-κ技术,选择出最佳匹配属性集合,减少匹配属性的个数,从而加快了实体解析的速度。其次,针对提高实体解析的效率问题,本文还提出了基于标记记录的合并算法,是指将识别出来的指向同一实体的多条记录进行合并,并且对参与合并操作的记录进行标记,这样避免相关标记的记录再次比较,可以减少记录比较的次数,从而提高了实体解析的效率。最后,通过对真实数据进行大量实验,实验结果验证了本文提出的方法的可行性和有效性。
其他文献
随着Agent概念的出现,多Agent系统的研究和应用得到了广泛的发展。目前,水下多机器人系统是多Agent系统的一个重要应用领域。由于信道带宽等条件的限制,水下机器人间的通信是
  本文提出了一种改进的基于分割的MT三维医学图像表面重建算法,该算法主要在以下几个方面对传统的MT算法做了改进:引入了分割的概念,以便对不同的生物组织采用不同的分割方法
随着计算机支持的协同工作技术广泛的应用,对支持协同工作的信息共享要求越来越高,不但要求对环境中分布的操作型数据协同共享,而且还需要对环境中分布的分析型数据协同共享。本
工作流管理系统(WfMS)自出现以来,在一定程度上推动了企事业生产和管理的发展,而反过来,企事业生产和管理的发展又对工作流管理系统提出了更高的要求。因此,为了满足企事业的
人们在图形图像方面的需求也不断增加,提出了科学计算可视化的概念。图形图像处理科学与技术逐步向其他学科领域渗透,并为其他学科所利用是科学发展的必然。在地质领域实现油气
推荐系统可以帮助用户发现感兴趣的信息,有效解决信息过载问题。它通过分析用户的历史行为,建立合适的预测模型预测用户的兴趣,从而给用户产生推荐。推荐系统的研究主要集中
脑电信号的研究是目前生命科学研究的热点之一。脑电图是诊断临床中枢神经性疾病的重要依据,它能帮助医护人员在一定程度上判断病情。脑电信号的检测与处理有十分严格的要求。
信息集成是社会信息化的重要工作之一,信息集成的基础是数据的采集。数据采集可以分为自动采集和人工采集两种方式。人工采集主要以软件来实现,自动采集往往用硬件设备处理。
随着互联网的快速发展,威胁网络安全的入侵行为成为不能忽视的问题。在这种情况下,将防火墙和入侵检测技术融合在一起的集成防御技术成为防御发展的新方向,“网络安全集成防御系
事件同步身份验证是一种一次性口令系统,它的实现特点是验证服务器处理每一次验证都需要把服务器和token两端的计数器调整到同步的状态。  本文的主要工作就是将运行在Windo