不确定和时态数据集上实体识别技术研究

被引量 : 0次 | 上传用户:lqwhappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据管理中,数据质量问题是最重要的议题之一。传统数据库着眼于数据的量的管理,即支持大量数据的创建、维护和检索。但是现实世界中的数据存在着诸多质量问题:不一致、重复、不精确、不完整或者过时。劣质数据可对社会生活中的诸多环节产生严重的后果。因此数据质量管理在信息化社会中具有巨大的应用需求和潜质。实体识别技术是数据质量管理技术中的重要环节。实体识别技术致力于发现来源于不同数据源的同一现实世界实体的不同表示形式。实体识别的结果有助于解决上述数据质量问题。因此实体识别技术对于数据质量管理过程具有重要的基础性作用。本文讨论劣质数据集上的实体识别问题,提出了一系列算法以解决具有不精确和过时等问题的劣质数据集上的实体识别问题。本文是第一篇提出针对含有不精确数据的不确定数据集进行实体识别研究的文章,本文给出了概率相似度测度以及基于此测度的相似度链接和聚类算法。在相似度链接算法中,本文提出融合前缀过滤算法以压缩计算空间的优化算法。实验表明,本文所提出的算法可以有效高效的解决不确定数据集上的实体识别问题。针对含有过时数据的时态数据集上的实体识别问题,本文给出了基于规则的解决方案,本文也是第一篇给出时间戳不可用的情况下时态数据集上的实体识别算法的文章。针对这一问题,本文提出在相似度链接算法中首先利用数据时序规则(data currency rules)以确定时态元组的相对时序顺序,然后在时序顺序的基础上提出元组属性的不稳定性特性以对时态元组的属性的进化特性进行建模。结果显示,在相似度链接算法中融入元组的不确定性特性可以提高相似度链接的准确率。此外,本文还针对上述数据集提出了时态聚类算法,并给出相应的优化算法。实验表明,本文所提出的算法能够有效的解决时间戳不可用的时态数据集上的实体识别问题。
其他文献
我国高校创业教育要有效提高教育水平,就必须以促进大学生综合素质全面提高为出发点,结合大学生成长的心理特性,发挥其育人功能,把创业教育融入高校教育全过程,科学构建课程体系和
目的探讨不同介质对瓷贴面颜色的影响及干预措施。方法选择贴面目标色A2患者16例作为对象,结合基牙预备后颜色选择IPSe.max CAD与VITABLOCS Mark II for COREC完成贴面制作,
在政府主导下,印度社会保障体系的建立反映出不同时期政府领导人的民主平等、人道主义、社会公正和以人为本等政治理念。在不同的社会保障阶段,社会保障的设计路径大不相同。
不同经济发展阶段下,城市公共管理需求的推动使得城市公共管理理念、运作机制、方式手段得以创新,城市公共管理的实践探索及理论发展也随城市化的深入而不断丰富,形成了不同
目前,多数餐饮企业在实际经营管理中只重视经济收入、消费能力等经济评价指标而忽视了顾客语言、行为方面的管理,主要表现在服务接触环境下餐厅经营管理者难以准确地把握餐厅顾
咨询师对有暴力心理倾向的求助者制定了消除暴力心理倾向的咨询目标,采用森田疗法、放松疗法等疗法贯穿咨询过程,引导他主动远离校园周边暴力文化,逐步消除其暴力心理影响。
服务作为一种特殊的商品,其无形、不可存储等区别于一般产品的特点使得企业在提供服务的过程中无法保证每个消费者都感到满意,有形产品的质量可以做到基本一致,而服务质量的评价
本文以《苏州独墅湖科教创新区生态型控制性详细规划》为例,通过对传统型控规实施效益评估问题的剖析,创新性地提出了从交通服务效益、土地经济效益生态环境效益和资源利用效
碳纤维增强镁基复合材料(C/Mg复合材料),具有密度低、比强度、比模量高、热膨胀系数可以接近于零、在较大温度范围内具有很好的尺寸稳定性等突出的特性,在航空、航天、国防等领
我国"十二五"规划提出加快构建以政府为主提供基本保障、以市场为主满足多层次需求的住房供应体系;加大保障性安居工程建设力度,基本解决保障房供应不足的问题。目前,保障房