基于统计方法的共指消解技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:skyboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言中共指现象非常普遍。一个真实世界中的实体在自然语言中出现的时候,往往会有多种多样的表达。虽然人们可以毫无困难的区分文章中同一实体的不同体现,但对计算机而言仍是非常困难的。共指消解就是根据文档中各个表述的自身内容以及所在上下文来确定不同实体的数量,以及确定各个实体分别包含哪些等价的表述。共指消解一直是自然语言处理中的核心问题,在机器翻译、信息抽取、自动文摘以及自动问答等领域中都有重要应用。  共指消解本身是一个非常复杂的问题,需要考虑的问题和因素有很多。共指消解的本质是等价类划分。根据对划分过程的影响和处理策略,本文针对共指消解研究中多个层面的问题进行了深入的研究,主要是在一些共性的问题上进行了探索。  首先,传统的基于二元分类的共指消解方法中特征挖掘非常重要,在既有算法框架中需要发掘并融合新的特征来增加相关约束并最终提高系统性能。本文在二元分类框架上进行相关的特征挖掘,在传统特征的基础上,融合多种背景语义特征,并提出基于维基百科的上下文特征,随后采用特征选择算法筛选出有效特征。实验结果表明,这种方法将系统性能提高了5%。同时,将英文共指消解算法移植到中文上时,关键问题是中文人称名词短语的单复数特征的自动识别。在大量总结规则和提取三维特征的基础上,该特征的识别可以达到很好的性能,其中基于规则的方法可以保证结果的精确率,但是整体而言,基于机器学习的方法更加实用。  其次,基于分类方法的共指消解已经经过十多年的发展,现在一些研究人员采用实体-表述模型来突破以往的二元分类框架中只能考虑局部信息的限制。这种模型在算法性能上虽然得到了一定的提高,但是由于共指现象的特点以及既有实体-表述模型在特征表示上的不足,需要采用更好的知识表示方案和相应的学习算法。本文提出基于一阶谓词逻辑的实体-表述模型,并采用归纳逻辑编程自动学习共指消解的相关规则。实验结果表明,最终的实验性能比最好的实体-表述模型有所提高,归纳逻辑编程对共指消解而言是一种有效的方案。  接着,基于有指导方法的共指消解缺少足够的训练语料,需要开展无指导的共指消解方法。以往的聚类算法必须经过两两计算相似度的步骤,并且只能利用局部信息,这样不可避免的会产生错误级联。本文采用超图模型来对共指消解中的各种特征和最终的等价类划分之间的关系建立模型,采用超图分割算法实现从共指特征到最终的表述等价类的直接划分。实验结果表明,这种方法将以往无指导方法和有指导方法之间的差距大幅度缩小,说明这种框架是可行的。  最后,共指消解在从单文档转换到多文档时,需要解决重名消解的问题。以往的重名消解方法基于人名的上下文词汇或者进行相关的属性抽取后,通过计算相关向量的相似度实现自底向上的或者从上到下的聚类。这种方法会包含很多无用词汇或者过度依赖相关信息抽取。为了避免这些问题,本文以人名搜索引擎检索结果对应的Snippet为研究对象,根据“物以类聚,人以群分”的思想建立人名对应的社会网络,通过对网络的扩展以及结合谱聚类算法,自动实现对重名消解。实验结果显示,结合谱聚类的社会网络方法可以较好的解决这个问题。
其他文献
无线传感器网络能实时监测、感知、采集和处理各种监测对象的信息,在军事、环境监测和工业生产等方面具有十分广阔的应用前景,是当前国际上备受关注的研究热点之一。而如何利
在当今信息时代,网络安全问题已成为人类共同面临的挑战。国内,网络安全问题也受到越来越多的关注,具体表现为:计算机系统受病毒感染和破坏的情况极其严重;电脑黑客活动的严
在人脸识别领域中,如何进行有效的特征提取一直是研究人员不断探索的方向。人脸识别因受多种因素影响,使得识别结果达不到预期效果,这些影响因素包括:光照变化,表情,姿态,装
随着现代信息科学技术的发展,中医现代化受到有关部门和学者越来越多的关注和研究,利用现代科学技术实现中医现代化,使得祖国医学能够更好地传播和发展。面诊是祖国医学望诊
随着虚拟化技术的高速发展,其已广泛应用到服务器整合、集群计算、多操作系统配置、硬件及内核开发等领域。调度算法是虚拟化技术中分配处理器资源的重要方法,对虚拟机的磁盘
完备信息博弈已经有很多比较成功的解决方案。博弈双方根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值的结果来进行搜索,找到一个根结点的最佳走
谱模式具有精度高、稳定性好和能够消除“极地问题”等优点,因而广泛应用于世界各国的全球数值天气预报业务系统中。球谐函数变换是此类模式的主要计算过程之一,该过程由纬圈
LDAP协议是Internet中用于数据查询访问的重要协议,在PKI基础设施中,LDAP用于证书和CRL的查询与下载,具有广泛而重要的应用。本文对LDAP服务的关键技术做了研究,共分为两个部
随着互联网的发展,在入侵检测、内容审计、高速网络管控等安全业务领域,对高速链路进行深度报文检测(Deep Packet Inspection,DPI)的要求越来越高,需要更高性能的模式匹配技
模型检测是一种基于形式化方法的自动分析和验证技术,问题的关键是状态空间爆炸的解决。Lesilie Lamport提出行为时序逻辑(TLA)理论体系,运用TLA对软件或协议进行建模,它能在