条件概率模型研究及其在中文名实体识别中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yuehan3269
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
条件概率模型,又称为判别式模型(Discriminative Model),是一类常用的模式识别方法,它相对于产生式模型有很多优点。产生式模型早期被广泛应用到自然语言处理中,包括词性标注、边界识别、名实体识别、句法分析等。从上世纪80年代后期开始,条件概率模型开始引起研究者们的注意,特别是在自然语言处理领域,由于条件概率模型更适合序列标注以及可以使用丰富特征的特点,因此条件概率模型在诸多的应用中,例如词性标注、名实体识别、组块分析、中文分词等,其性能表现都超过了产生式模型。  本文主要针对最大熵模型和条件随机域模型进行了较深入的理论研究。同时讨论了如何利用最大熵模型和条件随机域模型进行中文名实体识别,通常在名实体中,人名、地名、机构名比较难以识别,而数字、日期、时间等类别采用基于规则的方法就可以很好的识别,因此本文的研究重点是针对前三种名实体的识别。具体研究内容包括以下几个方面:  第一,针对最大熵模型在对不完整样本进行分类时表现不好的问题,我们提出了改进原有模型中特征补偿的方式。常用于训练最大熵模型参数的GIS(Generalized Iterative Scaling)算法要求必须满足一个条件:每个事件对不同的输出类别应该包含相同数量的特征。针对这一要求,传统的方法是采用一个全局唯一的补偿特征,然后乘以丢失的特征数。其潜在的思想是认为丢失特征对分类的贡献是等同的。本文提出了一种改进的特征补偿策略,即认为不同的特征类型对不同的输出类别有不同的贡献。通过把改进后的模型在机器学习的标准数据集上和原模型做对比测试表明,修正后的补偿策略能提高模型的学习效率和分类精度。  第二,本文分析了传统最大熵模型中特征表达方式的特点,指出这种特征表达方式存在的两个缺点:首先是没有考虑属性类型对分类的影响,其次,由于增加补偿特征来弥补丢失属性对分类的影响,导致迭代算法的收敛速度降低。为此,我们提出了一种改进最大熵模型特征表达的方法,即在传统模型特征的基础上,引入了属性类型对分类的影响,新模型的特征包含两部分:属性值对分类的贡献和属性类型对分类的贡献。在绝大多数分类任务中,训练集中的样本大多数都是完整的或者不同样本丢失的属性并不相同。基于这个事实,在训练过程中,利用完整样本和在当前属性上有取值的样本训练得到每种属性类型对分类的贡献度,该贡献度通过线形组合和原模型中的特征共同作用于样本的分类。通过在标准机器学习数据集上的实验测试,改进后的特征表达的分类性能较传统最大熵模型的性能有较大提高。  第三,本文将最大熵模型用于中文名实体识别,并在其框架下,定义了多种特征,其中包括上下文特征(N-gram)、词典特征(中文姓氏词典、地名词典)、构词特征(后缀)等。同时,我们在研究过程中发现,在加入词典特征后,某些词的词典特征因为共享权值,而使得权值过度增加,无法正确识别出该词在特定上下文环境中的类别。我们把这种现象称之为“权重偏置”(Weight Bias)。为了解决这一问题,本文提出了通过把特征分为原子特征,然后再对原子特征进行二元组合和三元组合形成一组复合特征的策略。同时为了降低系统的复杂性,避免过拟合的发生,我们采用了基于互信息的特征模板选择方法。  第四,本文采用条件随机域(CRF:Conditional Random Field)模型来进行中文名实体识别,为了考虑长距离约束对名实体识别的影响,我们在CRF模型中融合了触发对的特征。提出了一种基于词方差的选择触发对候选词的方法,并且采用了两种词语相关度的计算方法,即平均互信息和2χ统计量,其中2χ统计量是第一次被用来抽取中文触发对。更进一步对四种主要的概率模型在同等的条件下,在中文名实体上的性能表现作了比较。实验表明在四种概率模型中,由于CRF模型兼有产生式模型和判别式模型的优点,因此其在中文名实体识别上的性能最好。  
其他文献
在某些现代化物流和生产加工等环境中,存在一种具有多个智能机器人(或手臂)协同工作的搬运系统。机器人连续和高速的运转会导致其传动装置过热疲劳,发生故障甚至烧毁。因此,
随着网格技术的快速发展,其应用领域越来越广泛,网格应用规模越来越大、也越来越复杂。复杂的网格应用存在各种各样的约束和资源竞争问题。把工作流引入网格——网格工作流,
当前,随着计算机软件快速发展、软件规模不断扩大,软件的质量越来越得到重视。为此,人们提出了软件可靠性、软件验证、软件质量保证、软件测试等一系列概念和理论。如何提高
电子投票以密码学为基础,运用计算机和网络技术来实现投票功能。使用电子投票,不仅仅可以避免以往大量组织、选票收集和计票的工作,而且也可以有效地减少人为因素。与传统的
随着信息技术的不断发展,企业管理水平的不断提高,利用信息技术融合管理思想的信息管理系统的开发和使用,越来越受到企业的重视,信息系统既能够方便快捷的完成日常生产管理工作,同
随着科技的进步,人类对信息的获取、表示、存储、传播和再现提出越来越高的要求。在数字视频领域,人们对显示的分辨率和实时性要求越来越高,当前主流的单一显示器已经远远不
本文对中文自动问答系统中的问题理解技术进行了研究。问题理解是问答系统的基础,只有在正确地分析和理解问题的基础上,才有可能返回给用户以正确的答案。问题理解的核心内容就
学位
随着计算机能力的不断增强和网络技术的飞速发展与迅速普及,以充分合理利用互联网中所蕴含的各种潜在资源为目标的对等(Peer-to-Peer,简写为P2P)网络得到了广泛的应用。在P2P
近几年来P2P技术飞速发展,吸引了越来越多的研究机构和团体加入到这个研究领域。各式各样的P2P的产品和服务更是层出不穷,P2P的应用逐渐扩展到文件共享、协同工作、对等计算、