基于改进的隐马尔科夫模型汉语词性标注

来源 :山西大学 | 被引量 : 11次 | 上传用户:aiming5968f
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语词性标注是中文信息处理技术中的一项基础性课题。一方面,它的研究成果可以直接融入到信息抽取、信息检索、机器翻译等诸多实际应用系统当中;另一方面,汉语自动词性标注也是汉语语块识别器、汉语句法分析器、汉语语义分析器必不可少的前端处理工具。因此,研究和实现汉语词性标注器具有重要的理论意义和实用价值。词性标注的方法主要有基于规则和基于统计的两大类。由于基于统计的方法具有不需要人工总结语言学规则、正确识别率高等优点,已逐渐成为研究的热点。在基于统计的方法中,隐马尔科夫模型是最主要的算法模型之一。在本文中,我们以汉语的词性自动标注为研究对象,提出了一种基于改进的隐马尔科夫模型汉语词性标注方法。该方法在原有隐马尔科夫模型的基础上,加入了更多的上下文信息,用于汉语词性的自动标注问题,取得了较好的效果。主要的研究内容有以下几方面:1.虽然隐马尔科夫模型有很好的标注效果,但是它在对当前词词语出现概率的估计只与其词性有关。在分析前人工作和研究现状的基础上,本文提出了新的词汇概率估计方法,即:词的出现概率不但与它的词性有关而且与它的后词词性有关,使得改进后的隐马尔科夫模型更能体现词语的上下文依赖关系。2.获得上下文信息的多少和数据平滑程度是评价统计词性标注模型性能的两个重要参数。本文详细介绍了现阶段几种平滑算法,针对该模型数据稀疏现象,采用性能稳定指数线性插值方法来平滑HMM的概率参数。3.对HMM参数估计模型的修改,只是改进模型的第一步,为了更有效的使用训练所得到的参数,需要对Viterbi算法进行修改。由于传统的Viterbi算法不适合本摸型,所以对Viterbi算法进行了拓展。4.对于自然语言来讲不存在完备的可计算的词性信息,如何确定未登录词的词眭是除兼类问题之外词性标注所面临的另一个关键问题。本文对未登录词处理提出了具体处理方法。我们从《人民同报》语料中选取5万词次的文本进行开放测试,其实验结果表明该方法自动词性标注的召回率达到96.20%,准确率达到95.09%,从而证明基于改进的隐马尔科夫模型的汉语自动词性标注方法是有效的。
其他文献
自从二十世纪七十年代以来,无线网络越来越受到通信业界的重视。无线网络以网络拓扑结构为标准,可以分为两类:一类是集中式控制的,即有中心的,典型的如无线局域网、GSM网等;
本文首先分析了当前各种主流身份认证机制,分别对它们的安全性和应用范围进行了分析,然后对一次性口令认证机制的四种模式进行了深入研究,分析了它们的安全性和实用性,最后针对秘
即时通信(Instant Messaging,简称IM)是一种实时的互联网交流形式,伴随着网络的开放性和日益增长的规模,它已经成为人们自由交流信息的便捷手段,极大地改变了人们的联系方式。然
管理信息系统以前多是采用二层体系结构,即C/S模型。C/S两层架构在一个相对专用、独立的系统中,是一个较好的系统建立方法;但随着部门业务规模的扩大,以及为了适应在Internet上开
随着互联网的迅速发展,电子邮件以其方便快捷的特性越来越受到人们的青睐。但是垃圾邮件的出现和不断泛滥,严重干扰了人们正常的网络活动。采取技术手段对垃圾邮件进行过滤是对
性能评价描述、分析和优化系统的动态行为,从时间角度定量地分析系统的性能。传统的性能评价方法主要包括排队论和随机Petri网,随着个人计算机的普及和网络规模的扩大化,对大
随着电子商务的发展,网络安全性得到空前重视。入侵检测系统(IDS)能够捕获并分析网络中的所有数据包,发现其中的攻击企图,根据事先制订的策略通知管理员或自行采取保护措施。传
合成孔径雷达(Synthetic Aperture Radar,SAR)由于其特殊的成像机制获得了在军事和民用多个领域的广泛应用。SAR系统不易受环境的影响,能够不间断工作,获取的图像质量高。但是随着
工作流的概念起源于生产组织和办公自动化领域,它是针对日常工作中具有固定程序活动而提出的。为了实现对业务流程的管理,需要有相应的软件系统支撑,这种软件系统就称之为工作流
基于样图的纹理合成技术(Texture Synthesis from Samples,TSFS)是近年来发展起来的一种新的纹理生成技术,它不仅克服了传统纹理映射方法的缺点,而且避免了过程纹理合成调整参数