论文部分内容阅读
汉语词性标注是中文信息处理技术中的一项基础性课题。一方面,它的研究成果可以直接融入到信息抽取、信息检索、机器翻译等诸多实际应用系统当中;另一方面,汉语自动词性标注也是汉语语块识别器、汉语句法分析器、汉语语义分析器必不可少的前端处理工具。因此,研究和实现汉语词性标注器具有重要的理论意义和实用价值。词性标注的方法主要有基于规则和基于统计的两大类。由于基于统计的方法具有不需要人工总结语言学规则、正确识别率高等优点,已逐渐成为研究的热点。在基于统计的方法中,隐马尔科夫模型是最主要的算法模型之一。在本文中,我们以汉语的词性自动标注为研究对象,提出了一种基于改进的隐马尔科夫模型汉语词性标注方法。该方法在原有隐马尔科夫模型的基础上,加入了更多的上下文信息,用于汉语词性的自动标注问题,取得了较好的效果。主要的研究内容有以下几方面:1.虽然隐马尔科夫模型有很好的标注效果,但是它在对当前词词语出现概率的估计只与其词性有关。在分析前人工作和研究现状的基础上,本文提出了新的词汇概率估计方法,即:词的出现概率不但与它的词性有关而且与它的后词词性有关,使得改进后的隐马尔科夫模型更能体现词语的上下文依赖关系。2.获得上下文信息的多少和数据平滑程度是评价统计词性标注模型性能的两个重要参数。本文详细介绍了现阶段几种平滑算法,针对该模型数据稀疏现象,采用性能稳定指数线性插值方法来平滑HMM的概率参数。3.对HMM参数估计模型的修改,只是改进模型的第一步,为了更有效的使用训练所得到的参数,需要对Viterbi算法进行修改。由于传统的Viterbi算法不适合本摸型,所以对Viterbi算法进行了拓展。4.对于自然语言来讲不存在完备的可计算的词性信息,如何确定未登录词的词眭是除兼类问题之外词性标注所面临的另一个关键问题。本文对未登录词处理提出了具体处理方法。我们从《人民同报》语料中选取5万词次的文本进行开放测试,其实验结果表明该方法自动词性标注的召回率达到96.20%,准确率达到95.09%,从而证明基于改进的隐马尔科夫模型的汉语自动词性标注方法是有效的。