论文部分内容阅读
在自然语言处理中,词性标注是最基础的课题。由于基于统计的方法具有不需要人工总结语言学规则、识别正确率高等优点,已逐渐成为研究的热点。在基于统计的方法中,隐马尔可夫模型(Hidden Markov Model简称HMM)是最主要的算法模型之一。 参数是隐马尔可夫模型的重要组成部分,参数评估也成为构建隐马尔可夫模型的必要前提。在分析前人工作及研究现状的基础上,本文对有指导的隐马尔可夫模型参数评估方法做出两个方面的改进:一是评估词的出现概率时,增加了前词词性;二是利用感知器算法对隐马尔可夫模型参数进行修正。 传统的隐马尔可夫模型的输出独立性假设为:词的出现概率只与它的词性有关,与前词或后词的词性无关。本文在评估词的出现概率时,增加了前词词性,即:词的出现概率不仅与它的词性有关,而且与前词词性有关。使隐马尔可夫模型在词性标注中,能够利用更多的语言学信息。 感知器算法是一种能根据输出与所期望的输出间的差别来调整模型参数的算法。本文利用感知器算法对隐马尔可夫模型参数进行修正:首先用Viterbi算法对输入句子进行自动分词及词性标注,然后将输出结果与正确的词性序列比较,若不相同,则调整隐马尔可夫模型参数。 实验结果如下:在封闭测试中,采用新的参数评估模型,F-值达到96.78%,与采用传统参数评估的隐马尔可夫模型相比,F-值提高1.84%。在开放测试中,采用新的参数评估模型,F-值达到92.79%,与采用传统的参数评估的隐马尔可夫模型相比,提高3.44%。实验表明:经过上述改进后的隐马尔可夫模型参数评估系统,能有效地提高隐马尔可夫模型参数的质量。