应用于词性标注的隐马尔可夫模型参数评估

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:as55059550
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理中,词性标注是最基础的课题。由于基于统计的方法具有不需要人工总结语言学规则、识别正确率高等优点,已逐渐成为研究的热点。在基于统计的方法中,隐马尔可夫模型(Hidden Markov Model简称HMM)是最主要的算法模型之一。 参数是隐马尔可夫模型的重要组成部分,参数评估也成为构建隐马尔可夫模型的必要前提。在分析前人工作及研究现状的基础上,本文对有指导的隐马尔可夫模型参数评估方法做出两个方面的改进:一是评估词的出现概率时,增加了前词词性;二是利用感知器算法对隐马尔可夫模型参数进行修正。 传统的隐马尔可夫模型的输出独立性假设为:词的出现概率只与它的词性有关,与前词或后词的词性无关。本文在评估词的出现概率时,增加了前词词性,即:词的出现概率不仅与它的词性有关,而且与前词词性有关。使隐马尔可夫模型在词性标注中,能够利用更多的语言学信息。 感知器算法是一种能根据输出与所期望的输出间的差别来调整模型参数的算法。本文利用感知器算法对隐马尔可夫模型参数进行修正:首先用Viterbi算法对输入句子进行自动分词及词性标注,然后将输出结果与正确的词性序列比较,若不相同,则调整隐马尔可夫模型参数。 实验结果如下:在封闭测试中,采用新的参数评估模型,F-值达到96.78%,与采用传统参数评估的隐马尔可夫模型相比,F-值提高1.84%。在开放测试中,采用新的参数评估模型,F-值达到92.79%,与采用传统的参数评估的隐马尔可夫模型相比,提高3.44%。实验表明:经过上述改进后的隐马尔可夫模型参数评估系统,能有效地提高隐马尔可夫模型参数的质量。
其他文献
语音识别是近半个世纪发展起来的新兴学科,它能使计算机“听懂”人的自然语。由识别得到的信息可作为声控信号应用到多种技术领域,在工业、军事、交通、医学、民用等各方面有广
面向对象编程作为主流编程范型,在WEB系统设计实现中得到了很好的应用,但同时也早已暴露出不足,针对面向对象编程思想的不足人们提出了面向方面编程。面向方面编程很好地解决了
在机器人的各种传感器中,视觉传感器可以获得其它传感器所无法比拟的大量环境信息,为机器人的控制决策提供了可靠的信息保障,而其中双目视觉传感器又以其可获得环境中物体的深度
20世纪50年代末第一台机器人诞生以来,机器人被广泛应用到各行各业。基于视觉信息的移动机器人导航是当前移动机器人研究的一个焦点。目标跟踪和视觉避障是移动机器人导航中的
数据挖掘(Data Mining,DM)是从存放在数据库、数据仓库或其他信息库中大量的不完全的有噪声的模糊的随机的数据中提取隐含在其中的人们事先未知、但是潜在有用的信息和知识的
多种特征综合应用的图像检索是当前基于内容图像检索的热点。本文从图像的纹理和形状特征出发,总结了基于纹理特征和形状特征的图像检索的研究现状和发展趋势,分析和概括了图
未登录词的识别是汉语自动分词的难点之一,而中文机构名是未登录词的一个重要部分,涉及广泛,种类繁多,形态各异,且绝大多数未收入到词典中。中文机构名的自动识别对提高汉语自动分
有时间窗约束的车辆路径问题(VRPTW)是近几十年来运筹学、应用数学、网络分析、图论、计算机应用及交通运输等学科研究的一个热点问题。VRPTW问题作为一个NP(Non-determinist
可扩展访问控制标记语言XACML(eXtendible Access Control Markup Language)是一种专门用于描述安全访问控制策略,具有可扩展性、可重用性、分布式和描述能力强等特点的语言
随着网络的迅猛发展,计算机技术的不断革新,以及PC机的普及,通过网络,计算机共享信息已经成为可能,但是由于信息化发展的不平衡,造成了信息资源的不一致,加上网络本身的复杂性给信息