论文部分内容阅读
自然语言处理是计算机科学中一个引人入胜、富有挑战性的课题。它的任务是建立一种计算模型,这种计算模型能够模拟人类语言认知的过程。但是当前计算机的智能水平还远远不能与人类相提并论,困扰其发展的原因有很多,对未登录词的识别是自然语言处理领域亟待解决的几个难题之一。本论文在剖析现有未登录名词短语识别算法基础之上,对中文未登录名词短语,特别是名词短语中的姓名进行研究,提出了一种新的基于词性探测的中文姓名识别算法。同时,结合“支持向量机”这一新的机器学习方法,从不同的角度对中文姓名的识别问题进行了研究。论文提出的算法通过编程实现后,将作为一个重要的功能模块应用于由本实验室自主开发的“中文自动分词系统”中,以提高该系统识别新词的能力。 论文首先对自然语言处理作了简单介绍,提出了中文自然语言处理的特殊性,即汉语的词与词之间不象西方文字那样存在自然分隔标志,因此必须对待处理的中文文本进行自动分词。随着中文自动分词算法研究的深入,制约其发展的几个问题便越来越受到研究者的关注。其中一大难题就是对中文未登录名词短语的识别。 论文主体部分介绍了名词短语中姓名的识别方法,并阐述了将其作为研究中文未登录名词短语识别问题切入点的意义及作用。在分析常见中文姓名识别方法的基础上,指出了现有识别算法的不足,进而提出了基于词性探测的未登录中文姓名识别算法。该算法结合统计语言模型和中文构词规则等信息,能有效识别中文姓名。此外,论文还引入了支持向量机学习方法,从统计学分类的角度探讨中文姓名与非中文姓名在若干特征上的差异,验证应用支持向量机理论识别中文姓名的可行性。 论文最后根据中文姓名识别系统的评价参数对实验数据进行了分析。同时,对全文的工作进行了总结,并提出进一步的研究工作。