论文部分内容阅读
随着当今社会信息化进程的加快以及互联网的飞速发展,自然语言处理技术被广泛应用于机器翻译、信息检索和人机交互等信息处理领域。经过多年发展,自然语言处理逐渐由基于规则的方法过渡到基于统计的方法。基于规则的方法以深层分析和理解自然语言为目的,在实现中复杂且困难;基于统计的方法以浅层处理自然语言为目的,便于利用计算机实现。语义组块分析技术是自然语言处理中浅层语义分析和句法分析的代表,旨在解释自然语言中语法和语义之间的关联。组块的长度介于句子和单词之间,在各种自然语言中有着不同的划分,本文主要在汉语上展开相关的研究工作。汉语的组块分析并没有统一的描述体系,因研究目的不同,研究者们各自提出了不同的组块分析体系。组块分析是浅层句法分析技术,基于对汉语句子语法和语义综合考虑进行分析的目的,本文在组块分析的相关任务语义角色标注问题上,沿用前人对语义组块的定义,对语义组块识别阶段的关键技术进行了深入的研究。语义组块分析是自然语言处理中浅层语义分析和句法分析的重要内容,本文针对汉语语义组块识别中普遍存在的召回率不高这一问题,提出了一种新的标注方式:IO标注法,并利用支持向量机(SVM)模型二类分类的特性充分地发挥了该标注法只有两种标识的优势,在语义组块识别阶段极大地提高了召回率进而提升了F1值。同时,本文也使用条件随机场(CRF)模型对语义组块按I、O标识进行了序列标注的研究。实验结果表明,在汉语的宾州命题库上,结合IO标注法的基于支持向量机的语义组块识别系统可以取得最好的性能,将F1值提高到了80.30%,高于采取其它标注法的系统,实验还进一步表明不同标注法对语义组块识别系统性能的影响。本文具体的组织结构如下:首先,介绍了语义组块识别的流程及评价方法,从中可知,经过语义组块识别后,句子中的各成分被标注了不同的标识,表征该成分是否是语义组块,本文以标注方式作为切入点,提出了一种全新的标注法,将其应用到语义组块识别阶段,并与传统的标注方式做出比较;其次,结合IO标注法,使用统计机器学习方法CRF和SVM建立统计模型,分别将语义组块识别作为序列标注问题和二元分类问题进行研究,实验结果与对比系统进行了比较,验证了在语义组块识别这一问题上,基于SVM模型的语义组块识别方法在IO标注法下可以取得最好的性能;最后,本文将新的语义资源加入现有系统,以期从新的角度研究语义组块。