论文部分内容阅读
汉语多词块作为组块体系的重要组成部分,是由两个或两个以上的词语按照一定的关联关系组合形成的信息描述单位。多词块主要包括句法信息、关系信息和序列标记组合信息。汉语多词块识别不仅可以在一定程度上简化完全句法分析,而且有利于多词块信息在大规模真实任务中得到应用。本文的任务是在给定一个已经完成分词和词性标注的句子后,自动识别出该句子中所有的汉语多词块,从中获得各种块标记信息。本文引进条件随机场,它是一个用于标记和分割数据的无向图模型,能够避免严格的独立性假设和标记偏置问题,同时利用条件随机场在序列标注任务中表现出的良好性能,构建了汉语多词块的自动识别模型并对模型进行了融合处理。主要工作如下:(1)多词块自动识别模型的构建在汉语多词块描述体系的基础上,以清华大学的“汉语多词块库”作为语料来源,构建了基于条件随机场的两个标记标注模型,即:“句法标记标注模型”和“序列标记标注模型”。在句法标记标注模型中,采用IOB2边界标注策略,将句法标记的标注看作是一个序列标注任务,通过为句子的每个词语赋予一个句法标记,自动标注出该句子的所有多词块边界标记及其句法标记;在序列标记标注模型中,多词块中的序列标记跟其块内每个词之间存在一一对应关系,通过对多词块中每个词进行自动标注,得到其对应的序列标记。(2)多词块自动识别模型的融合处理针对上述两种模型,分别设计了一系列实验。特征选取主要基于单个词及其词性、多个词的组合及其词性的组合、状态转移特征。在对实验结果进行有效融合的过程中,由多词块的边界标记和序列标记,确定其序列标记组合,同时使用可靠的启发式规则集,从多词块的序列标记组合中推导出其对应的关系标记,从而得到了块的主要描述信息。本文在多词块自动识别方面所作的工作,为汉语句法形式和语义内容之间建立有机联系做出了准备。如何进一步提高多词块自动识别的性能是下一步的研究重点。