论文部分内容阅读
本文主要研究中文词性标注中异构数据问题。中文分词和词性标注是中文自然语言处理的基础任务,句法分析和语义分析建立在这些基础任务之上,大量的系统也依赖于这些基础任务的效果,比如对话系统和检索系统中会用到分词算法,信息抽取、关键词提取等算法常利用词性标注的结果。随着研究人员的增加、工业界的发展以及互联网的普及,出现了大量的异构数据和语料。本文主要从两个方面研究这些异构数据:目标数据的异构问题和训练语料数据的异构问题。目标数据的异构问题在词性标注任务中的主要体现在于标注对象是异构的。现今,互联网络的流行、各国文化的融合等因素使得中文文章和对话中常常掺有少量的外文比如英文单词,尤其在电子邮件和互联网的博客与社交网络中。因此,分析研究中英文混合文本就成为了一个重要且富有挑战的工作。本文研究了对中英文混合文本这样的异构数据进行词性标注的方法。因为缺少标注好的标准人工语料,大部分词性标注方法都将英文等外文简单的标注为“外文”,这样不利于后续的句法和语义的分析。所以本文提供了一个基于动态特征的词性标注方法,它能更好的利用词级别的特征,增强中英文混合文本的标注效果。本文使用人工合成数据的方法解决了缺少混合文本人工标注语料的问题,合成数据时使用的“统一标签”也能减少未登录词对于算法的影响。实验表明本文的方法在中英文混合文本上相比传统的序列标注方法取得了更好的准确率,即使在纯中文文本上也取得了一定的提高。训练数据的异构问题主要体现在如何更好的利用现有的大量异构语料提升词性标注算法的效果。如今,越来越多的研究人员被中文分词和词性标注中异构人工标注语料集的相关问题所吸引。本文提出了一个基于异构人工标注数据集的中文分词和词性标注的统一模型。我们首先在两个异构人工标注数据集CTB (Penn中文树库)和PPD(北大人民日报语料)间自动建立一个松散的不确定的映射,然后将异构语料上的中文分词和词性标注作为两个相互关联的任务,在两个异构语料上同步训练我们的模型。实验证明本文的方法利用两个异构语料间的共通的信息,可以同时增强在两种异构语料上的分词和词性标注的效果,并相对业界最好的水平取得了明显的提高。本文的贡献主要有两个:首先,提出了中英文混合文本词性标注的问题,并使用动态特征,利用词级别信息对这种异构目标数据的情况做出了处理。其次,对于异构语料训练集,使用了不同于传统的方法,在训练阶段同步使用两种异构语料,并改进模型利用异构语料共通的信息提升了词性标注的效果。