论文部分内容阅读
有监督的统计机器学习方法依赖高质量的人工标注数据训练模型参数。然而,人工标注数据通常要耗费大量的人力和时间成本。在自然语言处理领域,针对同一个任务,通常存在多个符合不同标注规范的人工标注数据,称之为多源异构数据。和单个人工标注相比,多源异构标注数据在规模和领域覆盖面上具有明显优势,因此有助于缓解模型训练时的数据稀疏问题。本文以中文分词和词性标注这两个词法分析任务为例,提出一种神经耦合序列标注方法,直接利用多源异构标注数据,一方面有效支持异构标签转化(即同构化),另一方面提高模型的分析性能。具体而言,本文的主要研究内容如下。(1)众包数据标注系统搭建和词法数据标注目前几乎所有的词法标注数据均仅仅遵守单一标注规范。为了支持异构数据的转化性能评价,需要人工标注一定规模的同源异构数据,即一个句子上同时具有遵守多个规范的人工标注结果。为此,我们随机选取了北大人民日报语料(People’ s Daily,PD)数据集中的1000句,并人工标注了遵守宾州中文树库(Chinese Penn TreeBank,CTB)规范的词性标记。为了保证人工标注数据的质量,本文设计了一套标注流程,并开发了一个基于浏览器的众包数据标注系统。除了支持词性标注外,我们的标注系统还支持很多其他自然语言处理任务,如多分类、层次分类、分词、命名实体识别、依存句法分析等。(2)面向异构词法数据的神经耦合序列标注模型为了直接利用多源异构数据进行模型训练,Li等(2015)提出了基于传统离散特征的耦合序列标注模型,直接学习和推断两种异构标签。其基本思想是将两个词性标签捆绑在一起(例如:“NN@n”),形成耦合词性空间(Bundled tag space),并以模糊标注的方式,在耦合词性空间上训练模型。本文将基于离散特征的耦合序列标注模型扩展到基于神经网络的框架上。我们采用多层BiLSTM作为编码器,预测分值时,使用三个MLP分别预测了两组独立标签的得分和一组耦合标签的得分,并根据映射关系将三个分值相加作为最终得分。实验表明,相比利用单个训练数据的基准模型,神经耦合序列标注模型在词性标注和分词词性标注联合任务上均取得了显著的准确率提升;和多任务学习模型相比,神经耦合序列标注模型在异构标签转化任务上也具有明显优势。(3)基于标签裁剪的快速神经耦合序列标注模型耦合序列标注模型直接将两个数据的标签集合进行笛卡尔乘积,导致耦合标签数量很大。例如,在分词词性标注联合任务上,耦合标签的数量超过一万。这会导致模型效率低和显存占用大。Li等(2016)针对基于传统离散特征的耦合序列标注模型,提出了一个上下文相关的局部剪枝策略,提升了模型的效率。与基于传统离散特征的模型相比,神经网络依赖大矩阵并行运算来提高模型效率,而上下文相关的局部剪枝会在不同位置上产生不同的候选答案集合,因此无法使用大矩阵运算。对此,我们针对神经耦合序列标注模型,提出了一个直接对耦合标签集合进行裁剪的策略。首先利用训练好的模型在多个训练集上预测得到含噪声的耦合标签,然后根据频率进行裁剪低频耦合标签,最后在裁剪后的耦合标签空间上建立快速神经耦合序列标注模型。实验结果表明,这种方法能够在不影响分析和转化准确率的情况下,显著提高模型的效率。综上,本文主要提出了一个神经耦合序列标注模型,有效利用多源异构数据,提高中文词法分析的性能。本研究在词性标注任务、分词词性标注联合任务以及异构词性转化任务上取得了一些初步可观的成果。我们期待这些研究成果可以进一步推动自然语言处理领域一些上层任务的研究和发展。