论文部分内容阅读
随着信息时代的来临,如何从海量的自然语言数据中获取到有用的信息是当今社会一个非常重要的问题。自然语言数据不同于其他类型的数据,它包含着人类语言的特性,需要借助一些专门的技术来处理。命名实体识别是自然语言处理的一项基本任务,它通过提取句子中含有特殊意义的关键信息来解决信息过载的问题,这些关键信息也称为命名实体。命名实体识别一直是国内外专家学者的研究热点之一。中文语言不同于其他语言,对于中文语言的处理需要考虑中文语言的相应特性。当前大多数中文命名实体识别模型按照对语言处理基本单元的选择大致可以划分为两类:基于字符的模型和基于词的模型。基于字符的模型直接将中文句子切分为一个字符序列,然后在这个字符序列上提取命名实体。基于词的模型需要先通过一个分词模型将中文句子切分为一个词序列,然后在这个词序列上提取命名实体。但是,基于字符的模型无法利用词的丰富的内在信息来完成命名实体的提取,基于词的模型无法消除分词模型按照不同的分词标准切分的词序列中词的歧义。针对以上两类模型存在的问题,现有研究通过整合一个预定义的词典来自动适配中文句子中的词,并将适配到的词信息反馈回命名实体识别模型,通过这种方式可以使命名实体识别模型按字符处理中文句子并融入该条中文句子中词的相关信息。但是,融入词典的方式需要提前设置一个词典,且不能保证该词典的无偏性。与融入词典的方式不同,本文通过提取命名实体的位置特征和类别特征研究中文命名实体识别。为此,从中文分词模型研究出发,为了有效获取在长句子更远处的字符信息,提出基于时序卷积网络的中文分词模型;在此基础上,分别构建相应的时序卷积网络提取命名实体的位置特征和类别特征,通过对两类特征进行特征融合识别命名实体。主要研究工作如下:(1)当前大多数中文分词模型都是基于双向长短期记忆网络(Bi-LSTMs)来实现的。Bi-LSTMs模型存在着梯度消失的问题,不能有效的处理长句子。对此,本文提出一个基于时序卷积网络的中文分词模型,通过增加时序卷积网络的层数以获取在长句子更远处的字符信息。模型构建多层时序卷积网络作为编码器,使用一层全连接神经网络作为解码层,应用条件随机场(CRF)对相邻字符进行关联性分析,使用维特比算法求解最后的分词类别标识序列。在多个分词数据集上的实验结果表明,模型具有良好的分词性能,能有效获取在长句子更远处的字符信息。(2)在基于时序卷积网络的中文分词模型的基础上,提出一个基于对称双时序卷积网络的中文命名实体识别模型,使用BERT预训练模型生成字符的预训练编码向量,构建时序卷积网络分别提取命名实体的位置特征与类别特征,设计融合算法对位置特征与类别特征进行融合,得到最后的命名实体。在多个中文命名实体识别数据集上的实验结果表明,基于对称双时序卷积网络的中文命名实体识别模型与现有中文命名实体识别模型相比,F1指数更高,模型的命名实体识别性能更好;在Boson中文命名实体识别数据集上的实验表明,基于对称双时序卷积网络的中文命名实体识别模型能有效处理长句子;在给定特定输入句子测试模型处理带有分词歧义的中文句子的实验表明,基于对称双时序卷积网络的中文命名实体识别模型能有效处理带有分词歧义的中文句子。