论文部分内容阅读
命名实体识别是自然语言处理中一个重要的基础任务,旨在自动识别文本中具有特定意义的实体名词,通常包括人名、地名、机构名等。命名实体识别能够将非结构化的数据转为结构化数据,使计算机像人类一样对文本信息进行理解,在知识图谱、问答系统、搜索引擎等领域有着重要的应用价值。但在中文领域的命名实体识别中,由于汉语自身的特性,仍存在许多难题,主要包括:(1)汉语文本的词语之间没有边界,因此命名实体的识别效果严重依赖于分词的准确率。(2)中文命名实体缺少明显的词形变换特征,比如英文单词中的大小写、前后缀等。(3)多维度、跨领域的海量中文文本数据对命名实体识别的准确性提出了更大的挑战。(4)中文命名实体中存在大量缩写、中英文混用、实体互相嵌套等现象,导致命名实体的识别问题变得更加复杂。针对中文命名实体识别中的难点,本文对国内外命名实体识别技术的发展进行了大量调研。在对主流的统计学方法进行详细的分析之后,结合当前深度学习的技术特点与优势,指出利用深度学习与统计学方法构建混合模型来解决中文命名实体识别问题的改进方向。本文的研究内容主要包括如下两方面:(1)提出了基于多源嵌入与混合模型的中文命名实体识别方法。为了解决中文词边界模糊的问题,使用了基于单个字符的标记策略。针对该方法中单个字符语义信息不足的问题,使用基于大规模的外部语料预训练的方式对字向量的初始化进行多源嵌入。构建了双向长短期记忆网络与条件随机场的混合模型,通过对两者进行组合从而互相弥补了各自的不足。通过设计多组对比实验,对该模型在命名实体识别任务中的性能表现进行了深入的研究,逐步证明了该混合模型中各个部分的有效性。(2)提出了引入字符增强及注意力机制的中文命名实体识别模型。针对中文命名实体缺少内部拼写特征的问题,提出一种基于卷积神经网络的方法对中文字符进行额外的特征提取,并对卷积神经网络的架构设计做了研究。在此基础上,为了同时利用更多特征信息并解决最终字向量维度过大的问题,在不增加额外计算量的前提下,设计了基于注意力机制的向量自动组合方式。最后通过实验证明该方法在命名实体的识别中达到了更好的效果。实验表明,在不需要额外领域词典和手工制作特征的前提下,该方法取得了较高的识别性能,总体F1值达到了91.11%,优于传统的统计学方法以及相关文献的深度学习方法,能够很好地应用在当今大数据背景下的中文命名实体识别任务中。