基于时序卷积网络的中文命名实体识别研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:siyu321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,如何从海量的自然语言数据中获取到有用的信息是当今社会一个非常重要的问题。自然语言数据不同于其他类型的数据,它包含着人类语言的特性,需要借助一些专门的技术来处理。命名实体识别是自然语言处理的一项基本任务,它通过提取句子中含有特殊意义的关键信息来解决信息过载的问题,这些关键信息也称为命名实体。命名实体识别一直是国内外专家学者的研究热点之一。中文语言不同于其他语言,对于中文语言的处理需要考虑中文语言的相应特性。当前大多数中文命名实体识别模型按照对语言处理基本单元的选择大致可以划分为两类:基于字符的模型和基于词的模型。基于字符的模型直接将中文句子切分为一个字符序列,然后在这个字符序列上提取命名实体。基于词的模型需要先通过一个分词模型将中文句子切分为一个词序列,然后在这个词序列上提取命名实体。但是,基于字符的模型无法利用词的丰富的内在信息来完成命名实体的提取,基于词的模型无法消除分词模型按照不同的分词标准切分的词序列中词的歧义。针对以上两类模型存在的问题,现有研究通过整合一个预定义的词典来自动适配中文句子中的词,并将适配到的词信息反馈回命名实体识别模型,通过这种方式可以使命名实体识别模型按字符处理中文句子并融入该条中文句子中词的相关信息。但是,融入词典的方式需要提前设置一个词典,且不能保证该词典的无偏性。与融入词典的方式不同,本文通过提取命名实体的位置特征和类别特征研究中文命名实体识别。为此,从中文分词模型研究出发,为了有效获取在长句子更远处的字符信息,提出基于时序卷积网络的中文分词模型;在此基础上,分别构建相应的时序卷积网络提取命名实体的位置特征和类别特征,通过对两类特征进行特征融合识别命名实体。主要研究工作如下:(1)当前大多数中文分词模型都是基于双向长短期记忆网络(Bi-LSTMs)来实现的。Bi-LSTMs模型存在着梯度消失的问题,不能有效的处理长句子。对此,本文提出一个基于时序卷积网络的中文分词模型,通过增加时序卷积网络的层数以获取在长句子更远处的字符信息。模型构建多层时序卷积网络作为编码器,使用一层全连接神经网络作为解码层,应用条件随机场(CRF)对相邻字符进行关联性分析,使用维特比算法求解最后的分词类别标识序列。在多个分词数据集上的实验结果表明,模型具有良好的分词性能,能有效获取在长句子更远处的字符信息。(2)在基于时序卷积网络的中文分词模型的基础上,提出一个基于对称双时序卷积网络的中文命名实体识别模型,使用BERT预训练模型生成字符的预训练编码向量,构建时序卷积网络分别提取命名实体的位置特征与类别特征,设计融合算法对位置特征与类别特征进行融合,得到最后的命名实体。在多个中文命名实体识别数据集上的实验结果表明,基于对称双时序卷积网络的中文命名实体识别模型与现有中文命名实体识别模型相比,F1指数更高,模型的命名实体识别性能更好;在Boson中文命名实体识别数据集上的实验表明,基于对称双时序卷积网络的中文命名实体识别模型能有效处理长句子;在给定特定输入句子测试模型处理带有分词歧义的中文句子的实验表明,基于对称双时序卷积网络的中文命名实体识别模型能有效处理带有分词歧义的中文句子。
其他文献
现实生活中很多系统都可以看作是多智能体系统(Multi-Agent System,MAS),这些系统由一些能够感知环境,并且能够根据感知的信息对环境执行相应反应的个体组成,在人工智能和计
博弈作为一种生活中常见的一类问题越来越引起重视,不少研究者尝试研究各种复杂背景下的机器博弈问题,特别是非完备信息博弈。早期的研究者通常需要手动获取并处理大量的数据
随着互联网技术迅猛发展,网络信息量呈几何式增长,为人们的日常生活带来了巨大的便利,但是同时这也给人们带来了信息过载的问题。在这种情况下,推荐系统应运而生,个性化推荐
近年来,随着技术的日趋成熟和人类对环境污染问题的愈加重视,风力发电在发电总装机容量中占得比重越来越大。由于工作环境恶劣且风速及方向随时都在变化,导致风力发电机组长
近年来,钢筋锈蚀所引发的混凝土耐久性能退化的问题越发突出,也受到各国学术机构、学者以及技术人员的重视,并进行了大量的钢筋锈蚀方向研究论文。研究钢筋混凝土耐久性退化,
混凝土结构是世界范围内广泛应用的一种建筑材料,在正常合理的使用条件下,钢筋与混凝土之间良好的粘结性能够使构件的性能得到充分发挥。但是,混凝土的碳化、氯离子腐蚀等多
近邻分类是机器学习的重要研究内容之一。其中K近邻分类算法是一种非常典型的非参数懒惰学习方法,因其简单有效等特性被广泛应用于各个领域。但是它存在的弊端也逐步显现,其
固体火箭发动机作为推进系统,在航空、航天以及导弹武器领域占据重要地位,在固体火箭发动机研制和使用的过程中,有时会出现不稳定燃烧现象,导致发动机无法正常工作。目前,随
传统的奈奎斯特定理规定,采样频率必须达到信号带宽的两倍以上才能对原始信号进行精确的重构。然而,随着信息的爆炸式发展,如果按照传统的采样理论对图像和视频等信息进行采
停走交通是公路交通网络受到诸如道路瓶颈、交通事故、天气变化、特殊事件、政府管制、驾驶习惯等因素的影响而产生的交通流量周期性波动现象。车辆在停走交通环境下行驶时,