基于深度神经网络的蒙古文命名实体识别研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:caonimalegebicaonima
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古文自然语言处理是助推蒙古文信息化极为关键的一步。蒙古文命名实体识别任务为其中最基础的一部分。它的主要目的是从海量的蒙古文非结构化文本中识别出特定类别的名词。同时,它也是提升蒙古文信息检索、机器翻译、问答系统等下游任务性能的关键步骤。相较英文、中文等拥有充足语料的语言,蒙古文的语料库十分稀少、扩充速度十分缓慢,且由于蒙古文本身构词结构复杂,形态多变的黏着语特性,加大了命名实体识别的难度,制约了蒙古文相关工作的发展。目前深度神经网络模型已被广泛用于自然语言处理的各项任务,但是蒙古文命名实体识别领域中深度神经网络相关工作较少。因此,本文提出使用深度神经网络构建蒙古文命名实体识别系统,利用模型自动学习蒙古文内部的语言特征,减轻了传统方法对人力物力的依赖,使蒙古文命名实体识别系统的性能得到了进一步的提升。本文主要研究内容如下:(1)通过对蒙古文复杂多变的构词方法进行研究和分析,本文提出将蒙古文命名实体中部分后缀进行切分,构建蒙古文特有的词素向量,并根据蒙古文语言特点设计了新的标注方式,最后通过多组对照实验挑选出了最适合本文任务的标注方法。这一工作为后续构建基于深度神经网络的蒙古文命名实体识别系统做了准备;(2)通过对主流蒙古文命名实体识别方法的研究、对比与分析,本文提出使用改进Transformer模型的TENER模型。该模型构成的蒙古文命名实体识别系统在训练速度,识别效果上都优于其他主流模型,本文的实验也证明了其性能的优越性;(3)根据目前自然语言处理领域各大任务的研究趋势,本文将最有代表性的预训练语言模型与TENER模型相结合,构建了BERT-TENER模型与ALBERT-TENER模型进行蒙古文命名实体识别,通过实验对比可以验证其提升系统识别效果的能力;(4)针对目前蒙古文标注语料缺乏的问题,本文提出引入无标注的双语平行语料资源,利用平行语料通过双语词对齐的方式构建词典,将词典数据进行人工修正后,利用词典的映射关系构建出了融合跨语言知识的模型。实验证明融合跨语言知识构建的系统有着非常优异的效果,丰富了蒙古文词素向量的语义表示,提升了系统识别蒙古文命名实体的精度。
其他文献
为了解幼苗更新过程中的生理适应机制,本研究以华北寒温性针叶次生林典型优势树种—云杉为研究对象,研究云杉更新幼苗随龄级及海拔的变化,主要有:(1)云杉幼苗叶片形态特征及C
我国是危险品公路运输最为繁忙的国家之一,然而公路隧道重大交通事故频发,尤其是危险品车辆交通事故造成的损失最为严重。传统的基于GPS(Global Positioning System)和北斗的危险品车辆监控系统在隧道内存在两方面问题:一方面,由于隧道对外界电磁波有屏蔽作用,这类系统无法接收外界卫星信号,导致其在隧道中无法进行位置追踪和信息交互;另一方面,这类系统只侧重于对监控信息的管理,缺乏从系统
具有粘滑效应的振动系统广泛存在于各种工程结构中,工程结构往往伴随着各种随机激励,为了能更好地控制粘滑效应的危害甚至利用该机制,很有必要研究具有粘滑效应的非线性振子
轨道是列车得以运行的载体,在列车安全运营过程中轨道必须保持良好的技术状态。轨检小车作为轨道线路状态检测的重要设备,是保障列车安全运行的一项有效手段。实时、高精度的
纳米流体是指将尺寸大小在纳米级别的颗粒均匀分散在液相中形成的新流体。优良的导热、导电、流动以及摩擦减阻等性质,使纳米流体在能源、化工、热传导、药物运输等领域内得
向量值Hardy空间作为Hardy空间的推广在近年来受到了很多数学家的重视,并给出了很多类似于Hardy空间的结果,诸如Beurling型定理,F.Riesz-V.Smirnov分解定理等。其中很起到重
随着科学技术的发展,微通道换热技术不仅进军了汽车空调、家用空调、空气能等行业,而且在航空航天、化学生物工程等运算性能要求较高的微电子领域也有巨大的发展前景。基于此
酮连氮化合物具有共轭双键(-C=N-N=C-),化学活性强能够发生多类反应,广泛应用于医药中间体、感光材料、可聚合单体、染料、航空燃料等众多工业领域。本文针对环丙基甲基酮和
随着移动多媒体服务的普及,移动终端应用日益丰富,移动用户所需的数据流量出现巨大增长。各种数据业务对网络质量的要求驱动着电信运营商加快优化网络性能,以满足承载大量数据流量业务的热点小区用户服务需求和容量需求。为了提高动态网络的优化效率和质量,准确高效地识别和预测网络中的潜在热点起到至关重要的作用,从而可以实现网络资源的及时调整与分配,减少网络拥塞的发生,保持网络平稳运行。因此,本文以流量热点为研究对
目的:报告一例依维莫司治疗p.Arg1138Ter结节性硬化症患者及文献回顾。方法:使用患者外周静脉血5ml作为样本检测TSC1及TSC2基因序列,寻找基因突变位点(委托上海桐树生物科技有