深层神经网络的藏文命名实体识别研究

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:chinafeed
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文命名实体识别是藏语自然语言处理的关键技术之一,也是机器翻译、信息提取和智能问答等综合应用的重要基础。藏文命名实体识别的工作目前主要使用统计方法,而统计的命名实体识别方法在处理文本形式、内容的多样化而面临效率低的问题,系统的泛化能力和可移植性较差,另外,基于统计的方法中还需要专家来根据语言学知识设计特征模板,其过程较为繁琐且系统实现周期较长。基于以上的不足,本文采用神经网络的方法结合藏文命名实体特点,利用深层神经网络模型识别藏文命名实体,可显著提高藏文命名实体识别的F值。本文首先针对藏文命名实体识别任务和方法,对国内外的科研动态以及命名实体识别的方法、任务难点和关键技术进行了讨论与分析。其次,对藏文命名实体的局部与整体特征和本身存在的一些难点做了分析。在分别介绍HMM、CRF的建模过程与算法的基础上,指出了统计模型在实际应用的缺陷和不足。同时也分析了当前模型处理藏文命名实体任务中的技术瓶颈和需解决的重点问题,结合神经网络的优势指出了改进方法。然后,对神经网络的理论基础、优化方法与参数的选择做了详细介绍。继而针对处理藏文命名实体识别问题分别介绍了几个较为主流的神经网络序列标注模型框架:词窗口、RNN、GRU、IDCNN+CRF、Bi_LSTM+CRF,并较为详细地介绍了其识别藏文命名实体的工作原理和优缺点。最后,在深层神经网络模型的基础上,针对藏文命名实体识别问题进行了大量的对比试验。通过对不同参数和模型框架下的结果对比分析,总结了一些对于藏文命名实体识别有用的参数选择经验。同时,在统一实验条件下对不同模型的藏文命名实体识别结果进行了对比。实验表明,深层神经网络模型在各个指标方面比CRF模型有较大的优势,具有更广的研究前景与应用价值。三种藏文命名实体的总和打分情况为三个指标均有提升分别为2.41%(P)、8.35%(R)、5.71%(F)。特别是组织机构名(ORG)的得分提升幅度最为明显。另外,用IDCNN+CRF和Bi_LSTM+CRF来实现了基于字级别的藏文命名实体识别实验。从处理难度上讲,基于字级别的藏文命名实体任务更具挑战性,但在测试中获得了与词级别相当的F值,证明了这种分类器在藏文命名实体中的实用性。
其他文献
目的:观察扶正抗癌方对晚期肺癌癌因性疲乏(CRF)的影响,探索扶正抗癌方缓解疲乏的可能机制,为临床治疗及缓解晚期肺癌疲乏寻找安全、便捷且行之有效的治疗方法。方法:本课题采用随机、平行对照的临床研究方法,对符合纳入标准的晚期肺癌患者随机分为实验组及对照组各30例,对照组予对症治疗,实验组在对照组基础上予扶正抗癌方辨证加减治疗,以1个月为观察周期,比较治疗前后的Piper疲乏评分、生命质量评分、中医证
目的探讨与传统心脏再同步化治疗(Bi-V CRT)相比,左室多部位起搏(MSLV)CRT是否能进一步缩短术后起搏心电图QRS波时限及改善心肌复极相关参数。方法选取具有最新指南推荐植入
近年来,国际经济形势处于不断变化中,资本市场上对于中概股私有化回归这一话题的讨论越发火热。早期迫于国内融资环境及经济政策,而选择在海外上市的一些中概股,在经历了一系列海外资本市场的冲击后,再加上我国宏观经济环境好转,政策日益宽松,纷纷私有化退出境外市场,掀起中概股回归热潮。2015年6月17日,奇虎360宣布接到由公司董事长周鸿祎等人发起的初步非约束性私有化要约,2016年7月18日,中信国安晚间
《事业单位领导人员管理暂行规定》(以下简称《管理规定》),作为第一部事业单位领导人员管理的专门的党内法规,对事业单位领导人员的选拔任用、任期管理、考核评价、职业发展
随着城市经济的不断发展,机动车保有量呈指数增长。汽车给人们提供出行便利的同时,给城市道路造成了巨大的交通压力,并对空气质量造成了严重影响。低地板有轨电车作为一种中等运力、清洁高效的出行方式,将更加适合未来人口密集型城市的交通环境。然而,此前有轨电车制动系统的核心技术仍然被外国垄断,近年来国内企业开始着手设计国产低地板有轨电车。中车株洲电力机车有限公司设计了一套动车、拖车液压制动系统,但在实际测试中
空间变曲率金属管件在核电、航空航天、船舶、车辆等领域有着广泛应用,管件弯曲回弹现象是影响管件加工精度的主要因素之一。本文通过对回弹现象进行分析,对定曲率和空间变曲
近年来,随着我国社会经济的稳步发展以及城市化进程的加速推进,城乡一体化发展趋势越来越明显。城乡间的客运分界线越来越模糊,两地经济要素和人员流动日益频繁,而农村客运作为联系城乡的媒介,越来越受到人们的重视。随着客运需求的逐年增加,原有客运线网已不能满足城乡居民的出行要求,亟需建立统一、开放、协调发展的城乡客运体系,科学地规划城乡客运网络,提高运输效率,实现城乡客运资源优化配置。基于此,本文对城乡道路
创普公司投资立项辅助评估系统是出于扩展公司的投资领域和提升投资项目运作水平的需要,特别是为了完善对项目决策的支持能力,从投资运作的多个关键环节入手,最终目的是强化
随着氮氧化物(NO_x)排放的日益增多,大气污染愈发严重,国家对NO_x排放标准实现了更为严格的控制。选择性催化剂还原法(NH_3-SCR)是烟气脱硝技术中应用较广且较为有效的一种技术。在SCR脱硝技术中,核心内容是催化剂。当前应该最为广泛的催化剂是钒钛系脱硝催化剂,但其活性温度较高,窗口较窄,而且价格较昂贵,不能满足低温烟气NO_x的脱除需要。因此,寻求高效、绿色的新型低温SCR脱硝催化剂,已成
二维材料硫化钼(MoS2)作为过渡金属硫化物(TMDCs)的典型代表,与石墨烯(graphene)相比,有着可变的禁带宽度,从块状的间接带隙到单层的直接带隙。正是由于其独特的结构,使其在晶体管