【摘 要】
:
命名实体识别是自然语言处理中一项非常重要的基础任务,已广泛应用于自动问答、阅读理解、知识图谱、机器翻译等领域中。随着自然语言处理技术的发展和文本数据挖掘的不断深入,对于文本中语义知识的获取变得非常重要,而命名实体识别是事件或关系抽取等信息应用技术的基石,对非结构化文本信息抽取有重要的意义和作用。传统的机器学习方法在处理命名实体识别任务时,主要依赖于人们的专业领域知识和人工提取的特征。为了在不需要人
论文部分内容阅读
命名实体识别是自然语言处理中一项非常重要的基础任务,已广泛应用于自动问答、阅读理解、知识图谱、机器翻译等领域中。随着自然语言处理技术的发展和文本数据挖掘的不断深入,对于文本中语义知识的获取变得非常重要,而命名实体识别是事件或关系抽取等信息应用技术的基石,对非结构化文本信息抽取有重要的意义和作用。传统的机器学习方法在处理命名实体识别任务时,主要依赖于人们的专业领域知识和人工提取的特征。为了在不需要人工特征的条件下获得较好的结果,本文提出了一种融合字词模型的命名实体识别方法。首先,分别用BiLSTM-CRF训练得到基于字的模型Char-NER和基于词的模型Word-NER;之后,对字词模型中各自的分值向量进行运算和拼接,将拼接后的向量作为特征送入最终模型进行训练,使用最终模型对Char-NER和Word-NER进行模型融合。实验结果表明,该方法在不需要人工特征的条件下,在1998年《人民日报》语料和MSRA语料上对人名、地名、机构名识别的F-值分别达到了94.04%、92.15%、87.05%和91.73%、93.20%、83.15%。在融合模型的基础上,本文提出了融入篇章信息的机构名识别方法,通过计算篇章中的互信息对字词模型的机构名识别结果进行修正。实验结果表明,使用该方法对机构名识别结果进行修正后,在人民日报和MSRA语料上的F-值分别达到了89.72%和85.15%。
其他文献
面对国家和社会发展的新型需求,民办本科师资力量的现状和问题使得它更加需要通过校企合作的模式来构建"双师型"教师团队,优化教师队伍。本文以借鉴了德国"双元制"经验和模式
企业在我国经济发展中发挥着不可替代的作用。企业员工作为企业发展的推动者,员工因负面情绪管理能力不足而导致的问题,对企业和社会造成的消极影响也日渐增长。社会工作者如何帮助企业员工提升负面情绪管理能力日益成为企业社会工作的重要课题之一。笔者在专业实习期间,对M直营店员工的情绪状况进行全面调查,结果显示M直营店员工负面情绪问题状况不容乐观,员工对于负面情绪管理的能力和认知都十分有限。笔者首先围绕“负面情
目的分析儿科病房医院感染临床特征、分布特点,探讨预防控制医院感染的对策。方法回顾性分析2009年1月-2009年12月儿科病房的普通内科、普通外科、康复病区及ICU医院感染的分
柴油机不具备自行起动能力,要使柴油机从停止状态转入到工作状态,必须借助外力驱动曲轴转动,使柴油机气缸完成进气、压缩、喷油,直到气缸内燃油自行发火燃烧,柴油机开始自行
伴随人类对能源需求以及环境保护意识的日益增强,电动汽车以其环保、经济、低噪声、易保养的优点逐渐作为新的交通方式出现在人们的生活中。然而,电动汽车又存在续航里程短、
本文以某轮主机不能正常启动为例,根据该轮主机启动时出现的故障现象,对造成主机启动失败的各种原因进行了检查分析。找出了因调速器伺服助动器调节不当,从而造成主机启动困
翻译理论既是指导翻译实践的标尺与准绳,又是翻译者从事翻译活动必须遵循的原则。人类翻译活动一直都在探寻翻译的理论,纵观翻译的历史长河,以时间为轴,从唐贾公彦、宋僧法云
2000年 4月修订的《大气污染防治法》引起了环境管理思想的变革,包括:大气污染防治范围的改变,即从全面防治变为重点防治;大气污染控制方式的改变,即从浓度控制变为总量控制;大气污
结核分枝杆菌(MTB)是结核病的致病菌,目前结核杆菌的致病机制及机体对其的免疫反应尚未完全阐明。Toll样受体是表达在哺乳动物细胞表面的一类重要的模式识别受体,能特异地识别病
针对高校工科校内实验平台建设与行业企业的工业化生产现状脱节等问题,提出建设产学研协同驱动的工业级校内实验平台方案,主要包括:携手企业工程师及企业搭建工业级实验平台,