基于半监督多特征模型的中文医疗文本命名实体识别方法研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:vlon126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文医疗文本记录中涵盖的命名实体包含着大量与患者健康密切相关的医疗信息,快速准确的识别出中文医疗文本数据中的医疗命名实体,是推动医疗智能化发展的关键问题。但中文医疗文本记录中包含患者的个人信息,因此公开的中文医疗文本数据很少,并且带有标注信息中文医疗文本数据较少,严重阻碍了中文医疗命名实体识别的发展。随着命名实体识别技术的发展,使用深度学习的方式进行命名实体识别任务已成为研究人员关注的焦点。BiLSTM(Bi-directional Long Short-Term Memory,BiLSTM)模型利用提取到的文本数据中的上下文特征,达到了识别命名实体的目的。但BiLSTM提取到的文本特征单一,而且模型的训练速度慢,本文针对“特征提取单一,训练速度慢”的问题,提出使用 BiLSTM 和 IDCNN(Iterated Dilated Convolution Neural Networks,IDCNN)混合模型,并行提取文本的上下文特征和实体的周边特征来实现中文医疗文本数据中的命名实体识别,缩短模型的训练时间,提高模型的识别效果。在识别过程中,本文还针对“出现无效标签”的问题,在混合模型的基础上加入CRF(Conditional Random Field,CRF),学习标签间的约束规则,降低识别结果中无效标签出现的概率。另外,针对“带标注信息医疗文本有限”的问题,本文使用半监督学习的方式,结合带标注信息和不带标注信息的医疗文本数据对多特征模型进行训练。通过实验论证半监督多特征模型命名实体识别方法的可行性和有效性。本文中还使用3个公开数据集的通用新闻语料,结合有监督和半监督学习方式对多特征模型进行训练,实验结果验证了本文所提方法的合理性和通用性。本文提出的多特征模型,实现了加速模型训练,提高命名实体识别效果的目的,而且使用半监督学习,降低了标注文本数据的资源消耗,对于标注数据较少的领域进行命名实体识别任务,具有重要的科学意义和使用价值。
其他文献
利用1981-2010年30 a气温资料,分析了30 a全国2089个站点极端最低气温分布特征,不同日最低气温阈值的平均日数分布特征。以地方标准《寒冷天气等级》中的分项评估指标计算方
目的:探讨利凡诺纱条配合红霉素软膏治疗剖宫产术后切口感染的临床疗效。方法:对30例剖宫产术后切口感染患者给予利凡诺纱条配合红霉素软膏换药治疗进行分析。结果:用利凡诺纱条
农业的发展受到气象条件的影响较为严重。随着近些年来全球性的环境变化,各种气象灾害的发生频率和严重程度不断上升,为农业的发展造成极大的阻碍。气象灾害发生之后会导致农
丝瓜(Luffa cylindrical L.)为一年生攀缘性草本植物,是一种重要的经济作物,营养价值高,备受消费者喜爱[1]。随着人们消费习惯的改变及我国设施蔬菜产业的迅猛发展,丝瓜种植
英语阅读作为英语语言四大功能之一,在中职英语教学中是一个重要的教学内容。本文以中职学生英语阅读教学为研究对象,详细阐述了中职学生英语阅读教学现状,从而提出了较为有针对
目的为促进免疫规划工作的发展,对儿童免疫接种多媒体管理系统在我市推广使用的试点工作进行可行性评价。方法组织专业人员,进行统一培训后采用现场调查的方法进行评估。结果提
素质教育下大力倡导对学生质疑能力的培养,对 于初中数学教学也同样如此。本文对初中数学教学中学生质 疑能力的培养提出了自己的一些看法,旨在帮助初中生更好地 思考、更好
据统计,因病害引起的作物产量损失平均在12%以上,病害发生不仅影响产量,还使产品质量下降。利用计算机视觉技术对作物病害快捷检测、准确诊断,为病害防治提供科学依据是实现农业信息化发展的迫切需求。文章对计算机视觉技术用于作物病害诊断进行了详细分析和研究,以求获得这些新技术在作物病害诊断各环节的现状,指出了计算机视觉技术诊断作物病害存在的不足和研究方向。该研究对农作物病害智能检测技术的发展将起到重要的推
【正】 《中共中央。关于一九八四年农村工作的通知》规定:“鼓励土地逐步向种田能手集中,社员在承包期内,因无力耕种或转营他业而要求不包或少包土地的,可以将土地交给集体
在医疗体系中使用临床路径管理能够提高医院医疗资源流转水平,增加对具体疾病的有效治疗模式的探讨,对于规范化医疗行为,减少医院内部成本支出,实现现代医疗体系的全面发展具