面向医疗领域的中文命名实体识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xpzcz1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近几年文本数据量的爆炸式增长、大规模知识库的建立和普及,命名实体识别研究已经逐渐成为自然语言处理领域的一大研究热点。然而,传统的基于有监督学习的方法,需要大规模的标注语料。在标注语料稀缺的医疗领域,传统的命名实体识别方法并不能够达到理想的效果。随着深度学习的火热发展和普及,循环神经网络(RNN,Recurrent Ne ural Network),尤其是长短期存储单元LSTM(Long-Short Term Memory)被广泛应用于自然语言处理领域,并在多个研究方向上取得显著高于传统方法的成绩。因此,我们首先利用LSTM模型进行医疗领域的命名实体识别的研究,并证明其无论是在研究效果评价还是实际应用层面,都能够达到比传统的条件随机场模型(CRF,Conditional Random Fields)更好的效果。由于医疗领域的规范的标注语料相对稀少,我们在LSTM模型已经取得比CRF模型更好的效果的基础上,还希望它能够通过融合外部信息,同时学习到新闻领域的语言学特征和医疗领域的无监督语义信息,达到更好的效果。我们利用了深度学习中迁移学习和预训练的相关知识,对医疗领域的模型进行了参数融合和模型调优,使得模型的效果进一步提升。最后,由于LSTM模型在实际应用中的缺陷,我们希望能够利用另一种方法进行领域自适应的命名实体识别。为了找寻不同知识域的领域差异,我们进行了多组混合不同领域语料的对比实验进行分析和探究。并通过GB DT模型集成领域差异和无监督的医疗领域的语义向量进行命名实体识别的研究,取得了较好的研究效果。
其他文献
抵抗素(resistin)是脂肪细胞分泌的一种多肽类信号因子,有拮抗胰岛素的作用,在肥胖导致的胰岛素抵抗中发挥作用,被认为是联系肥胖和2型糖尿病的介质.多囊卵巢综合征(PCOS)患
在高压灭菌炉旁,工人们正在紧张有序地装平菇菌料袋,大棚内工人们正熟练地摆放从灭菌炉里高温杀菌的菌袋。这是笔者2013年4月1日,在太白县店子上生态田园农业示范园设施蔬菜种植区看到的场面。据了解,该示范园的建成,标志着太白县生态田园农业将再添新宠。  近年来,太白县充分利用独特的气候、生态资源优势,精心打造“太白蔬菜甲天下”品牌,先后建成了现代农业示范园、绿色蔬菜科技示范园、有机蔬菜示范园等蔬菜产业
<正>设计思路始终贯穿了"日常性"与"仪式性"二元关系的转换与平衡:日常性转换为仪式性,而仪式性又回归日常大地之中。将仪式性空间蝶变和衍生出一种更具地方性认同感的建筑语
目的:评价异种脱细胞真皮基质联合珊瑚羟基磷灰石在引导骨组织再生术中的应用效果。方法:17例共27颗牙缺失患者作为研究对象,其中10颗上前牙牙槽骨宽度约4mm的延期种植先行骨挤
本文研究了不同类型、不同粘(稠)度的润滑油脂对向心球轴承振动和噪声的影响,初步得出了润滑油脂的减振作用的一些规律。
辅导员是高等学校教师队伍和管理队伍的重要组成部分,具有教师和干部的双重身份。为丰富辅导员工作的专业内涵,指明辅导员职业路径的发展方向,切实提高专业素养和职业能力,艺
体外受精(IVF)的成功有赖于治疗环节中许多因素,其中包括胚胎的质量和子宫内膜的容受性。对胚胎质量与IVF的关系进行了广泛的研究,建立了一个统一的诊断标准;而对子宫内膜容受性