基于深度学习的医疗文本信息抽取

来源 :杭州师范大学 | 被引量 : 7次 | 上传用户：zhouj1790

【摘要】

：

【作者】

：

涂文博

【出处】

：

杭州师范大学

【发表日期】

：

2019年01期

【关键词】

：

自然语言处理短文本分类中文分词命名实体识别实体属性抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

医疗文本的信息抽取是医疗领域自然语言处理研究中重要的一环。其目的是从电子化的医疗文本中,挖掘有价值的信息,并进行提取和分析,以帮助医生或患者分析病情,实现医疗智能化。随着人民的生活水平提高,对身体健康的关注日益加强,发展医疗信息化、将大量的医疗文本通过自然语言处理技术转化为医疗知识是一份十分重要的工作。然而,如何对中文文本使用自然语言处理技术进行信息抽取,具有以下几个问题:(一)由于中文的汉字和词语都具有语义,这不同于英文等以单词为最小语言单位的语言,在中文自然语言处理时,不同场景下,对中文的表征有不同需求,有的场景需要用字作为基本单位,有的场景需要以词语作为基本单位。因此,在文本信息抽取任务中,需要一个鲁棒性好,适应性强的中文分词算法。(二)在医疗文本中,包含了如“疾病名称”、“发病部位”、“症状”、“药品名称”和“治疗手段”等大量有价值的信息,这是医疗文本信息抽取的主要内容。由于医疗文本多为描述复杂的非结构化自由文本,且具有很多专业领域的描述方式,如何准确的提取上述信息,是医疗文本信息抽取的难点和关键点。(三)仅仅识别医疗文本中的实体,还不足以满足医疗文本信息抽取这一需求。实体的属性也具有重要的意义,如肿瘤的发病部位、肿瘤扩散后的转移部位和肿瘤的大小等信息,如若能在肿瘤患者的电子病历中提取出类似信息,将对医生的诊断和电子病历的智能化处理带来极大的帮助。针对以上问题,本文主要工作分为以下三点:(一)考虑到现有的分词算法并不能很好的适应不同领域的文本,本文在卷积神经网络的基础上,提出一种无池化的卷积神经网络分词模型PCNN。该模型可以高效地在训练中学习字向量维度之间的特征关联信息,准确地标识出单字的标签类别,从而完成分词任务。并且,模型在医疗文本的分词任务上表现优秀。(二)本文以电子病历作为命名实体识别的目标数据,结合电子病历的特点,提出级联Bi LSTM+CRF模型来进行电子病历的命名实体识别工作。本文认为,在中文语境下,汉字的笔画和拼音同样具有语义信息,故设计模型将汉字的笔画和拼音序列分别经过Bi LSTM网络提取特征,之后将输出的笔画特征和拼音特征结合汉字字向量,传入另一个Bi LSTM模型,组合成级联Bi LSTM得到文本序列的特征表示,最后由CRF标注序列,进而提取出医疗实体。经过实验表明,本文提出的级联Bi LSTM+CRF医疗实体识别模型在公开数据集上表现优秀。(三)实体及其属性是文本数据中非常有价值的语义单元,是文本信息抽取的主要工作,从非结构化的文本中对实体及实体属性进行抽取,是知识挖掘、智能检索、智能问答和知识图谱构建等任务的基础。在前文提出医疗实体识别模型识别医疗实体之后,本文提出短文本分类模型,结合前文提出的分词模型和医疗实体识别模型,使用实体上下文文本分类的方法提取肿瘤患者的电子病例中的实体属性,其中实体上下文的切分使用分词模型的结果作为切分标准。医疗实体属性抽取,作为命名实体识别研究的延续,以提取肿瘤患者的电子病历中的发病部位和肿瘤扩散的转移部位这两个肿瘤属性为目标,提出新的模型,并设置实验验证了模型性能表现。

其他文献

论行政委托在跨界污染治理中政府合作的引入

从行政委托的目的和条件来看，行政机关、公私组织或个人都可以成为受委托主体。基于此种认识以及行政委托与跨界污染治理中政府合作在内容、依据和实践上所表现出的耦合，有必要

期刊

行政委托跨界污染治理政府合作引入

教育研究的跨学科取向

期刊

整合研究分支学科学科方法学科取向科际整合研究取向科学整合

中石油吉林市销售分公司客户关系项目化管理研究

随着市场经济和信息化的发展,全球经济不断向一体化、数字化、国际化等方向发展,如何使企业在全球经济一体化过程中脱颖而出,抢占更多的市场份额与获得更加稳定的客户资源已

学位

客户关系管理项目化管理吉林市销售分公司

基于DSP技术的直流无刷电机控制系统的研究

直流无刷电机是功率半导体和永磁材料一体化的新型电机，它既具有直流电机优良的调速性能，又具有交流电机结构简单、易于控制、运行效率高、运行可靠、维护方便等一系列优点。目

学位

直流无刷电机(BLDC)DSP控制仿真软件设计硬件设计

太阳光线自动跟踪装置

人类正面临着石油和煤炭等矿物燃料枯竭的严重威胁，这些矿物燃料是一次性不可再生资源，储量有限，而且燃烧时产生大量的二氧化碳，造成地球气温升高，生态环境恶化。太阳能作为一种新

学位

太阳光线跟踪图像传感器数字信号处理器

网络环境下的中职政治课程教学策略

中职教育主要注重的是实用性,也就是所谓的"职业性",学校会根据市场的需求,对学生进行各方面的教育,让学生提高动手实践能力。作为中职课程重要组成部分的政治课程教学,其与

期刊

网络技术政治教学中职教育优势

从“筋喜柔而恶刚”角度论《推拿学》中“法贵柔和”的原则

推拿手法操作的优劣直接关乎治疗的效果,成人推拿手法要求遵循持久、有力、均匀、柔和、深透等5个原则,其中柔和尤其重要,文章从筋喜柔而恶刚的角度,结合儒家"以和为贵"、道

期刊

推拿学柔和教学

基于声发射技术的海洋平台材料疲劳损伤检测

海洋平台的疲劳损伤问题亟待解决,通过搭建海洋平台材料弯曲疲劳损伤试验平台,以声发射参数分析和小波分析作为分析手段,对海洋平台材料弯曲疲劳损伤过程进行了分析,得到了海

期刊

声发射疲劳海洋平台小波分析

角膜屈光手术后人工晶体屈光度的计算及效果分析

<正>目的探讨角膜屈光术后白内障患者人工晶体屈光度计算的精度及相应公式。方法回顾性临床研究,收集10例(15眼)角膜屈光手术后于2018年1月至2018年10月在上海和平眼科医院接

会议

浅谈艺术歌曲《桥》的歌曲特点与演唱体会

艺术歌曲《桥》是当今中国著名作曲家陆在易先生创作于1981年的作品,这首歌曲描写了游子对祖国、家乡的热爱和眷恋之情,深受海内外同胞的喜爱。本文通过对《桥》的简单分析和

期刊

艺术歌曲风格演唱体会

基于深度学习的医疗文本信息抽取

其他学术论文