基于在线问诊记录的医疗命名实体识别研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:baby3911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网医疗的深入发展,在线问诊作为一种快捷有效的新型医疗应用,已经逐渐成为人们获取优良医疗服务的重要手段。在线问诊记录中记录着大量的患者个人健康信息和医生给出的诊断与治疗建议,其存在的主要形式为文本。通过对在线问诊记录进行信息抽取,可以从中获得大量实时的临床医疗数据,为疾病跟踪、医学研究、个性化医疗服务等医学应用提供坚实的数据支持。由于在线问诊记录主要以非结构化文本的形式存储,命名实体识别将成为对在线问诊记录进行知识抽取的首要工作。针对在线问诊记录文本的特点,本文研究了在线问诊记录的命名实体识别方法。首先,本文利用大规模的无标注语料进行专业词典的建立,待建立的词典包括医学常用词词库和词汇间的语义相似度。针对医学常用词词库,本文提出一个由互信息、边界熵和领域专属度构成的无监督学习方法,该方法利用大规模无标注语料进行医学领域的常用词挖掘,建立适用于医学领域的常用词词库,从而在一定程度上代替专业的医学词典。而为了获得词汇间的语义相似度度量,本文使用word2vec算法在未标注语料上进行词向量的训练,并进一步通过聚类算法按词向量间的距离进行语义类别的划分。在获得以上词典的基础上,本文分别构建了基于条件随机场和深度学习的实体识别模型。本文首先使用条件随机场算法(CRF)进行医疗命名实体的识别。基于语料的特点,开发了一系列针对字、词语、上下文等不同层面的CRF备选特征,并加入了医学常用词词库和语义相似度特征。然后本文构建了基于卷积神经网络、循环神经网络和条件随机场原理的深度学习模型。该模型分为三层,包括提取字特征和词信息的输入层,进行特征学习的特征层和基于条件随机场原理的解码层。最后,论文开展了实验,结果证明深度学习模型比条件随机场模型取得了更好的命名实体识别效果,验证了大规模无标注语料和深度学习框架结合的有效性。
其他文献
电控燃油喷射系统作为柴油机最关键的组成部分,对于优化柴油机燃烧和排放控制起着至关重要的作用。电控高压共轨燃油喷射系统以其柔性可控的喷油时刻,稳定独立的喷射压力成为
创新是科技进步和社会发展的源泉。创新的参与者不仅包括企业内部产品的研发人员,还包括企业外部产品的使用者——用户。用户创新是指用户对产品或服务提出的新设想,用户创新
伴随汽车工业的发展,车辆的智能化已逐渐成为各大公司与研究机构的研究热点。目前智能车辆的研究主要涉及环境感知、轨迹规划与决策以及轨迹跟踪控制三个重点问题。作为自动
随着互联网行业迅速发展,企业之间人才竞争愈演愈烈,互联网的人才面临很多外部的选择。互联网的人才组成中,绝大部分都是年轻人,以90后居多,90后的年轻人喜欢新鲜,追求高薪。
面对资源约束的日益强化,世界各国都在采取相应的节能措施来应对能源消耗的不断增长,能源效率的提高被认为是降低能耗的重要举措之一。但是,近些年来研究学者纷纷对这一措施
螺纹连接结构能获得较大预紧力,具有易于拆装、造价低、互换性强、可大批量生产等优点,在各类机械产品中得到了广泛的应用。在复杂的服役条件下,螺纹连接件很容易受到振动、
自1978年实行改革开放以来,中国出口贸易取得了快速发展。1978—2016年,中国出口贸易总额从97.5亿美元增长至20194亿美元,年均增长15.07%。从贸易结构看,光电设备制造业自199
2009年1月,我国通过开展“十城千辆”工程开始全面推广新能源汽车。2010年,国务院将新能源汽车产业正式确定为我国七大战略性新兴产业之一。作为全球汽车产销量大国,近年来我
目的:1.体外研究明确左归丸促小鼠BMSCs增殖和成骨分化的作用并探讨Foxj1调控BMP/Smad信号通路在左归丸促进BMSCs成骨分化的作用机制;2.体内研究探讨Foxj1调控BMP/Smad通路在
创新是中国未来转变发展方式的新动能和主要推动力,创新事业的发展需要创新的人才,股权激励作为人才发展战略的重要手段正在被越来越多的企业采用。在以往的研究中,国内外学