基于模型融合的中文电子病历命名实体识别研究与应用

来源 :青岛大学 | 被引量 : 0次 | 上传用户:djy0702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能、物联网等现代信息技术在医疗卫生领域应用,快速推动了智慧医疗的发展。在多样化的医疗信息中,中文电子病历的命名实体识别的准确性与医疗知识图谱的有效性紧密相关。高质量的医疗知识图谱是实现智能临床辅助、智能在线问诊等功能的基础。由于中文电子病历数据具有非结构化、中英文混合、表述多样性、存在口语化表达等特点,导致命名实体识别任务复杂。因此,研究高性能的中文电子病历实体识别算法及其系统应用是一项有意义的课题,它将有助于智慧医疗的发展。本文主要针对中英文混合条件下实体边界的确定及特殊长度实体的识别、语料众包标注这些难点进行了深入研究。论文的主要内容包括:(1)提出了一种四角号码字向量融合特征的命名实体识别算法。相对于部首特征等其他汉字编码方法,四角号码特征具有能充分表示汉字二维结构和编码重码率低的优点。该算法将病历文本每个字符映射为四角号码的独热编码向量,与BERT字向量特征拼接,利用双向长短期记忆网络和条件随机场方法预测命名实体标签。实验结果表明,通过加入汉字的四角号码特征,中文电子病历实体识别正确率有较大提升,在CCKS2019语料上达到87.17%的F1-score值,比部首特征的实体识别算法提高了2.6%。(2)提出了一种基于模型融合的中文电子病历命名实体识别算法。算法将不同结构的多个BERT和XLNET模型通过不同权重集成,进行命名实体识别。BERT模型在不同网络层数时具有不同的语义抽取能力,XLNET模型在超长文本语义抽取方面有优势。实验结果表明,本文提出的多模型融合算法能够降低过短或过长的实体的识别错误率,F1值达到了89.27%,在药物实体和疾病诊断实体的识别性能上有较大提升,比单个模型精度提高了12.96%和7.99%。(3)本文针对电子病历语料收集困难的问题,设计并实现了一个电子病历命名实体识别众包系统。该系统应用本文模型自动识别电子病历中的命名实体,实现了将众包收集病历、模型自动标注与管理员审核等功能。可以有效扩充电子病历语料集规模,提高众包标注命名实体的可靠性。
其他文献
随着当今人类社会与生活水平的不断发展与提高,人们对于能源的需求也普遍增加,由自然界转变而来的化石燃料不断被开采,其含量已面临枯竭,使得全世界都面临着能源短缺这一危机。因此,开发清洁无污染环境友好型的可再生资源成为了人们的寻找目标。储量极为丰富的可再生生物质资源引起了广泛关注,利用清洁无污染的光催化技术可将生物质转化为高附加值物质,这一方法对于缓解环境污染与生物质的非合理利用具有重大意义,并积极响应
学位
生物活性小分子普遍存在于生命体和环境中,如一氧化氮(NO)、多巴胺(DA)和亚硝酸根(NO2-)等。这些小分子物质的性质、浓度与人体健康息息相关,因此高效、灵敏地检测它们是十分必要的。目前报道的相关检测方法有化学发光法、色谱法、分光光度法、电化学法等等。其中,电化学法由于特异性强、操作简易、结果呈现直观等特点得到了更广泛的应用。考虑到纳米酶具有催化效率高、酶活性可调节、价格较低等特点,本文首先制备
学位
<正>数字化畜牧业就是应用摄像头、传感器、智能设备等数字化设施获取养殖场内外实时数据,再通过大数据平台进行人工智能综合分析,对畜牧场的动物防疫、养殖环境、用电用水、饲料安全、污水处理等养殖环节采取动态管理措施,并联动机械设备以帮助养殖场进行现代化生产管理的一种新型养殖技术,它改变了以人的劳动为生产力核心的传统畜牧业。数字畜牧业改变了传统畜牧业效率低下等问题,对整个畜牧生产过程实施可追溯,是实现畜牧
期刊
活性氧(ROS),作为一类功能性小分子物质,能够参与生物体内多种生理生化反应,其浓度变化可以影响许多生命活动,对细胞释放的ROS分子进行实时定量检测在相关疾病的诊断与研究等方面具有重要意义。然而,由于细胞释放的ROS具有寿命短和浓度低等特性,使得对其进行实时定量检测成为巨大挑战。目前,已经研究出多种检测ROS的方法,其中电化学方法由于响应时间短、灵敏度高以及易于小型化等优势,被逐渐用于实时定量检测
学位
随着人类文明的进步和人类活动的增加,越来越多的工业废水和生活污水被排放出来,这极大地破坏了地球的生态平衡,特别是地下水被硝酸盐污染会直接或间接地危害人体健康。针对目前硝酸盐的污染问题,提出一系列的去除方法。其中,电化学硝酸盐还原法具有节能、环保、产品可控等优点。产物氨(NH3)作为一种重要的化工原料,被广泛应用于农业、工业和医药等诸多领域。因此,电化学硝酸盐还原为氨(nitrate reducti
学位
氨基脲又名氨基甲酰肼,广泛存在于甲壳类动物组织中;同时氨基脲是呋喃西林药物在动物体内的代谢产物,属于联氨致癌化合物之一。呋喃西林属于禁用兽药,因此区分虾类水产品中存在的内源性和外源性氨基脲对修订虾类水产品中氨基脲最大残留限量标准十分重要。研究为正确区分日本沼虾中内源性和外源性氨基脲残留提供理论基础,为我国修订虾类水产品中氨基脲最大残留限量标准提供基础参考数据。1.虾类产品中氨基脲存在形态和分布特征
学位
阿尔茨海默症(Alzheimer’s disease,AD)是一种严重威胁老年人健康的神经退行性疾病。其发病机制较为复杂,目前有多种病理假说,包括β淀粉样蛋白(amyloid-protein,Aβ)沉积、神经原纤维缠结、胆碱功能障碍、神经炎症等。针对上述单一靶点的药物开发已研究多年,但目前仍没有有效的治疗方案和特效药物。近年来,越来越多的证据表明“微生物-肠-脑”轴在AD发病机制中的重要作用。肠道
学位
高分辨率、高精度的数模转换器是目前国际上精密计量领域主要研究内容之一。一直以来,性能先进的高精度数模转换器的研制均集中在国外的一些知名企业,例如TI(德州仪器)、Agilent(安捷伦)、Fluke(福禄克)等,国内对高精度数模和模数转换领域研究相对较少,在精密测量领域中所使用的高精度仪器仪表几乎全部依赖进口。因此,自主研发高精密数模转换器具有十分重要的意义。目前,传统的Kelvin-Varley
学位
微生物燃料电池(microbial fuel cell,MFC)作为一种新兴的生物电化学技术,在生物修复、污水处理、清洁电能生产和生物传感器件等方面展现出了巨大的潜力。然而,微生物与电极之间的生物/非生物界面接触不良,胞外电子传递速率缓慢的问题限制了其走向实际应用。目前纳米材料在提高MFC性能方面的研究主要集中在修饰阳极材料上,即通过改善电极的导电性、生物相容性和比表面积来增加阳极生物附着量,提高
学位
近几十年来光通信和传感技术高速发展,光纤传感器由于其传输效率高、结构紧凑、抗干扰能力强等优势脱颖而出,也吸引了诸多科研人员的关注和研究,其在理论研究和日常应用等方面愈加成熟,目前在医疗检测、空间技术、土木工程、智能家居等领域得到普遍应用。各种化学和物理量,如折射率(RI)、磁场、应变、离子浓度、温度等都可通过光纤传感器来检测。当下,在光纤上构建各种新型传感结构,来满足对不同外界条件的测量需求,被广
学位