基于改进序列标注模型的医学文本命名实体识别

来源 :厦门大学 | 被引量 : 0次 | 上传用户:yigeyige
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着神经网络模型的发展,神经网络与传统序列标注模型的组合逐渐替代了传统的基于隐马尔科夫或条件随机场的序列标注模型,成为命名实体识别领域的主流方向。医学文本来自于医学专业书籍,是构建医学知识图谱的重要资料。而医学文本命名实体识别对医学知识图谱的构建起着重要的作用,基于此背景,本文针对医学领域的文本的命名实体识别展开研究。首先,本文构建了多粒度文本特征融合的医学文本命名实体识别模型。因为多粒度文本特征可以解决未登录词问题并丰富词语的表征,所以,本文以结合BiLSTM(Bi-directional Long Short-Term Memory)和 CRF(Conditional Random Field)的命名实体识别模型为基础,融合字符、亚词、词级别的特征,并分别比较了上下文无关的GloVe(Global Vectors)词向量和上下文相关的BERT(Bidirectional Encoder Representation from Transformers)词向量在命名实体识别上的效果。实验表明上下文相关的词向量和多粒度文本特征融合可以提升命名实体识别的效果。其次,针对长序列建模问题,本文构建了基于多头注意力机制的医学文本命名实体识别模型。由于LSTM(Long Short-Term Memory)在建模长序列时容易丢失序列内容的长期依赖关系,所以本文使用基于多头注意力机制的Transformer编码器结构替代BiLSTM进行序列建模。实验表明Transformer编码器结构可以提升命名实体识别的效果。最后,本文研究了在添加额外信息的条件下的医学文本命名实体识别问题。本研究在原始的命名实体识别问题的基础上,结合医学领域文本的特点,分别添加疾病名称和实体类型这两种额外信息,最终将问题转化为文本阅读理解问题,并构建基于问答系统的医学文本命名实体识别模型。实验表明,添加额外信息可以提升命名实体识别的效果,且实体类型信息的加入方案对命名实体识别的效果提升最大。
其他文献
如今,全民健身运动的倡导、民众健康意识的增强,与高校校园规划中体育区的设计被忽视、学生身体素质下降的矛盾愈发鲜明,不利于提高师生锻炼积极性、构建高校休闲交往活力空间。而近年来,景观都市主义理论悄然兴起,引入该理论来指导高校体育区的设计,有助于从新的视角来完善高校体育区设计策略的构建,改善其固有设计诟病。全文共分为五个部分,六个章节。第一部分为第一章,对本文的研究背景进行了阐述,界定了相关概念,并概
冶金等工业过程会产生大量对人和环境具有极大危害的NO2。人们长时间暴露在NO2环境中会患呼吸窘迫症甚至昏厥,另外,NO2的排放也会带来酸雨等环境问题。由于二维材料优异的电学性能,其在NO2检测中被广泛研究。而材料的选择性并非绝对,其他与基底有微弱作用的气体也会使体系产生电信号,从而影响检测结果的准确度。利用基底吸附气体前后光学性能的变化来区分气体种类是一种提高传感精度的有效手段。WSe2(二硒化钨
在离散高端装备制造业中,如大型船舶、航天飞机、高端数控机床、工业机器人、轨道交通装备等,都属于复杂产品制造。复杂产品代表了装备制造业的技术制高点,是促进我国装备制造业智能转型升级的重要途径,也是国家国防、工业产业和国民经济的重要支柱,更是提升国家综合国力和国际竞争力的重要保障。复杂产品的装配环节与产品的可靠性和稳定性有着密切关系,是重要的质量控制环节;并且复杂产品以定点及手工装配作业模式为主,导致
高级辅助驾驶系统(Advanced Driving Assistance System,ADAS)是典型的智能物联网(Artificial Intelligence Internet of Things,AIo T)应用,目标检测是其中重要的感知任务之一。受限于硬件资源,ADAS中基于AI的目标检测方法在车载系统中较难落地。第五代精简指令集(Reduced Instruction Set Comp
随着市场对汽车轻量化的需求日趋旺盛,第三代先进高强钢(AHSS)的开发和研究越来越受到重视,淬火配分(Quenching and Partitioning,Q&P)钢是最有应用前景之一的第三代先进高强钢。针对汽车用钢面临的复杂加工工艺,本文选用QP980轧制板材研究加工过程对材料组织以及力学性能的影响。利用扫描电子显微镜(SEM)、X射线衍射仪(XRD)以及电子背散射衍射(EBSD)等先进表征设备
在5G的时代背景下,在新一轮人工智能浪潮中,中国科学家开始展现人工智能领域的研发能力,占据了全球人工智能科研领域的一席之地。本文在5G大时代背景下,选择了一家在人工智能领域已经取得一定成绩的科技公司,研究开发科技公司技术员工胜任力模型,通过开发出适合科技公司的胜任力模型,发挥员工的潜在价值,助力科技公司的持久健康发展。本文采用了文献研究法和专题分析法相结合的研究方法,首先,从国内外对胜任力的研究现
当前,国内的量化投资市场正处于稳健的发展阶段,并且机器学习技术也在各个领域的运用上取得了相当大的成就,利用机器学习来进行量化交易逐渐成为了跨学科研究中的热点,这将使得量化投资已不再是早期简单的结合技术分析来构建投资组合策略,而是使用相关的算法进行证券池中的证券选取、证券价格变化预测、证券指数变化预测,通过模型的预测结果给予投资者在制定投资组合上一定的参考。本文主要利用循环神经网络建立了五个模型,对
目前,在以Docker为代表的容器化技术加持下,基于容器化技术的大规模应用的开发和部署已经成为主流。而Kubernetes在容器编排领域也成为了事实上的行业标准。然而,现有的Kubernetes自动伸缩策略中,存在一定不足:其HPA操作仅支持通过静态检测阈值触发的方式,且无法动态调整冷静期窗口以兼顾副本抖动抑制和自动伸缩灵活性;HPA和VPA不支持混用,无法在使用HPA的集群中进行Pod部署资源值
随着中国咖啡市场的日益发展,人们对于咖啡饮品的态度更加包容,需求也在逐年攀升。作为拥有悠久茶文化的国家,消费者正在慢慢改变消费习惯,逐渐接纳来自西方的提神饮品。以星巴克为代表的连锁咖啡品牌正在领导这个市场的消费趋势。而以Manner咖啡、瑞幸咖啡为代表的本土咖啡连锁品牌,正在打破这个行业的既有规则。通过不断创新和品牌联名,加速品牌成长,与星巴克分庭抗礼。T公司作为后来者,正面临最激励的竞争环境。T
伴随着经济的进一步发展,票据业务同样呈现出蓬勃发展之势,然而当下仍旧有很多票据诈骗事件出现。中国当下正在进行深入化的改革,N银行和相关银行均有关于汇票交易背景方面的了解度不高、相关审查不够严格、填写规范性不高等问题出现,由此便导致整个票据业务的秩序变得更加混乱,同时可展现出的是N银行当下在票据业务方面的整体风险在提升。以最大程度上辅助N银行的商业票汇业务发展为目的,即需对其予以总体上的把控。本文研