基于多粒度特征的中文电子病历实体识别问题的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:JAVA_Star
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着采用电子病历系统的医疗机构增多,电子化的医疗信息迅速增长,健康医疗步入大数据时代。电子病历作为健康医疗的核心数据,包含了大量的患者病程和疾病诊疗相关的信息,其中也包含了丰富的医疗知识。如果能够利用传统机器学习和深度学习等人工智能技术自动的挖掘电子病历中的知识并加以分析,不仅可以对疾病进行早期的预测和干预,还可以通过挖掘疾病在每个诊疗阶段(诊断、检查、治疗等)的关联关系来识别疾病完整的诊疗路径,用于诊疗方案推荐和医疗费用评估等,而高精度的识别电子病历中的实体是实现这些任务的基础。由于医疗术语的模糊性和不一致性为医疗领域的实体识别方法带来了巨大的挑战。本研究以中文慢阻肺电子病历为研究对象,针对现有命名实体识别方法的不足展开以下研究工作。主要研究内容如下。1.由于医疗实体通常是由多个词组成的,通过实体中词的含义可以辅助推断出实体的含义。因此,根据包含相同含义的词,其所在的不同实体的含义可能也是相似的假设,本文提出了一种基于词语相似度的中文命名实体识别方法。通过相似度计算来找出具有相同含义的词,并利用注意力机制将词和与该词含义最接近的词融合起来作为模型的输入,采用Bi LST+CRF模型预测实体的类别标签。通过实验对比,本方法可以有效的提高命名实体识别的性能。2.针对中文含有相同字符但字符位置不同的两个词通常具有不同含义的特点,本文提出了一种基于字符权重的中文命名实体识别方法。首先采用Bi LSTM模型分别获得词和字符特征,其次利用注意力机制将引入字符权重信息的字符向量和词向量进行融合,最后采用CRF模型来判断实体的标签类别。经实验验证,与经典的Bi LSTM+CRF方法相比,本方法在准确率、精确率、召回率和F1等四个指标上的表现均有提高。3.针对传统方法主要考虑词向量,造成语义区分能力差的问题,本方法将字和字符位置特征加入进来,提出一种基于多粒度特征融合的中文命名实体识别方法。本方法首先学习融合同义词后的词语表征,其次学习加入了字符位置权重的字符表征,最后将融合后的特征作为Bi LSTM+CRF模型的输入预测实体的标签序列。通过实验对比,本方法在准确率、精确率、召回率和F1等四个指标上均获得了最优的结果。
其他文献
随着PPP模式在国内的广泛推广应用,对于PPP模式公路项目的投融资结构、风险管理研究与探索是当前PPP模式研究的重点。本文通过对新疆公路项目的投融资结构、投融资计划、风险管理进行研究,从而助力我国公路项目PPP模式的发展。本文通过文献研究法对近20年以来国内外PPP研究成果进行收集和整理,学习PPP基础理论,搭建研究基础;使用案例研究法,结合新疆三条公路项目包的实际案例,探讨项目投融资结构设计、投
我国医疗保险实行政府直接管理并提供服务的单一付费人机制,同时也是特定的以公立医疗机构主的医疗服务供给体制。这种制度安排下,定点医疗机构的违规问题特别是欺诈骗保行为,对医保基金安全带来严重威胁,成为当前医保监管工作的重大难题。因此,医保监管部门应当如何发挥价值导向,有效遏制定点医疗机构过度逐利的扭曲行为,规范医疗保险活动的秩序,探索全方位且多层次的医保长效监管机制是本文重要研究方向。本文采用案例分析
电液伺服被动力加载系统是一种典型的位置扰动型力控系统。由于在被动力加载系统中存在外界位移的强干扰作用,加载系统中会产生较大的多余力,多余力的引入将会严重影响系统的
随着我国迈入社会主义新时代的步伐,人民对美好生活的需要也不断增强。社区作为城市居民生产、生活的重要空间,既是居民获得归属感与幸福感的坚实基础,也是实现我国基层社会治理目标的重要阵地。自党的十八届三中全提出要不断推进我国国家治理体系和治理能力现代化建设目标以来,推动社会治理重心下移、提升城市社区治理能力日益成为了研究热点。尤其是在理论与实践的双重助推下,改变过去传统的单一政府主导模式,形成社区基层党
基于视觉的目标跟踪是计算机视觉以及视频安防监控等领域的重要研究方向。本文针对核相关滤波跟踪算法的性能改进展开研究,提出了自适应模型更新因子以及子区域融合跟踪算法,
本文以九寨沟县漳扎镇新九宾边坡为研究对象,通过工程地质资料的收集、野外调查分析和相关力学试验,分析新九宾边坡危岩体结构特征,得出边坡有两种危岩破坏模式。通过对边坡危岩体的分布和发育特征的分析研究,运用赤平投影法和Rocfall数值分析的方法分别对危岩体的稳定性和对危岩落石影响范围和影响程度进行分析,并提出了相应的预防治理建议。本文主要有以下几个方面的结论:(1)研究对象危岩体所在边坡位于九寨沟县漳
随着经济的发展,税收这块“蛋糕”越做越大,但与之而来的是经济的增长与贫富差距的扩大。个人所得税是重要的调节工具,能起到增加组织收入和调节收入分配的作用,而个人所得税征管的重点和难点始终是高收入群体个人所得税的征管。根据二八原则,税务机关只有管理好了20%的高收入群体的个人所得税,个人所得税“调节阀”的作用才能得到真正的发挥。本文从S市近几年对高收入群体的个人所得税征管实践入手,通过案例分析法和观察
本研究以网络舆论圈层作为研究对象,并选取“长生疫苗事件”作为典型个案,从差异性议题生成的角度、“内聚信息、层级互动”的动态生成逻辑两方面入手,来探究公共卫生事件中网络舆论圈层生成的机制。最终目的是为了寻找到公共卫生事件中网络舆论圈层生成的运行机制,以及圈层生成带来的风险性影响,并尝试对未来的网络舆论治理工作提供发现问题的思路。研究发现,一方面,信息失序的网络空间内出现了一种舆论力量作用下的“秩序”
雷达调制方式识别是雷达研究领域的重要分支,在雷达领域具有至关重要的地位。针对当前雷达的调制方式识别率和特征提取的难点,提出了一种基于双时频分析和深度神经网络的雷达智能识别算法,并进行神经网络搜索寻找最优性能,最后进行系统搭建,进行在线雷达调制方式识别。本课题主要针对识别算法和系统搭建进行研究,对于识别算法,针对雷达信号采用了Choi-Williams(CWD)时频分析和平滑伪Wigner-Vill