【摘 要】
:
电子病历可以看作是病人在进入医院到离开医院期间的记录信息,包括所患疾病的原因、疾病的治疗方法以及对于疾病的药物治疗与疾病的检查手段等等。这些信息不但有利于患者健康的恢复,而且为以后的医疗留下了宝贵的信息。电子病历一般有图像信息与文字信息两种,其中以文字信息居多。医院记录的电子病历文字信息绝大多数是非结构化的信息,这些信息对科研与临床都有着重要的意义,然而这些信息并不容易被信息抽取。文本信息抽取最基
论文部分内容阅读
电子病历可以看作是病人在进入医院到离开医院期间的记录信息,包括所患疾病的原因、疾病的治疗方法以及对于疾病的药物治疗与疾病的检查手段等等。这些信息不但有利于患者健康的恢复,而且为以后的医疗留下了宝贵的信息。电子病历一般有图像信息与文字信息两种,其中以文字信息居多。医院记录的电子病历文字信息绝大多数是非结构化的信息,这些信息对科研与临床都有着重要的意义,然而这些信息并不容易被信息抽取。文本信息抽取最基础和最关键的环节是命名实体识别。目前,命名实体识别在通用领域发展相对成熟,但在医疗领域却效果不佳。因此,为解决电子病历文本信息无法结构化输出的问题,本文将命名实体识别技术融入电子病历中,使得电子病历文本信息可以结构化输出。最后本文工作内容分为以下几点:1)采用嵌入维特比算法改进基于统计的中文分词方法。在基于统计中文分词方法的基础上载入收集与整理的专属中文电子病历词典,使在对中文电子病历分词时,不会出现对医学专有名词的错分与漏分。并且在统计计算最优分词序列时,嵌入维特比算法,使分词的每一步都是最优分词路径,减少计算量,为后续的研究工作与数据标注节省时间。2)数据的清洗和改进标注方法。对中文电子病历文本内容进行筛选与数据清洗时,把无效的文本数据内容进行剔除。中文分词后通过BIO标注法标注了中文电子病历文本内容,并在标注完成后通过python语言编写函数,使得标注由BIO转为BIOES。同时通过对现有的病历文本数据和在网络上查找相关医学词汇整理出中文电子病历专属词典。3)设计中文电子病历命名实体识别算法。算法的第一部分是卷积神经网络,将数据通过卷积神经网络中的卷积操作进行特征提取,特征提取完毕后将输入到算法的第二部分双向长短记忆神经网络,通过双向长短记忆网络进行上下文特征的提取。最后输入到算法的第三部分条件随机场进行实体识别。4)基于Inception结构与Resnet结构对卷积神经网络进行改进。改进后的卷积神经网络的网络结构采用并联串联的方式进行神经网络学习、特征提取。这样的网络结构在相同的卷积效果下不仅参数数量减少,而且网络的计算量也相应的减少。5)研究BERT语言模型生成字向量。用语言模型预训练生成字向量来拼接卷积神经网络卷积后的向量,字向量的使用丰富了文本每个字的语义、位置等特征,在深度学习模型训练的过程中可以使模型更好更快的收敛,以达到预期效果。
其他文献
无人机光电目标探测与跟踪系统在执行任务过程中,易受到载体姿态变化和平台自身扰动的影响,导致视轴抖动,成像模糊不清,从而影响光电目标探测系统捕获、瞄准和跟踪目标的精度。因此需要采取有效的控制算法提高系统的视轴稳定性能。本文围绕无人机光电系统视轴稳定控制器设计和控制电路实现方法开展研究。研究主要内容如下:(1)根据光电目标跟踪系统的光学机械结构,建立了系统平台的基座、俯仰框架、方位框架的坐标系,推导了
目的:通过检测原发性闭角型青光眼患者与正常人群血清中补体C3含量,从而验证原发性闭角型青光眼患者血清中补体C3的水平变化与疾病是否具有相关性,以及通过对原发性闭角型青光眼患者进行眼科专科检查,探究原发性闭角型青光眼患者血清中补体C3水平与眼压、视网膜神经纤维层厚度及视野缺损程度是否具有相关性,并探讨血清补体C3水平与原发性闭角型青光眼发病之间的意义。方法:基于我国原发性闭角型青光眼诊断标准,在排除
遥感技术特别是现代传感器采集技术的发展使得遥感影像的辐射、空间、光谱和时间分辨率得到了一定程度的提高,并使得遥感在目标检测,天气预报,火灾检测,军事监视,农业实践评估等领域也发挥了更为重要的作用。遥感数据广阔的覆盖范围和遥感影像分辨率的提高使得多通道传感器采集的数据量难以估量。海量的遥感数据需要充足的带宽用以传输数据、足够的空间用于存储数据以及丰富的计算资源用于处理数据。在现有的实际条件下,这些要
随着经济全球化的迅速发展以及数据传递速度的持续提高,金融市场的波动和投资风险逐渐增大,影响因素也日趋复杂,在复杂多变的股票市场,股市波动是投资者非常关注的因素,波动的大小直接决定着投资者的风险。以新浪微博为代表的交流平台,因其言论相对自由,微博内容能够真实反映博主的情感态度,加上粉丝有跟风行为,从而影响股民情绪,综合股票供求关系和股票价值等市场实际因素对股市产生影响。因此,研究微博情感对股市的影响
近年来城市人口日益增多,行人交通拥堵不仅影响人们的日常出行,而且频繁造成各种行人踩踏事故,对人们的生命财产安全构成了严重的威胁。通过构建合理的行人流模型来探索其宏观行为特征和自组织现象的生成机理,对于提升我国行人交通安全的基础理论及应用水平具有重要意义。本文在现有行人流模型的基础上,通过考虑疏散环境存在不确定疏散信息、多个出口、危险源等情况,分别建立了相应的基于移动收益矩阵的元胞自动机模型,通过数
智能机器人已经运用在当今社会各个方面,在劳动密集型的催收行业也得到初步的使用。智能催收项目分两个系统:催收机器人信息配置系统和智能对话系统,智能对话系统又分为:集成
对于装配式剪力墙,竖向连接是保证其承载能力、延性、耗能能力的重要连接部分,不同的装配式剪力墙竖向连接技术对剪力墙的力学性能也会有不同的影响。为此,本文通过对比现有的竖向连接技术,课题组提出了一种安装简单、施工便捷,且能提供比现浇更好的承载能力与变形能力的装配式剪力墙竖向连接方式。本文提出了两种剪力墙竖向连接方式,即钢扣板式竖向连接和钢管混凝土键竖向连接。钢扣板式竖向连接就是利用L形钢板焊接在带孔钢
一直以来,黄柏的化学成分、药理作用和临床研究受到人们的关注,而造成了忽略了黄柏内表皮的丰硕的黄色素的结果。经查阅大量文献资料,科研人员对黄柏色素的报道不多,把黄柏色素作为天然食品色素的研究更是未见报道。黄柏蕴含天然、量多的黄色素,黄色素是在人们生活中是很重要的一种色素,黄柏色素赋予食品艳丽的色彩,安全无毒,对于食品工业而言,开发一种新的、天然、安全、无毒无害、放心的食品添加剂有着重要的意义。本论文
城市河流系统能够在很大程度上决定城市河流水体和沉积物中污染物的分布、迁移和最终去向。为了研究常见的城市不同河道景观中污染物的分布情况以及这些不同河道景观之间的污染分布差异,我们选取了郑州市区贾鲁河河道内的四种不同的城市河道景观进行研究,这四种河道景观包括城市原始河道景观、城市湿地构建河道景观、城市公园河道景观和城市正常河道景观,采集了在这四种不同的城市河道景观中的水样及沉积物底泥样品,分别对采样点
目的:探讨幽门螺杆菌(Helicobacter pylori,H.pylori)感染通过原癌基因c-JUN引起DKK1表达上调,以及DKK1在胃癌细胞生长和侵袭中的作用及分子机制。方法:(1)用c-JUN shRNA转染胃癌细胞AGS和SGC-7901 48h,加入H.pylori 1004感染细胞6h,收集细胞,提取总蛋白,蛋白免疫印迹(Western blot,WB)检测各组c-JUN和DKK