中医医案文本消歧算法的研究与实现

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:olived0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中医医案是中医医师临床诊疗的最直接证据,记录了患者症状、医师诊断结果等信息。对中医医案中的诊疗信息进行提取、分析和利用对推动中医发展具有重要意义。若要在海量的中医医案中更高效地挖掘出重要的诊疗信息就需要利用自然语言处理技术。中文分词作为自然语言处理技术的关键步骤,分词的效果对中医文本信息处理具有重要的影响。然而中医文本中歧义词的存在严重影响中医文本分词的精度,阻碍中医信息处理技术的发展。为消解中医文本中存在的组合型歧义字段以及提高中医文本分词精度,本文分别构建了中医文本消歧模型和中医文本分词模型,并在来自于山东中医药大学第二附属医院2017年-2019年收集的2万份医案上验证本文所提出的模型的有效性和高效性。本文主要工作如下所示:(1)对中医医案规范化处理并分析中医文本特点。首先剔除中医医案数据集中缺少四诊信息以及文本格式错乱的医案,统一文本格式。然后根据《医疗记录编写基本规则》的要求,纠正中医医案中的错别字,同时对医案中存在的通假字进行修改。其次在保留中医的个性化特色的基础上对中医医案中症状、症候规范化处理。最后结合中医文本的语言与结构特点,分析中医医案的文本特色及用词规律。(2)将双向长短期记忆条件随机场(BI-LSTM-CRF)算法应用于中医文本分词中,构建基于BI-LSTM-CRF中医文本分词模型。首先将获取到的中医医案集规范化处理,提取出中医医案中的四诊信息作为构建分词模型的训练和测试语料。然后使用word2vec方法将实验数据向量化,将文本向量输入进BI-LSTM神经网络,利用包含前向和后向两个方向的LSTM神经网络层自动学习文本特征,对输入的文本向量建模。最后采用CRF层作为模型的输出层生成对应的类别标签序列,得到中医文本的分词结果。(3)提出了融合词性互信息的特征选择方法并建立中医文本消歧模型。首先本文在传统互信息中加入词频因子以消除低频词对互信息值的影响,并将中医文本词性作为上下文特征建立基于词性互信息的特征选择方法。然后利用词频互信息与词性互信息构建互信息向量。最后将互信息向量代入支持向量机中建立中医文本消歧模型。为验证本文设计的中医文本分词模型的性能,本文将中医文本分词方法与其他分词方法进行对比。实验结果表明:采用基于BI-LSTM-CRF中医文本分词方法具有更好的分词性能,分词准确率达到93.25%。为验证本文设计的中医文本消歧模型的性能,本研究从多个角度进行实验。实验结果表明:本文所提出的特征选择方法比其他特征选择方法具有更好的实验效果,且本文消歧模型消歧准确率达到95.13%。在加入本实验消歧模型后,基于BI-LSTM-CRF中医文本分词方法的分词正确率达到94.68%。
其他文献
文章以生态观的设计理念为基础,以时尚首饰为研究内容,提出了时尚首饰生态设计的重要性,从时尚首饰的造型、装饰、功能、材质四个方面分析了生态观在时尚首饰设计中的应用。
采用波动培养及显微培养技术实验研究细菌生长自限、节律及宏大运动的关系。分析了奇异变形杆菌生长节律性及自限产生的环境条件,自限细菌的形态特征及群体细菌宏大运动现象。
目的探究不同临床护理干预模式对老年慢性阻塞性肺疾病(COPD)患者的应用效果,以及对生存质量的改善作用。方法将106例COPD老年患者按照入院先后顺序分为甲乙两组,每组53例,进
本文从信用文化、信息约束、技术操作、法制环境四个方面分析了我国个人信用制度面临的问题与难点,并以此为基础提出了相关的对策与建议.
通过试验探索出巴氏醋杆菌合成醋酸菌纤维素的适宜培养基成分为蛋白胨1.0%,酵母膏0.5%,蔗糖2%,乙醇1%,Na2HPO40.2%,pH6.0;30℃时静置培养6d,醋酸菌纤维素产量可达9.85g/L。
应用昆虫自身释放的用于种内和种间个体传递信息的微量调控物质,来控制害虫繁殖的昆虫信息素,是环境友好型害虫防治技术之一,目前已得到大力推广。昆明博鸿生物科技有限公司(
目前教学软件有两种形式:课件与积件,这两种形式颇具套餐与自助餐的特点.积件与课件既有共性又有不同点,它们是继承与发展的关系,在教学实践中应根据需要,开发和应用适合自己
从多种临床标本中分离并鉴定了200株无芽孢厌氧菌.赛克硝唑(SNZ)、替硝唑(TNZ)和甲硝唑(MNZ)对120株革兰氏阴性厌氧菌的MIC90分别为1~4,1~2和4~8 mg/L,对80株革兰氏阳性厌氧菌的
以经紫外线诱变后获得的氢化可的松转化菌株新月弯孢霉2-150#为出发菌株,经纤维素酶及溶菌酶作用形成原生质体,并对原生质体进行硫酸二乙酯(DES)诱变,然后对大量的再生突变株进行筛选,获得高