中医医案文本消歧算法的研究与实现

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：olived0

【摘要】

：

【作者】

：

王冰

【出处】

：

山东师范大学

【发表日期】

：

2020年08期

【关键词】

：

词性互信息支持向量机 BI-LSTM-CRF 中文分词组合型歧义字段中医医案

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中医医案是中医医师临床诊疗的最直接证据,记录了患者症状、医师诊断结果等信息。对中医医案中的诊疗信息进行提取、分析和利用对推动中医发展具有重要意义。若要在海量的中医医案中更高效地挖掘出重要的诊疗信息就需要利用自然语言处理技术。中文分词作为自然语言处理技术的关键步骤,分词的效果对中医文本信息处理具有重要的影响。然而中医文本中歧义词的存在严重影响中医文本分词的精度,阻碍中医信息处理技术的发展。为消解中医文本中存在的组合型歧义字段以及提高中医文本分词精度,本文分别构建了中医文本消歧模型和中医文本分词模型,并在来自于山东中医药大学第二附属医院2017年-2019年收集的2万份医案上验证本文所提出的模型的有效性和高效性。本文主要工作如下所示:(1)对中医医案规范化处理并分析中医文本特点。首先剔除中医医案数据集中缺少四诊信息以及文本格式错乱的医案,统一文本格式。然后根据《医疗记录编写基本规则》的要求,纠正中医医案中的错别字,同时对医案中存在的通假字进行修改。其次在保留中医的个性化特色的基础上对中医医案中症状、症候规范化处理。最后结合中医文本的语言与结构特点,分析中医医案的文本特色及用词规律。(2)将双向长短期记忆条件随机场(BI-LSTM-CRF)算法应用于中医文本分词中,构建基于BI-LSTM-CRF中医文本分词模型。首先将获取到的中医医案集规范化处理,提取出中医医案中的四诊信息作为构建分词模型的训练和测试语料。然后使用word2vec方法将实验数据向量化,将文本向量输入进BI-LSTM神经网络,利用包含前向和后向两个方向的LSTM神经网络层自动学习文本特征,对输入的文本向量建模。最后采用CRF层作为模型的输出层生成对应的类别标签序列,得到中医文本的分词结果。(3)提出了融合词性互信息的特征选择方法并建立中医文本消歧模型。首先本文在传统互信息中加入词频因子以消除低频词对互信息值的影响,并将中医文本词性作为上下文特征建立基于词性互信息的特征选择方法。然后利用词频互信息与词性互信息构建互信息向量。最后将互信息向量代入支持向量机中建立中医文本消歧模型。为验证本文设计的中医文本分词模型的性能,本文将中医文本分词方法与其他分词方法进行对比。实验结果表明:采用基于BI-LSTM-CRF中医文本分词方法具有更好的分词性能,分词准确率达到93.25%。为验证本文设计的中医文本消歧模型的性能,本研究从多个角度进行实验。实验结果表明:本文所提出的特征选择方法比其他特征选择方法具有更好的实验效果,且本文消歧模型消歧准确率达到95.13%。在加入本实验消歧模型后,基于BI-LSTM-CRF中医文本分词方法的分词正确率达到94.68%。

其他文献

生态观在时尚首饰中的设计应用研究

文章以生态观的设计理念为基础,以时尚首饰为研究内容,提出了时尚首饰生态设计的重要性,从时尚首饰的造型、装饰、功能、材质四个方面分析了生态观在时尚首饰设计中的应用。

期刊

生态观时尚首饰设计应用

糙皮侧耳（Pleurotus ostreatus SR—2）产漆酶条件及漆酶性质的研究

期刊

水质素糙定侧耳培养条件漆酶酶学性质

细菌生长自限、节律及宏大运动的研究

采用波动培养及显微培养技术实验研究细菌生长自限、节律及宏大运动的关系。分析了奇异变形杆菌生长节律性及自限产生的环境条件，自限细菌的形态特征及群体细菌宏大运动现象。

期刊

细胞生长自限细胞生长节律群体细菌宏大运动Proteus mirabilis self-limited rhythm grand movement

临床护理干预在老年慢阻肺护理工作中的应用效果及对生存质量的改善作用

目的探究不同临床护理干预模式对老年慢性阻塞性肺疾病(COPD)患者的应用效果,以及对生存质量的改善作用。方法将106例COPD老年患者按照入院先后顺序分为甲乙两组,每组53例,进

期刊

慢性阻塞性肺疾病老年患者肺功能生活质量

构建我国个人信用制度的难点与对策

本文从信用文化、信息约束、技术操作、法制环境四个方面分析了我国个人信用制度面临的问题与难点,并以此为基础提出了相关的对策与建议.

期刊

个人信用制度信用评估中国信用文化市场经济法制环境信息约束Individual CreditInformationCredit Assessment

巴氏醋杆菌纤维素发酵培养基成分研究

通过试验探索出巴氏醋杆菌合成醋酸菌纤维素的适宜培养基成分为蛋白胨１．０％，酵母膏０．５％，蔗糖２％，乙醇１％，Ｎａ２ＨＰＯ４０．２％，ｐＨ６．０；３０℃时静置培养６ｄ，醋酸菌纤维素产量可达９．８５ｇ／Ｌ。

期刊

巴氏醋杆菌醋酸菌纤维素发酵培养基

陶云海:用昆虫信息素控制虫害

应用昆虫自身释放的用于种内和种间个体传递信息的微量调控物质,来控制害虫繁殖的昆虫信息素,是环境友好型害虫防治技术之一,目前已得到大力推广。昆明博鸿生物科技有限公司(

期刊

昆虫信息素团队生产生物科技环境友好型虫害控制害虫传递信息云南省

从套餐到自助—对课件与积件特性的认识

目前教学软件有两种形式:课件与积件,这两种形式颇具套餐与自助餐的特点.积件与课件既有共性又有不同点,它们是继承与发展的关系,在教学实践中应根据需要,开发和应用适合自己

期刊

套餐自助餐课件积件特性arranged mixed foodbuffetcourse wareintegrable warecharacteristi

5—硝基咪唑类药物体外抗无芽孢厌氧菌效果的观察

从多种临床标本中分离并鉴定了200株无芽孢厌氧菌.赛克硝唑(SNZ)、替硝唑(TNZ)和甲硝唑(MNZ)对120株革兰氏阴性厌氧菌的MIC90分别为1～4,1～2和4～8 mg/L,对80株革兰氏阳性厌氧菌的

期刊

无芽孢厌氧菌5-硝基咪唑类药物药物敏感试验Anaerobic bacteria 5nitromidazole medicines medicine s

新月弯孢霉原生质体硫酸二乙酯诱变的研究

以经紫外线诱变后获得的氢化可的松转化菌株新月弯孢霉２－１５０＃为出发菌株，经纤维素酶及溶菌酶作用形成原生质体，并对原生质体进行硫酸二乙酯（ＤＥＳ）诱变，然后对大量的再生突变株进行筛选，获得高

期刊

新月弯孢霉原生质体硫酸二乙酯氢化可的松

中医医案文本消歧算法的研究与实现

与本文相关的学术论文