论文部分内容阅读
目的:通过对健康体检报告中主检医师结论的自然语言进行文本数据挖掘的过程,为军人健康体检报告文本数据挖掘和应用提供技术支撑。方法:以某大型国企36712名员工的电子化健康体检报告中的主检医师结论为研究实例,在计算机R语言环境下,利用隐马尔科夫模型(Hidden Markov Model,HMM)识别提取主检医师结论中异常结果表达的医学术语,利用交叉验证对HMM的性能进行评估。建立体检报告异常结果表达的医学术语词典。通过构建主题模型,对含有异常结果的主检医师结论进行聚类分析。结果:(1)异常结果表达医学术语提取工具HMM性能评估,准确率平均值为91.79%,召回率平均值为80.31%,F1-score平均值为85.64%。(2)体检报告异常结果表达的医学术语词典共包含2328个医学术语。识别提取主检医师结论中异常结果表达“假阳性”的语句共413个,异常结果表达的医学术语词典经过规范化处理后共包含医学术语791个。(3)对含有异常结果的主检医师结论进行词频分析,男性频数排名前5位的异常结果表达的医学术语分别为“甘油三酯偏高”、“脂肪肝”、“超重”、“高血压”、“幽门螺旋杆菌阳性”,女性频数排名前5位的异常结果表达的医学术语分别为“幽门螺旋杆菌阳性”、“甘油三酯偏高”、“宫颈炎”、“乳腺增生”、“宫颈腺体囊肿”。(4)性能最佳的主题模型是利用吉布斯采样算法(Gibbs sampling algorithm,Gibbs)训练的潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型。基于主题模型,含异常结果的主检医师结论聚类生成由医学术语组成的主题:男性依据年龄分为“血脂异常、脂肪肝”、“心脑血管疾病”、“代谢异常、幽门螺旋杆菌阳性”3个主题;女性依据年龄分为“宫颈炎、乳腺增生”、“营养不良”、“子宫肌瘤、动脉粥样硬化”3个主题;男性依据工作地理位置分为“动脉粥样硬化、脂肪肝”、“血脂异常、幽门螺旋杆菌阳性”、“血脂异常”、“高三酰甘油血症、幽门螺旋杆菌阳性、脂肪肝”、“高血压、脂肪肝”、“血脂异常、咽炎”6个主题;女性依据工作地理位置分为“宫颈炎、血脂异常”、“乳腺增生、咽炎”、“血脂异常”、“幽门螺旋杆菌阳性、乳腺增生”、“幽门螺旋杆菌阳性”、“妇科炎症”6个主题。结论:(1)本研究中建立体检报告异常结果表达医学术语词典的方法为将来建立军人体检报告异常结果表达的医学术语词典奠定了基础。(2)依据主题模型可以对平时部队体检报告中的主检医师结论、战时伤票、野战病历等卫勤信息中的文本数据进行聚类分析,并可通过不同主题夹角余弦相关矩阵图直观地展现不同主题之间的相似度,通过可视化的主题词云直观地展示各个主题内高频关键的医学术语。