论文部分内容阅读
针对于人口老龄化及肿瘤高发病率造成医疗保险收支失衡的问题,本文提出基于规则挖掘的肿瘤大数据的DRGs分组系统的解决方案。系统基于Spark on Yarn分布式平台和Spring Boot框架,融合机器学习、大数据分析技术、Drools规则引擎、自然语言处理、正则表达式等技术,依据国家疾病诊断相关分组CHS-DRG的分组规范,对DRGs分组所涉及的关键问题及技术进行研究。本文先对DRGs分组的国内外发展现状与版本更迭进行分析,提出本文的研究目标和内容;再对相关理论和技术进行研究;根据用户需求与CHS-DRG分组规范对分组系统进行需求分析;对DRGs分组系统进行总体设计,包含总体架构、技术路线、系统功能模块、数据库的设计;然后对系统关键模块的设计与实现进行详述,包括基于Spark on Yarn的肿瘤数据预处理、基于Drools规则引擎与文本相似性匹配算法的肿瘤智能编码方法、基于回归分析相关算法的模型比对与选择;最后对编码结果与分组结果进行测试与评估。本文的主要工作内容如下所述。1、基于Spark并行计算特点,运用正则表达式、拉格朗日插值法对原始肿瘤病例信息进行数据清洗,运用独热编码、归一化等方法对肿瘤编码后的病例信息进行数据变换。2、将数据清洗后的肿瘤病例信息,结合肿瘤智能编码的建设需求,基于Drools规则引擎建立主要诊断选择规则,将规则处理后的诊断和手术名称,分别与国家医保版编码标准:ICD-10疾病诊断编码和ICD-9-CM-3手术操作编码,采用基于Gensim的TF-IDF方法和Levenshtein中的Jaro方法,进行文本相似性匹配后返回准确度较高的编码结果,再对准确度较低的编码进行人工修正。3、将智能编码后的肿瘤数据,依据国家医疗保障疾病诊断相关分组CHS-DRG分组方案,根据肿瘤病人主要诊断确定主要诊断大类MDC,再结合主要手术操作及性别确定核心疾病诊断相关组ADRG,最后综合考虑合并症和并发症、离院方式等病例的个体特征,得到DRG编码分组。4、运用机器学习回归分析相关算法,建立DRGs编码及肿瘤病人个体特征与费用之间的关联,对住院总费用进行预测;再对预测后的总费用根据其费用分布规律与组间变异系数CV的判定,得出最终DRGs分组结果。并基于Spring Boot框架和Vue框架,开发肿瘤编码、DRGs分组的数据服务交互接口与界面。