论文部分内容阅读
基于粗糙集与分类回归树的“病例组合”分类研究这个课题,是在数据挖掘技术迅速发展的基础上,针对国内外对“病例组合”研究的深入及我国的医疗费用呈急剧上升的趋势的情况下提出来的。基于“病例组合”的付费方式作为控制和缓解医疗费用的方法己经在世界各国得到广泛的注意和研究,并且在世界多个国家开始应用。基于“病例组合”的付费方式被公认为是缓解医疗费用最有效的方法,它在卫生政策、医疗管理以及卫生经济等很多领域都有应用意义。我国自1990年代起开始研究“病例组合”,出现了AID算法及病例分型等几种“病例组合”的方法,这些研究从不同角度对DRGs机制进行了探讨,对促进我国医疗保健制度的改革,充分合理地利用现有卫生资源具有一定的理论价值和实用价值。但由于我国对这些研究起步晚及医疗条件的局限性,目前我国对“病例组合”的统计分类尚无系统的研究。本文首先介绍了国内外对“病例组合”研究的现状及在我国进行“病例组合”研究的必要性。然后列举了两种国内常用的“病例组合”方法:AID算法和病例分型方法,并分析了它们的优缺点。AID算法的优点是:具有筛选指标的功能;能根据设定的规则,用最优二分割法自动选定分类截点,并且该截点对于分类来说是最好的;该方法每次只分裂一个指标变量,使计算十分方便。但是,AID算法主要用于对连续变量进行分析,病例组合研究中的数据多为离散数据,用处理连续变量的方法来处理离散数据效果不好;并且AID算法每次只分裂一个指标变量,如果变量之间存在交互作用时,用AID算法效果不好。病例分型的方法将普通病例与复杂疑难病例区分后进行分析评价,其优点在于各病例分型组组内的病例在卫生资源消耗上具有相当的一致性,从而使医疗质量评价能科学、客观地反映医疗单位的实际,使质量费用管理发挥正面导向作用。但病例分型方法缺乏一种共同认知的界定标准,不同级别医院对危重度的认知程度不同;医生对病情危重度的判断受本人技术水平的影响;由于病情危重度与费用挂钩,不排除第一诊断受利益因素的干扰;选择ICD-9或10前3位数类目编码进行分类,存在分类不精确的弊病。本文根据粗糙集和决策树技术两种理论的的互补性,研究一种新的“病例组合”分类模型:将粗糙集与分类回归树相结合的“病例组合”分类模型。该模型既具有粗糙集的一些优点:通过属性约简,可以成功地剔除知识库中的冗余属性,发现知识中隐藏的关联和规则,帮助人们做出正确简洁的决策;又具有决策树的分类精度高,有良好的学习能力和简单的树形结构。并且该模型可以有效处理连续变量与离散变量的分类,并给出了精确而又稳健的分析方法,能够处理非线性、具有交互作用及数据缺失信等较为复杂的数据,且易于掌握,结果解释也简单。该模型包括粗糙集属性约简和分类回归树以及二次优化程序三大模块。粗糙集部分对属性向量集进行维数约简。在分类回归树部分,介绍了分类回归树的生长算法、用最小代价-复杂度的二叉树剪枝算法以及最优树选择等算法。在二次优化程序部分主要是根据“病例组合”的特点对最优树重新组合得出最合适的“病例组合”。我们用系统实现了该模型,以广西桂林医学院附属医院提供的数据在该系统上运行,利用方差分析方法对得出的病例组合给以分析,结果证实了该分类系统是可行而且有效的;并利用对未结合粗糙集的分类回归树与结合了粗糙集的分类回归树进行对比,说明了该系统能够有效地提高分类精度和减少复杂度,能够充分利用粗糙集和分类回归树各自的优点,在一定程度上避免了各自的缺陷。在文章的末尾,对全文进行了总结以及指出了存在的问题,并对今后工作进行了展望。