论文部分内容阅读
随着我国医疗保险制度的不断发展,医保欺诈行为也是层出不穷,由于欺诈的形式多样,而且操作隐蔽,加上我国缺少反欺诈的相关经验,所以现阶段医保反欺诈工作面临着很大的挑战。另一方面我国的医院信息化系统积累了大量病人的就诊记录,然而其中的信息并没有得到充分的利用。因此通过将数据挖掘技术应用到医保异常检测,挖掘病人就诊记录中的潜在价值,给医保异常检测的研究提供了新思路。本文主要研究了如何将数据挖掘的分类集成算法应用到医保异常检测领域,提高其异常检测能力。由于医保样本具有不平衡性,因此对医保数据进行分析之前,首先对数据集进行平衡化处理,然后在相对平衡的数据上进行分类集成。本文主要工作包括:(1)基于非平衡的医保数据,提出一种新的混合抽样方法,该方法结合了基于K-means聚类的欠抽样和smote抽样方法。(2)基于选择性集成的理论对随机森林模型进行改进,首先将基分类器按照其分类效果的F-measure进行排序,根据设定的top-percent百分比筛选掉分类性能差的基分类器,然后再根据不一致性度量衡量基分类器的相似性,在相似性高的基分类器中,将F-measure值低的基分类器去掉,进而保证待集成基分类器的准确性和差异性。(3)使用两种方案进行医保异常检测实验,一是先对非平衡的医保数据利用混合抽样方法进行平衡化处理,然后用基于选择性集成改进的随机森林在相对平衡的医保数据上进行医保异常检测;二是直接在非平衡的医保数据上用基于选择性集成改进后的随机森林进行异常检测,但在随机森林的每次迭代过程中使用smote抽样对医保数据进行平衡化处理。经过进行相关实验以及集成算法之间的对比分析,发现两种改进方案都提高了随机森林对医保异常检测的效果,而基于smote抽样的随机森林改进算法具有更好的异常识别性能。由于改进后的算法在提高异常检测能力的同时,也增加了训练模型的运行时间,因此在下一步工作中将致力于缩小训练模型的时间复杂度。