医保异常检测的分类集成算法研究

来源 :电子科技大学 | 被引量 : 7次 | 上传用户:yanjinghai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国医疗保险制度的不断发展,医保欺诈行为也是层出不穷,由于欺诈的形式多样,而且操作隐蔽,加上我国缺少反欺诈的相关经验,所以现阶段医保反欺诈工作面临着很大的挑战。另一方面我国的医院信息化系统积累了大量病人的就诊记录,然而其中的信息并没有得到充分的利用。因此通过将数据挖掘技术应用到医保异常检测,挖掘病人就诊记录中的潜在价值,给医保异常检测的研究提供了新思路。本文主要研究了如何将数据挖掘的分类集成算法应用到医保异常检测领域,提高其异常检测能力。由于医保样本具有不平衡性,因此对医保数据进行分析之前,首先对数据集进行平衡化处理,然后在相对平衡的数据上进行分类集成。本文主要工作包括:(1)基于非平衡的医保数据,提出一种新的混合抽样方法,该方法结合了基于K-means聚类的欠抽样和smote抽样方法。(2)基于选择性集成的理论对随机森林模型进行改进,首先将基分类器按照其分类效果的F-measure进行排序,根据设定的top-percent百分比筛选掉分类性能差的基分类器,然后再根据不一致性度量衡量基分类器的相似性,在相似性高的基分类器中,将F-measure值低的基分类器去掉,进而保证待集成基分类器的准确性和差异性。(3)使用两种方案进行医保异常检测实验,一是先对非平衡的医保数据利用混合抽样方法进行平衡化处理,然后用基于选择性集成改进的随机森林在相对平衡的医保数据上进行医保异常检测;二是直接在非平衡的医保数据上用基于选择性集成改进后的随机森林进行异常检测,但在随机森林的每次迭代过程中使用smote抽样对医保数据进行平衡化处理。经过进行相关实验以及集成算法之间的对比分析,发现两种改进方案都提高了随机森林对医保异常检测的效果,而基于smote抽样的随机森林改进算法具有更好的异常识别性能。由于改进后的算法在提高异常检测能力的同时,也增加了训练模型的运行时间,因此在下一步工作中将致力于缩小训练模型的时间复杂度。
其他文献
中学由于种种原因导致德育的缺失,特别是在"应试教育"的指挥下,学校把"分数"放在了第一位,对学生的德育教育存在明显不足。学校必须采取有效措施,加强中学的德育工作。
目的:了解妊娠合并血栓性血小板减少性紫癜(TTP)的临床特征及治疗,加深认识,提高正确诊断率,减少误诊。方法:回顾产科1例以神经系统抽风为主要表现的产妇的诊断、误诊,最终确
以仙人掌为原料,用热水浸提法提取多糖,采用正交试验法对仙人掌多糖的提取工艺进行优化.结果表明,优选出仙人掌多糖最佳提取工艺:质量浓度为33 3g/L,提取温度95℃,提取时间2h
<正>2015年以来,锡林郭勒盟各级党委深入贯彻落实中央、自治区党委统战工作会议精神和《中国共产党统一战线工作条例(试行)》以及关于加强新形势下党外代表人士队伍建设的相