论文部分内容阅读
随着经济社会的不断发展,人们的生活质量不断提高,我国的社会保障制度不断完善,在人们遇到医疗困难时,医疗保险基金发挥的作用越来越大,为我国的社会稳定,人民的健康生活提供有力的保障。然而许多不法份子开始关注人民这部分救命钱,利用医疗保险制度中的漏洞或缺陷,套取医保基金,损害国家资源,造成极大的医疗不公平,不利于社会的稳定。骗保人员骗取医疗保险基金的形式多样,例如分解住院、重复医疗、私留医保卡等,目前常见的反欺诈手段主要依靠监察人员的经验以及人工蹲点守候等方式进行判别,这些手段在面对大数据量的情况时,显然并不合适,因此利用技术手段进行骗保行为的甄别势在必行。本文将骗取医保基金行为中的病人异常就医聚集行为作为研究重点,利用数据数挖掘算法对病人的聚集行为进行挖掘,并对挖掘结果进行病人和医院维度的深层次分析,在此基础上构建欺诈行为的监测系统,主要内容如下:1.医保数据处理。梳理目前病人的就诊数据中存在的问题,进行数据处理工作,主要包括缺失值处理、重复值处理等。对病人和医院进行画像,为后续深层次分析提供数据准备,同时为系统及模型的构建奠定基础。2.提出基于支持数的增量式频繁模式挖掘算法EFUFP。针对数据批量更新以及病人聚集就医行为的欺诈场景,提出EFUFP算法,并引入Spark编程模型,在Spark平台实现EFUFP算法,实现大规模数据下频繁模式的快速高效挖掘。在结果相同,空间复杂度近似的情况下,时间效率EFUFP本地测试较FUFP提高10.7%以上,在Spark平台较FP-GROWTH算法提高26.8%以上。3.构建异常聚集就医行为监测系统及提出基于时间序列相似性分析的在院人次异常检测方法。利用监测系统实现对就医聚集人群的发现、分析及效果展示,主要包括对聚集就医人员及其医院的分析。对患者主要是利用规则对患者的患病、花费等进行异常甄别。对医院提出基于时间序列相似性分析的在院人次异常检测方法,动态检测在院人数异常。