论文部分内容阅读
近年来,随着社会老龄化加剧及经济下行的压力加大,医保基金收入逐步放缓。与此同时,国家医保制度在不断完善,医保参保范围逐步扩大,医疗需求得到大量释放,使得医保基金支出增长连续高于收入增长,许多地区已出现入不敷出,甚至严重赤字的情况。另一方面,由于医疗保障基金制度及监管体系不健全,使得不法分子较为容易骗取医保资金进行套现,各种医保欺诈案例层出不穷。如何有效保障医保资金安全、有效地使用,已逐渐成为社会各界研究的热点。由于医疗数据的敏感性以及数据样本的特殊性,传统的医保欺诈研究方法已经不适当前的现状,现研究的主要困难有:(1)医保欺诈手段层出不穷,近期更是出现了团伙作案,且操作极为隐蔽,从常规数据维度中已经很难看出端倪;(2)现有的医疗数据中,已经被判断为欺诈的患者很稀缺,而未知欺诈与否的数据是海量的,很自然就出现了机器学习中常见的数据样本标签不足的问题,现有的解决方案都受限于数据本身,很难提高模型的泛化能力;(3)现有的医保欺诈文献中,大多只用到了就诊医疗数据,而忽视了就诊行为中所产生的社会关系这一个重要信息。针对以上问题,本文提出了一种基于关系网与主动学习的医保欺诈检测解决方案,充分考虑了病人医生关系网中的潜在信息,并以图卷积神经网络(GCN)算法为基础,提出了OCGVAE医保欺诈检测框架,OCGVAE是一个单分类检测算法,通过借助病人医生关系网这个信息弥补样本不平衡的问题,实现了小数据训练样本下的医保欺诈检测;为了解决人工标记成本高的问题,本文提出主动学习策略去标注医保数据,实现了在标注较少数据样本的情况下就能达到理想的分类效果。主要创新和研究工作概括为以下几个部分:(1)提出了病人-医生关系网模型。本文分析现有的欺诈案件,发现欺诈病人之间可以直接或者间接的通过医生这个纽带关联起来,并通过建立病人-医生数学关系,来提高模型的分类效果。实验证明,在使用病人医生关系网的算法中能达到更高分类准确率,准确率平均高出19%。(2)提出了GCN算法处理医保欺诈检测问题。本文有效且合理的利用了患者在就医过程中所产生的社会关系网络,GCN算法利用这个网络信息,学习网络节点之间的拓扑信息,能够即使在小数据标签下,也达到了理想的分类准确率。(3)本文改进变分自编码(VAE)算法的解码层,结合医保欺诈真实数据集,提出OCGVAE医保欺诈检测框架。OCGVAE算法的输入是欺诈样本标签以及整个病人医生关系网(包括节点所有的节点信息和节点之间的权重信息),该算法是一种单分类算法,解决了样本标签极度不平衡的问题。同时该模型具有边预测能力,其准确率达到80%。(4)提出了通过主动学习策略帮助医保欺诈数据标注,减少人工成本。本文设计了三种数据选择标注策略,分别是最大熵(MEs)、最大概率(MPs)和随机(Rs)选择策略。设计了学习率为0.1、0.01以及分类器阈值0.5、0.8时的四组对比实验,本文提出的MEs数据标注策略在各组参数中都能取得最好的效果,证明了基于最大熵策略能有效的减少人工标记成本,准确率达到97%。