基于异构信息网络的医疗保险反欺诈关键问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:sbt200905
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和大数据的发展,越来越多的企业和政府机构采用信息化技术来进行交易活动或者提供服务,如信用卡业务、医疗保险、汽车保险等。信息化在为合法用户提供便利的同时,也使得欺诈者拥有了新的欺诈途径。统计数据表明欺诈活动在全球范围内每年造成的经济损失高达数千亿。信用卡和财产保险等领域的欺诈检测已被广泛研究,但有些领域如医疗保险领域由于其数据及欺诈行为独有的特点,面临着更多的挑战和困难。医疗保险数据指医疗保险业务过程中获得的数据,包括医疗机构、患者、住院记录以及基金等异构信息。除了海量性、异构性等大数据共有的特点外,医疗保险数据具有领域知识粒度较为粗糙、离散性、冗余性等特性。医疗保险数据的上述特性加剧了医疗保险欺诈识别的困难程度。与此同时,医疗保险欺诈本身也面临比其他领域更复杂的情况。1)医疗保险欺诈主体类型并不单一。2)有些欺诈者了解充足的领域知识,能够巧妙躲避反欺诈规则,伪装成正常用户实施欺诈行为。3)当欺诈者有组织地进行合谋欺诈时,分析个人的行为将无法挖掘出欺诈记录。4)医疗保险涉及不同类型的主体,如医院、患者、诊疗项目等。除了单一实体的行为分析之外,欺诈线索还可能隐藏在不同实体的交互过程中。现有的大多数数据驱动的医疗反欺诈研究都集中在统计分析和机器学习算法的使用上,如聚类、k-最近邻、决策树、神经网络等。但是,这些方法总是具有较高的假阳性率(将正常医疗记录判定为欺诈记录),因为正常患者也可能会有一些违反正常模式的行为,而欺诈者可能会努力模仿正常行为,使他们看起来“正常”。一个有效的医疗保险欺诈检测算法需要满足可解释性和高精度等要求。针对反欺诈面临的上述挑战,结合医疗保险数据的特点,本文利用异构信息网络对医疗保险数据进行建模,从异构信息网络的社区划分/极大团枚举/频繁子图挖掘等方面进行探讨和研究,以医疗保险为研究背景,提出针对于不同欺诈类型的反欺诈算法。主要的研究内容和贡献包括以下方面:1)针对骗取药品欺诈者的伪装识别问题,本研究提出基于患者集散程度的反欺诈算法,将患者的时序行为与异构网络社区划分算法相结合,可以对抗欺诈者的伪装行为。本研究定义了病人住院记录相似度计算方式并通过基于图的密度峰聚类算法对患者进行聚类,进而对每个聚类类别进行了语义抽取工作,这能够帮助了解每个聚类类别背后的含义。当病人相似度和病人就医行为相似度之间存在较大冲突时,该病人为疑似欺诈者的概率较高。基于病人集散程度的医疗保险欺诈者检测方法-PCDHIFD考虑在整个期间每个病人的入院记录情况,由于欺诈者的伪装行为通常只会持续很短一段时间,该方法可以检测医疗保险欺诈者免受欺诈者伪装行为的干扰。实验结果表明,PCDHIFD在伪装存在的情况下可以显著提高欺诈者检测准确率达到87%,优于已有算法超过15%,且聚类语义抽取工作增强了算法的可解释性。2)针对医患合谋骗取医保基金识别问题,本研究提出基于极大团挖掘的合谋欺诈检测算法,通过两阶段基于H图的极大团挖掘算法来减少计算复杂性,可以帮助检测合谋欺诈。本研究将挖掘出的特异群组进行分类,区分特异群组究竟是因为合谋欺诈而产生还是周期性等因素而产生。最终将由于欺诈产生的特异群组作为疑似欺诈者交由人工进行稽查。在医疗保险背景下,针对慢性病合谋刷卡套现问题,首先构建病人就医邻接图,通过极大团挖掘算法找出特异群组。进而对特异群组进行分类(合谋欺诈产生/慢性病就医周期性产生)。将由于欺诈而产生的特异群组中所包含的病人视为疑似欺诈者。基于异常群体的联合欺诈者检测方法(AGJFD)可以将可疑的合谋欺诈者与因周期性而碰巧具有高度相似性的人区分开,因而可以确保反欺诈结果的高精度。此外,本研究通过提出两阶段基于H图的极大团挖掘算法来减少计算复杂性。医疗保险数据集上所做的大量实验表明,本研究的方法在精度方面大幅度优于现有方法,可以达到94%。3)针对虚报慢性病欺诈识别问题,本研究提出基于频繁子图挖掘和社区划分的慢性病欺诈识别算法,重新定义了候选集的选取方案,可以帮助了解包括罕见病在内的慢性病进展,这对于发现慢性病欺诈和降低医疗成本非常有用。基于频繁子图挖掘和社区划分的慢性病欺诈识别算法HNCDPM考虑同一疾病的不同用药阶段并获得两种模式-不同慢性病在时间上的模式(表明不同种类的慢性疾病之间的时序关系)以及同一慢性疾病的不同阶段之间的模式(表明慢性病不同阶段对应的不同治疗方案)。这两种模式可用于帮助发现慢性病欺诈。本研究的方法能够挖掘白血病等罕见疾病的临床路径,这对于传统的子图挖掘方法是不可能的,因为罕见疾病节点将在寻找频繁候选集步骤中被移除。同时,本研究的方法考虑了同一疾病的不同用药阶段,这对于了解慢性疾病进展更有意义。而现有的疾病进展挖掘方法认为相同诊断即是相同疾病并且忽略相同疾病的不同用药阶段。大量实验表明,本研究的方法在识别准确率中可以超过现有方法约20%。4)针对可疑患者欺诈者检测问题,本研究提出基于就诊图的患者欺诈者检测算法,提出就诊网络的概念并捕获患者、就诊记录和医院之间的相互关系。由于医疗保健治疗的复杂性和连续性,很难通过单一的就诊记录来判断欺诈行为。已有的欺诈者检测方法通常考虑实体的行为并将欺诈者视为异常,忽略了不同实体间的复杂关系。本研究利用患者可信度,就诊真实性和医院权威值之间的相互关系来检测患者欺诈者。该方法显示了就诊图中的信息如何指出欺诈者的原因,并揭示了不同类型的欺诈者的重要线索。实验结果表明该方法的准确率要比已有算法高出超过10%。
其他文献
运用文献资料法和逻辑分析法,分析和论证了体育这一特殊的文化现象。认为要认清和辨明世界体育文化发展的方向和趋势,尤其是它的本质,就必须保护和完善我国优秀的民族传统体育文
目的探讨早期康复训练对急性心肌梗死(AMI)患者病情的影响。方法将122例急性心肌梗死低危患者平行随机分为康复组(62例)和对照组(60例)。两组除予以临床常规治疗外,康复组采
本研究探索印度尼西亚广告中的女性形象,消费资本主义和伊斯兰教。使用批判性研究分析了印度尼西亚第一个清真化妆品Wardah广告里的穆斯林女性形象。本研究共收录了六十四个Wardah电视广告案例,主要采取社会符号学法和深度访谈法。通过社会符号学发现,穆斯林女性在广告中最为突出的特征为善良和被赋权。此外,通过对十二为印度尼西亚穆斯林女性的深访发现,由于被受访者认为这两个特征理想化了她们的自我形象及符合伊