基于SOFM神经网络与随机森林的医保异常检测研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:ljc2696
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国医疗改革的不断发展与深入,参与医疗保险的人群范围越来越广,与此同时,医保欺诈及违规行为频频发生,致使国家每年损失大量的医保基金,因此建立起一个高效的医保异常检测模型显得尤为重要。目前对于医保欺诈及违规行为的审查主要是通过人工抽查样本并结合专家经验知识判断进行的,在面对日益增长的医保数据时审核方法存在工作量大、效率不高等问题。对此就有不少学者引入分类或者聚类等数据挖掘技术进行了医保异常检测研究,通过这两类算法构建出的检测模型在医保异常检测中取得了一定成效,但结合分类、聚类算法的原理及异常样本的特点进行深入分析可以发现,单独运用这两类算法进行异常检测仍然会存有一些不足之处。对于分类算法来说,形式多样的医保欺诈违规手段使得医保样本在不同的指标上表现出异常,如此一来就使得分类算法难以通过一个划分超平面将所有的正负样本区分开来;对于聚类算法来说,隐蔽的医保欺诈及违规行为时常伴有医疗相关人员的参与,这些行为产生的样本数据与正常的样本数据会存有一定程度的相似性,从而使得在聚类过程中正常样本和异常样本会混合在一起。基于这一背景,本文利用聚类和分类算法相结合构建出新的医保异常检测模型,并对该检测模型的核心环节进行了优化,以提高其对医保异常样本的检测效果。本文主要的研究工作如下:(1)提出了结合自组织特征映射(Self-Organizing Feature Map,SOMF)聚类和随机森林(Random Forest,RF)分类算法的医保异常检测模型。基于现有的医保住院数据,依据医保审核规则对医保样本进行异常和正常的划分,对于处理后的医保样本先通过SOFM神经网络算法进行聚类,异常样本会根据医保欺诈及违规行为的方式划分到不同的聚类簇中,接着对聚类簇中的正负样本运用随机森林算法进行训练生成分类模型,如此一来就相当于在原始医保样本中建立起了多个划分超平面,从而能够提升对医保异常样本的识别效果。(2)为了优化聚类过程,本文运用主成分分析(Principal Compinent Analysis,PCA)改进了SOFM神经网络聚类算法。对医保样本进行PCA处理,消除变量间的冗余信息以及降低样本维度,将处理后的医保样本输入到SOFM神经网络算法中进行训练,有效地减少了聚类过程中的收敛时间和迭代次数。(3)为了解决数据不平衡问题,提出了一种新的采样模式,在聚类的基础上进行SMOTE过采样,进而形成了SOFM-SMOTE组合算法模型。(4)为了更好发挥随机森林算法在医保样本中的分类效果,运用加权基分类器法对随机森林算法进行改进,根据分类效果的性能指标对每个决策树算法赋予权重,充分利用了高性能决策树的分类能力以及降低了低性能决策树的负面影响。最后将构建的医保异常检测模型应用在实际医保住院数据当中,通过精准率、召回率、F1值等评价指标进行了模型效果的对比分析,实验结果证明本文构造的医保异常检测模型在实际应用中具有可行性和高效性。
其他文献
硅藻的模式生物三角褐指藻(Phaeodactylum tricornutum)被认为是生物柴油的理想来源,但大体而言微藻生物质能源的工业化发展受限于产量及提取成本等因素。随着现代分子生物学
古诗词作为贯穿学生整个学习生涯的教学材料,在语文教学中占据着很高的地位,它也一直都是教学重难点。因此,历史上无数的专家学者从未停止过对古诗词教学的研究与探索,在整个探索过程中,我们不断吸取前人的经验教训,目前的古诗词教学日臻成熟,但仍需不断完善。拓展教学对语文教学有着重要的价值,在最新版的《义务教育语文课程标准》的要求中也蕴涵着拓展教学的内容,将拓展教学这一理论应用于古诗词教学中能够进一步优化古诗
学位
随着时代的发展,社会对人才的需求不再只是分数化,更多的是对学生核心素养的要求。物理学科核心素养是“三维目标”的深化和发展,更加强调了物理教育应遵循教育教学规律和学生身心发展规律,贴近学生的思想、学习、生活实际,充分反映学生的成长需要,促进每个学生主动地、生动活泼地发展。电学知识放在人教版初中教材的尾部,充分彰显出电学在基础物理中的难度和重要地位。本文以初中电学知识为研究对象,将物理教学与生活化相结
学位
“拓展空间”栏目作为《道德与法治》教材中的新栏目,位于每框末尾,在落实教学目标方面具有兼顾融合的特殊作用。然而,在现实的教学过程中,“拓展空间”栏目的运用效果并不尽如人意。基于调查问卷、教师访谈和教育实习实践,对“拓展空间”栏目在某市某校八年级教学中的运用做了具体分析。一方面,“拓展空间”栏目在教学的运用中取得了较好的教学效果、学生的学习兴趣得到了增强、教师也积累了一定的“拓展空间”栏目的运用经验
学位
随着中国科学技术水平的不断提高和迅速发展,其在农业领域的研究和应用已经逐渐普及。但是,农作物病虫害的分类和识别是防治的重要组成部分,但由于害虫的隐蔽性、变态性、种群规模庞大的特点,传统的图像分类与识别方法面临着巨大的挑战。由于我国农作物病虫害防治体系不够完善,害虫的分类和识别方法也不全面,每年,由于农作物病虫害的持续增加,我国农作物产物持续减少,农业领域的发展受到了限制,经济效益也受到损害。利用改
教育是国家之大计,义务教育是国家基础教育的重中之重,发展义务教育水平就是提高整个教育的水平。学者杨宝进说,推进义务教育均衡发展要抓住农村教育这个薄弱环节,发展农村地区义务教育的关键在于建设一支高质量、高水平、高素质的“三高”教师队伍。目前,民族地区农村小学教师的素质与学历方面已经有所提高,但是仍存在教学水平高的优秀教师较少、教师队伍不够稳定及流动性强等不利于义务教育均衡发展问题。造成农村教育问题的
学位
近年来,基于深度学习的方法在多视图三维重建深度估计方面表现出较强的竞争力,根据相机成像原理可知透视线上的任何一点都可以对应成像平面上的同一成像点,无法根据单幅图像上的像素点唯一确定它在三维空间中的对应点。多视图三维重建算法可以消除这种多对一的不确定性,并且多视图数据是对同一目标对象的不同描述,每个视图的关注点有所差异,不同视图之间可以提供互补信息,使用多视图可以提取到更加全面的目标特征表示,有助于
《国家中长期教育改革和发展规划纲要(2010-2020年)》明确提出要造就一批教学名师和学科领军人物。随着教育发展的深化,培养中小学教学名师已经成为中小学教育发展的重要战略。努力造就一支高素质的专业化中小学教学名师队伍,已经成为现代中小学教育改革发展的必然选择。随着各级地方政府对教师队伍建设越来越加重视,各地教育部门便纷纷展开了形式多样的教学名师培养工作。中小学教学名师培养工作取得了一定成效,但也
学位
当前,人类活动导致大量重金属污染物进入环境中,其中Cr(Ⅵ)和Cu(Ⅱ)为两种典型的重金属离子,对人类健康和植物正常生长有着巨大威胁。吸附法是处理水中重金属离子的有效方法,已经
识字与写字是语文教学的基础内容,对学生学习语文知识有着重要作用。义务教育阶段一直将学生的识字与写字教学作为重点教学内容之一,而且无论是课后作业还是考试,都对学生的识字写字水平进行综合性考察。我国教育事业正在逐步发展壮大,但是由于地区性经济问题和人才问题,教育事业发展呈现出地区不平衡的现象。在阿鲁科尔沁旗的少数民族地区存在着缺少汉文化底蕴、汉语基础薄弱和汉语学习氛围不活跃等问题,而识字与写字是蒙古族
学位