论文部分内容阅读
目的:探索数据粒度大小对数据挖掘期望的影响。 方法: 1.数据粒度探索研究:利用某市围产保健监测系统2010年6月30日-2013年6月30日的出生队列共86438例孕妇及新生儿数据,以孕妇孕期增重及其新生儿出生体重数据为变量,分别采用传统的相关分析、斯特吉斯经验公式进行粒度处理后分析两变量的相关性,并用随机数模拟方法验证该相关结果的可靠性,同时采用随机数模拟的方法探索不同样本量条件下粒度处理的适宜方法; 2.实例应用研究:基于南方某市医疗保险管理中心信息系统2003年7月至2010年6月8个年度数据共659114例,结合数据粒度的探索结果,运用曲线回归模型拟合方法、四分位法等方法进行数据的信息挖掘研究。 使用Excel2007、SPSS19.0、R、Matlab等软件进行数据处理和分析。 结果: 1.数据粒度探索研究中,原始数据分析结果显示孕妇孕期增重与新生儿出生体重呈弱相关,相关系数为0.238(P<0.05);增大数据粒度后相关分析结果显示相关系数均大于0.97(P<0.01);随机数验证结果显示,不相关的两变量通过斯特吉斯经验公式增大数据粒度后依然不具有相关性(P>0.05);随机数模拟结果给出了样本量分别为10000、100000、1000000时适宜的粒度处理方法。 2.实例应用结果显示,对于医保大数据,选取合适的粒度后(即将原始数据分为21组后取平均值)发现医疗保险公平性系数(Y)与医疗负担压力系数(X)呈良好的曲线关系,函数为Y(X)=0.4427*exp(-18.72*X)+0.5531*exp(-0.9679*X),校正决定系数为0.9991,拟合度较好。 结论:在医学大数据挖掘中,结合数据特点,选取合适的粒度对数据进行预处理,降低数据的噪声,可以使数据本身的特征突显出来,有利于发现数据隐含的信息。