论文部分内容阅读
近年来随着医疗卫生事业的迅速发展,医疗卫生数据库中存贮的海量医疗信息数据成为人们研究的热点。这些数据都是与人们生命健康息息相关的载体,对疾病的诊疗和预防有着重要的意义。然而传统的数据库技术,仅仅只能够针对实时数据进行简单的查询、修改、录入、删除等基本操作,若想要从这些数据中获取隐含在其中的医学规则,传统的数据库技术很难办到。 在此背景下,本文着重研究了目前数据挖掘与知识发现的主要研究内容之一——关联规则。它侧重于确定数据中不同属性之间的联系,找出满意约定支持度(Support)和信任度(Confidence)阈值的多个属性之间的依赖关系。自1993年R.Agawal,R.Srikant首次提出该问题来,已经出现了许多关联规则挖掘算法。本文研究了关联规则算法中的经典算法Apriori算法,并结合前人的研究基础,提出了一种Apriori算法的改进办法。 接着,本文运用数据挖掘中的关联分析方法和SPSS Clementine12.0软件对医疗信息数据库中的二型糖尿病患者数据进行多维度、多层次的分析,得到的结论可以用于辅助医生和二型糖尿病高危人群量化判断决策。 本文的工作主要分为以下几个方面: (1)研究经典关联规则算法。研究当前主要关联规则算法Apriori算法,并分析总结Apriori算法存在的优势和不足。 (2)改进Apriori算法。研究前人改进Apriori算法的几种思路,分为:基于分片的方法、基于Hash的方法、基于采样的方法、减少交易个数的方法和基于模糊集的方法。在此基础上提出了一种改进Apriori算法的方法。 (3)对比分析。本文利用C#语言对Apriori算法和改进Apriori算法进行编程,并将两者做了对比实验,从频繁项集与支持度、运行时间与记录数、运行时间与支持度这三个方面进行测试,实验结果表明改进Apriori算法比经典Apriori算法更有效率。 (4)建立数据挖掘初始集。从某三甲医院医学信息中心获取的首次病程记录及居民健康数据档案中提取2型糖尿病的相关危险因素,并对这些数据做预处理,最后将它们做成Excel文本格式,作为数据挖掘的初始集。 (5)挖掘关联规则。本文应用SPSS Clementine12.0软件中的Apriori算法模型对数据初始集进行数据挖掘,得到了若干2型糖尿病相关危险因素与2型糖尿病之间的关联规则以及2型糖尿病相关危险因素之间的关联规则,并对这些关联规则做了分析。