论文部分内容阅读
华夏医学源远流长,有着数千年的历史,是我国劳动人民长期同疾病做斗争的极为丰富的经验总结,是我国优秀文化的重要组成部分。在古代朴素的唯物论和自发的辩证法思想的影响和指导下,通过长期的医疗实践,逐步形成并发展成为具有独特的医学理论体系,丰富的治疗经验的完整医学,为中国人民的保健事业和中华民族的繁衍昌盛做出了巨大的贡献。但是,作为经验医学,它缺乏客观性指标,描述文字繁琐、晦涩、模糊,对于现代的医学工作者学习,掌握较困难。加之,内容散乱、缺乏系统性、规范性使研究颇为不便。 数据挖掘是从大量数据中“挖掘”先前未知的、有效的、可使用的知识。数据挖掘能发现频繁集,产成关联规则;进行分类及聚类等。中药方剂是我国独有的医学宝库,由于长期缺乏系统的科学的整理,大量的方剂处于分散流失状态,亟待我们用科学的手段加以整理和分析。而中药方剂数据的庞大和复杂正好适合数据挖掘技术的运用。 本文研究了中药方剂数据的特点,建立了中药方剂数据库;研究并讨论了数据挖掘的基本理论和方法;研究了若干数据挖掘算法,并选择合适的挖掘算法(或对其中某些算法做出适当改进)应用于中医药方剂数据库,挖掘其中有用的知识。本文主要使用了频繁集、关联规则和聚类方法进行挖掘。挖掘频繁集与关联规则时,主要使用了经典的单维布尔关联关则挖掘算法Apriori算法。为了更适于中医药数据库中的挖掘,对Apriori算法进行了改进,提出了MApriori算法用于挖掘多维布尔关联规则,和WApriori算法用于挖掘加权关联规则。在聚类分析方面,主要使用了凝聚型层次聚类法。为了提高聚类的质量,使用RatioD距离代替传统的欧氏距离进行聚类。 本文是基于“中药复方分析系统”软件开发项目(由西南交通大学神经网络与信息技术研究所与成都中医药大学图书馆合作开发)完成的。该软件借助数据挖掘的多种方法,针对中医学古今药方,实现对中医药数据库的深入挖掘。系统开发成功后,交由中医学者使用,其用途包括:1.协助中医学者研究与发现中医药海量数据中隐含的规律和趋势;2.帮助医生开出有科学依据的药方,实现中医学的科学化,规范化。在本文的末尾对“中药复方分析系统”软件进行了简要的介绍。