论文部分内容阅读
名老中医的治病思路是智慧的结晶,它包含了丰富而又深邃的经验与知识,对这些经验知识进行挖掘并加以传承有着很重要的意义,所以中医药数据挖掘是一项非常重要的工作。眩晕病证发病率较高,而且其发病年龄有年轻化趋势,另外此病症会反复发作,可能妨碍正常生活及工作,因而开展有关中医眩晕病证的病因研究尤为必要, 故本文以眩晕病案为案例展开研究。本文采用了多种数据挖掘方法从两个方面对中医眩晕病案进行了病性分析研究,首先是从症状出发,基于层次的分类方法,进行眩晕病性分析,然后,为了佐证结果的正确性,我们又从处方的角度,采用基于主动学习的聚类方法进行相关的算法与应用研究。本文的主要研究工作如下:1.先用k-means算法进行样本二类划分,基于此设计了一个改进的自上而下的松弛层次构建方法。当存在不确定性决策时,该方法把类集分割成有重叠区域的分区,这样能够推迟决策,直到类别数量减少,可以很容易地学习到分类性能良好的决策边界。然后以SVM作为基分类器,设计一个在类别数很多时也能准确快速分类的方法。我们通过将一组二元分类器组织成DAG结构,基于上述的松弛策略构建了在标签空间下的层次结构算法框架。该方法的关键技术包括:对类进行标记,以及基于max-margin的二元分类器和类标记的优化。由于采用了上述策略,从而具有更好的分类性能。2.针对k-means聚类算法在方剂聚类时,难以准确确定初始化聚类中心,造成聚类结果不理想的问题,设计了基于主动学习的聚类算法,在确定初始聚类中心过程中通过距离计算方法——最近邻图得出种子候选集,使得种子候选集位于数据集的高密集区;然后应用Min-Max主动学习策略,挑选出种子点征询用户是否可以作为聚类中心,从而提高了聚类结果的准确率,将上述方法应用于微博数据分析得到了良好的结果。3.将上述层次分类方法应用于眩晕症状病案分析,最终将症状分成5类病因,符合中医书籍的理论知识;将基于主动学习的k-means聚类算法应用于眩晕症的处方分析,验证前面的分类结果,具有较高的准确率。4.基于本科设计中医数据挖掘平台已有的功能和上述的优化算法,扩展了原有平台的分析功能。