论文部分内容阅读
数据挖掘是一门新兴的交叉学科,它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,其主要任务是从庞大的数据库中提炼隐藏的有用信息。中医数据库是我国特有的医学宝库,但并没有被很好地整理和利用,所以对中医数据进行数据挖掘是非常有必要的,并且具有实际的意义。 本论文围绕科研项目,对数据挖掘的关键技术进行了细致深入地分析和研究,并结合中医数据特点,提出实用的挖掘算法和方法,并用这些方法对中药方剂配伍进行了初步分析,主要包含以下工作: 首先本文提出了线性关联规则。关联规则挖掘是数据挖掘的关键技术,但是传统的布尔关联规则只处理是否存在关联关系的问题,而没有涉及到数量的问题。本论文正是结合处理中医数据的实际需要提出了线性关联规则,从而把药物和药物剂量有机地联系起来。 然后提出用Jaccard系数法来计算药物性味聚类的相异度。中药聚类是以药物性昧的二元表为依据的,一般的距离计算法如欧氏距离在处理二元数据时不能较好地表现二元数据的特点,Jaccard系数法不仅计算简单而且能够更好地体现二元变量的特点。 本文完成了药物剂量从文本到数字的转化后,克服了文本剂量不规范、不统一的缺点,然后对均值、方差以及药物剂量百分比进行了计算。 最后论文介绍了中药复方分析系统的设计,包括中药方剂数据的预处理,系统各个模块及其功能和结果。