论文部分内容阅读
关联规则挖掘作为数据挖掘的重要任务之一,凭借其广泛的应用性,越来越受到各领域研究者的重视。随着研究的深入,专家学者们提出了一些经典的关联规则挖掘算法,这些算法都是针对布尔型属性提出来的,然而现实中的数据库中往往存在着大量的数量型属性,为了发现数量型属性间的相关关系,模糊关联规则应运而生,FP-growth算法就是一种模糊关联规则挖掘算法。本文对模糊关联规则挖掘算法进行了深入的研究,针对隶属度函数优化以及FP-growth算法的不足提出了改进算法,并且对模糊关联规则进行了扩展,提出了广义模糊关联规则及其挖掘算法。研究内容主要包括以下三个方面:(1)针对原有隶属度函数模糊区域划分结果的应用局限性,重新定义遗传算法的适应度函数,并根据实际数据标准对隶属度函数进行修正,最后得到较优的隶属度函数。将优化算法应用于影响机场噪声属性数据集,使用优化后的隶属度函数对数量型属性进行模糊化,使模糊区域的划分更加合理,更加适合实际问题。以模糊属性数据库作为关联规则挖掘算法的输入数据,增强了模糊关联规则的可信度。(2)针对数量型模糊关联规则的FP-growth算法在模糊属性数据库生成过程中人为过滤掉多个模糊属性的不足,提出了FP-growth算法的改进算法。改进后的算法弥补了原算法在模糊属性筛选过程中丢失大量有用信息的不足,挖掘到的关联规则比原算法包含更多模糊属性间的相关关系。本文将改进后的模糊关联规则挖掘算法应用于分类系统。(3)传统模糊关联规则仅能反应前提属性与结论之间的相关性,不能够反应前提属性以及结论属性间的相对重要性。本文针对这一问题在传统模糊关联规则基础之上加入了前提属性权重以及结论属性置信度,提出了一种广义模糊关联规则以及相应的规则挖掘算法。前提属性的权重更清楚的反映出该属性对于结论的相对重要性,结论属性的置信度体现了该结论的相对可信程度,广义模糊关联规则比传统的模糊关联规则具有更强的可解释性。