论文部分内容阅读
描述性规则挖掘是数据挖掘研究领域的重要课题之一。数据挖掘的任务是从大量的数据中发现模式,按照其功能作用可分为预测性和描述性挖掘,描述性规则挖掘对数据中存在的规律、规则做出一种描述,它涵盖了数据挖掘中关联分析、序列模式发现等重要研究领域。论文研究工作结合省知识产权平台建设工作,针对专利文献的挖掘和利用,在现有的描述性规则挖掘研究的基础上,针对描述性规则挖掘的实际需求和若干需要解决的关键技术,以关联规则分析为基础,对描述性规则挖掘中的序列模式挖掘技术、分布环境下关联规则快速挖掘技术以及基于关联分析的离群知识发现方法等进行研究。针对序列模式挖掘过程本身是一个反复的交互式过程,提出了一种基于PrefixSpan的快速交互式序列模式挖掘算法,当最小支持度发生变化时,算法能够充分利用前次或中间结果,快速生成新的模式;结合序列模式的增量式更新问题,提出了基于投影数据库的序列模式增量式更新算法ISPMP,算法采用间接拼接的方法更新已经得到的序列,用增量数据库来减小投影数据库,从而有效提高算法效率;在此基础上,为了进一步提高序列模式挖掘的效率,提出了一种基于二进制形式的候选频繁序列模式生成和相应的计算支持数方法,该方法只需对挖掘对象进行一些“或”、“与”、“异或”、等逻辑运算操作,显著降低了候选频繁序列模式生成和相应的支持数计算的实现难度,将该方法与序列模式挖掘及更新算法相结合,可以有效提高序列模式挖掘及更新算法的效率;针对大数据集关联规则发现问题,提出了一种快速挖掘全局最大频繁项目集算法FMGMFI,该算法采用FP-tree存储结构,由于FP-tree结构是一种压缩的存储结构,数据库中的记录可被压缩存储在建立的局部FP-tree的各路经中,使得FMGMFI可方便地从各局部FP-tree的相关路径中得到项目集的支持度,同时采用自顶向下和自底向上的双向搜索策略,可有效地降低网络通讯代价,高效地生成关联规则;最后,针对现有离群点检测算法多数面向低维空间数据,并且缺少语义解释的问题,结合关联分析及粗糙集知识提出了一种基于关联分析的离群点检测算法,算法可以有效发现存在于大量数据集中有别于正常关联模式的那些异常数据点。在论文的研究过程中,针对所提出各种算法进行了大量的实验验证,实验结果表明了算法的合理性和有效性。