论文部分内容阅读
数据挖掘技术是从大量的﹑不完全的、有噪声的﹑模糊的、随机的数据中,提取隐含在其中的﹑事先未知的﹑潜在有用信息的一门新兴技术。关联规则分析是数据挖掘中最重要的研究内容之一,旨在从大量的数据中或对象间抽取关联性知识,进而揭示数据或对象间的依赖关系。随着信息化水平的不断提高和监测手段的进步,在三峡库区水环境安全信息数据库中积累了大量的监测数据,如何充分利用这些数据来为三峡库区水环境安全以及国家的环保事业服务,是当前重点关注的问题。水环境安全数据中蕴藏着潜在的关联性知识,这些数据适合用关联规则分析方法来学习和认识;同时,水环境安全数据在类型特征上有其特殊性。如何运用先进的数据分析技术对其进行探索性研究,挖掘潜在的有价值的模式,这无论在理论研究还是实践指导上都具有重要的意义。本文针对上述问题,提出一种基于约束的序列模式挖掘算法(Constraint-based Sequential Pattern Mining,简称CSPM)。论文主要研究内容如下:①分析了数据挖掘技术、关联规则分析的基本理论和主要方法,总结了数据挖掘和关联分析的研究现状和研究方向。介绍了关联规则分析的经典方法Apriori算法的基本思想和算法步骤,并分析了Apriori算法的主要特点。②对多维量化数据和序列数据下的关联规则分析问题进行了分析和探讨。介绍了序列模式的定义和描述方法,提出了基于约束的序列模式挖掘算法,阐述了算法的步骤和关键问题。该算法改进了候选序列匹配产生的方法,并引入属性约束和时限约束来产生序列模式,提高了序列模式对序列知识的描述能力,改善了算法性能。③将基于约束的序列模式挖掘算法应用到三峡库区水环境安全的水质监测数据中。介绍了挖掘流程、数据库的建立和数据预处理过程;用本文提出的算法挖掘三峡库区水环境安全监测时序模式,并结合三峡库区水环境安全领域知识,对模式结果进行了说明和分析,验证了算法的有效性;探讨了序列关联挖掘在三峡库区水环境安全预警决策中的应用。