论文部分内容阅读
信息技术的不断推广应用,将企业带入了一个信息爆炸的时代。如何充分利用这些数据信息为企业决策者提供决策支持成为一个十分迫切的又棘手的问题,人们除了利用现有的关系数据库标准查询语句得到一般的直观的信息以外,必须挖掘其内含的、未知的却又实际存在的数据关系。相似序列地挖掘和关联规则的挖掘是其中之二种数据挖掘的类型。著名的Apriori算法是一种挖掘关联规则的算法。 本文在相似序列的度量上提出一个用“生态位相似度量”的度量方法来解决序列的相似度量问题和在Apriori算法基础上提出改进的算法,通过对参与候选集的元素计数的方法来减少产生候选集的组合和减少数据库的扫描次数来达到要求。这有利于提高挖掘的速度和减少数据库的I/O操作时间的开销。本文所提出的算法已经在信息管理系统得到应用,并证明是有效的。