论文部分内容阅读
数据挖掘是当前计算机学科的一个前沿研究方向,作为一门应用性很强的新兴技术,它存在很多值得研究的地方。如何合理的应用数据挖掘技术,如何针对现实生活中的问题改进数据挖掘技术是其中的热点问题。
在大型数据库中快速找出有关的关联规则是数据挖掘技术的一项重要内容。人们提出了很多方法,但这些方法往往假设数据是精确的,不考虑数据丢失的情况。但是在现实生活中数据丢失的情况是很常见的,尤其是在商业数据库中,文件错误、纪录缺失、存储策略的改变等都会引起数据丢失而造成数据库的不完整。这种数据的不完整性会影响找寻关联规则的过程,因为在有数据缺失时对项集的支持度以及信任度的计算得不到确定值。进一步,由于支持度以及信任度的不确定性,还可影响到所挖掘关联规则的可靠性和可信性。因此,有必要对在不完整数据库中的关联规则挖掘进行支持度及信任度的估算。本文正是基于这一点,把Apriori算法应用于不完整数据库,通过引入期望支持度和期望信任度的定义,提出了一个在不完整数据库中挖掘关联规则的算法。实验结果证明,所提出的算法具有较好的效果。