论文部分内容阅读
随着信息技术特别是网络技术飞速发展,人们收集、存储、传输数据能力不断提高,形成了一种数据丰富而知识匮乏的局面,数据挖掘技术正是在这一背景下诞生的一门新学科,而离群数据挖掘是数据挖掘领域中重要的研究内容之一。本文从海量数据集的聚类性特征和属性权值对挖掘结果的影响作用出发,运用基于三角不等式模型的剪枝技术和p权值以及信息熵,对离群数据挖掘算法及其应用进行了深入研究,其主要成果如下:1)给出了一种基于p权值的离群数据挖掘算法(OMAW)。该算法首先采用基于三角不等式的剪枝技术,寻找出离群候选集,仅候选集驻内存;然后对离群候选集中的每个数据点,分两种情况:若近邻达不到K值,赋予一个相对较大权值,若达到K值,运用p权值方法,计算该数据对象与其K最近邻的距离和,和越大,则离群的可能性越大;将离群候选集中的每个数据点按权值大小排序,并确定是否为离群数据,从而较好地克服了离群检测中的掩盖和淹没现象;最后采用UCI标准数据集,实验验证了该算法的有效性。2)给出了基于属性权值的Wk-距离和离群数据挖掘算法。该算法首先结合信息熵的思想,自动获取数据对象的属性权值,客观地刻画出各属性的重要程度;然后采用剪枝技术,对数据集进行缩减,将不可能成为离群点的数据对象提前删除,得到候选离群数据集;其次根据离群候选集中数据对象之间偏差,计算其wk-距离和,并选取wk-距离和较大的前TOP-N个数据作为离群数据;最后通过实例分析和实验结果表明,该算法是可行的。3)在上述成果的研究基础上,以VC++6.0为开发工具,设计并实现了基于属性权值的天文光谱离群数据挖掘原型系统,并对软件功能模块及实现技术进行了详细说明,运行结果表明该系统为寻找未知的、特殊的天体提供了一种新途径。