基于距离和的离群数据挖掘算法及应用

被引量 : 0次 | 上传用户:zhxg1030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术特别是网络技术飞速发展,人们收集、存储、传输数据能力不断提高,形成了一种数据丰富而知识匮乏的局面,数据挖掘技术正是在这一背景下诞生的一门新学科,而离群数据挖掘是数据挖掘领域中重要的研究内容之一。本文从海量数据集的聚类性特征和属性权值对挖掘结果的影响作用出发,运用基于三角不等式模型的剪枝技术和p权值以及信息熵,对离群数据挖掘算法及其应用进行了深入研究,其主要成果如下:1)给出了一种基于p权值的离群数据挖掘算法(OMAW)。该算法首先采用基于三角不等式的剪枝技术,寻找出离群候选集,仅候选集驻内存;然后对离群候选集中的每个数据点,分两种情况:若近邻达不到K值,赋予一个相对较大权值,若达到K值,运用p权值方法,计算该数据对象与其K最近邻的距离和,和越大,则离群的可能性越大;将离群候选集中的每个数据点按权值大小排序,并确定是否为离群数据,从而较好地克服了离群检测中的掩盖和淹没现象;最后采用UCI标准数据集,实验验证了该算法的有效性。2)给出了基于属性权值的Wk-距离和离群数据挖掘算法。该算法首先结合信息熵的思想,自动获取数据对象的属性权值,客观地刻画出各属性的重要程度;然后采用剪枝技术,对数据集进行缩减,将不可能成为离群点的数据对象提前删除,得到候选离群数据集;其次根据离群候选集中数据对象之间偏差,计算其wk-距离和,并选取wk-距离和较大的前TOP-N个数据作为离群数据;最后通过实例分析和实验结果表明,该算法是可行的。3)在上述成果的研究基础上,以VC++6.0为开发工具,设计并实现了基于属性权值的天文光谱离群数据挖掘原型系统,并对软件功能模块及实现技术进行了详细说明,运行结果表明该系统为寻找未知的、特殊的天体提供了一种新途径。
其他文献
简要介绍了抽油机变频控制器在国内外的应用现状.分析了抽油机变频控制器目前存在的开环控制、电能泄放、信息孤岛、性价比低等诸多问题和推广应用中的障碍.最后预测抽油机变
阐述了突发环境污染事件应急监测的基本内容与要求,突发环境污染事件应急处置的基本原则,介绍了环境应急监测与处置的发展趋势,以及应具备的功能.指出各级环境监测站应结合实
平行结转分步法是将各步骤的成本直接在最终完工产品和广义在产品进行分配,由于各步骤的成本不是逐步结转下来,所以本步骤发生的成本与最终完工产品成本在计算上出现了脱节,
专业承诺和学习倦怠分别反映了大学生积极和消极的学习心理,了解当前大学生在这两个问题上的现状对提高教学质量有重要的现实意义。国内外已有大量学者作了相关的理论研究和
目的:本论文以老年SD大鼠为研究对象,旨在探讨枸杞菊花冲剂对老年大鼠视功能衰退的保护作用及有关机制。方法:将18-22月龄雄性SD大鼠随机分为老年空白对照组和老年低、中、高剂
飞机的维修分为航线维修和定检维修两大类。其中的飞机定检维修既关系到航空公司保持飞机安全飞行的质量,又涉及航空公司运营的成本,因此在航空业竞争越来越激烈的今天,这是
目的探讨不同手术时机对会阴Ⅱ-Ⅳ度撕裂修补手术的治疗效果。方法回顾性评价45例因分娩产生的会阴Ⅱ-Ⅳ度撕裂的产妇,根据年龄、职业、生产情况(初产妇/经产妇、顺产/助产、
移动自组织网络是由一组对等移动节点组成的多跳、临时、无固定基础设施的无线移动通信网络。现代通信技术的发展,为移动自组织网络的发展和完善可供了更可靠的技术支持。移动
纳米二氧化钛无毒、光催化活性高、稳定性好、对有机物降解速度快,降解后的产物主要为CO2和H2O,被誉为是绿色环保型光催化剂。但是由于其自身的缺陷,只能在紫外光照射下有响应。