面向含噪数据聚类相关算法的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:shena011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析旨在对无标签数据进行集合划分,使得类间距离最大化、类内距离最小化,是机器学习经典的无监督方法。而当今数据越来越复杂,噪音越来越多,描述数据的特征维度和数据量都在增加,传统的聚类算法面临着效率低下、准确度不高的挑战。本文通过研究处理含噪数据的聚类问题,提出了对采样表现稳定的Filter类聚类特征选择全局算法和基于K-means带噪音处理的聚类算法。实验表明,本文所提出的两个算法能较高效率的处理复杂数据,并获得更好的结果。本文的工作如下:[1]介绍了处理含噪数据聚类问题的相关概念和思路。[2] 面向特征中包含噪音的问题,研究了常用的Filter类聚类特征选择算法,包括Laplacian Score、SRANK,分析其原理并提出不足之处。[3]面向数据点集中包含噪音点的问题,研究了常用的基于密度聚类算法,包括DBSCAN、 DLCKDT、谱聚类,分析其原理并提出不足之处。[4] 针对不足之处,本文分别提出了对采样表现稳定的Filter类聚类特征选择算法以及基于K-means带噪音处理的聚类算法。其中,特征选择算法将每个维度的特征投影到样本差异空间中,利用熵加权的方法描述特征间组合的可能性,通过新的目标函数选择出最优的特征子集,并利用该子集对所有特征进行打分排序。聚类算法是基于谱的方法,利用KD-tree对局部密度进行描述,从而对数据的相似度矩阵进行降维,再进行K-means聚类。[5]通过仿真数据实验,验证本文算法的有效性;通过真实数据实验,对比本文算法和其他算法。实验证明,本文所提算法,能更好的处理含噪数据。
其他文献
本文论述了基于统计的汉语自动分词系统的原理和过程。本文首先回顾了分词的发展历史,总结了分词的目标,分析了分词存在的问题,总结了前人对基于语料库的统计分词理论的研究
随着相关技术的快速发展,视频图像处理技术在智能交通、智能安防等很多行业与领域取得了成功应用。面对当前大型会场越来越普及的现实情况,在线准确把握会场状态,提高服务质
数据挖掘起源于20世纪90年代初期,它是知识发现过程中的一个关键步骤,也是当前知识发现领域中的一个研究热点。关联规则挖掘是数据挖掘中的一项重要任务,用于发现大量数据项
下一代网络的出现是增值业务发展的必然趋势,下一代网络是基于分组交互的网络,它采用了分层的结构体系,分为业务层、控制层、媒体传输层和接入层。在下一代网络体系中,应用服务器
Web服务技术的蓬勃发展,进一步促进了面向服务架构(SOA)的繁荣,越来越多的组织机构已经或正在准备接纳这一新技术来构建基于Web服务的应用。传统的工作流管理系统已经不能满
随着云计算技术的快速发展,部署在云计算平台下的应用程序向着多样化和复杂化的方向发展,对云计算技术的要求也越来越高。云数据库作为云计算平台的后台支撑系统,其性能直接
数字信号处理器(Digital Signal Processor,DSP)具有运算速度快,处理性能强等特点,在电子产品的各个领域都有着广泛的应用。DSP的测试能够为包含其应用的电子系统设计的正确
本文的研究目标是实现一个复杂背景下的运动目标分割和识别系统。运动目标分割方面。本文首先研究和比较了运动目标分割算法,指出在这些算法中,背景差法最适于解决本文中的运动
随着现代信息科技的迅猛发展,尤其是因特网上信息资源的高速增长,人们可以在短时间内搜集和积累大量的数据资料,使我们面对着日益严峻的信息挑战。我们不仅应当重视信息的有效性
汽车牌照自动识别技术可以应用于道路收费、交通管理等领域,起到节省人力成本、提高效率、改进管理体系等作用。随着我国智能交通行业的发展,车牌识别技术越来越呈现出巨大的