面向含噪数据聚类相关算法的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户：shena011

【摘要】

：

聚类分析旨在对无标签数据进行集合划分,使得类间距离最大化、类内距离最小化,是机器学习经典的无监督方法。而当今数据越来越复杂,噪音越来越多,描述数据的特征维度和数据量

【作者】

：

陆进

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2014年期

【关键词】

：

聚类特征选择密度筛选目标函数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析旨在对无标签数据进行集合划分,使得类间距离最大化、类内距离最小化,是机器学习经典的无监督方法。而当今数据越来越复杂,噪音越来越多,描述数据的特征维度和数据量都在增加,传统的聚类算法面临着效率低下、准确度不高的挑战。本文通过研究处理含噪数据的聚类问题,提出了对采样表现稳定的Filter类聚类特征选择全局算法和基于K-means带噪音处理的聚类算法。实验表明,本文所提出的两个算法能较高效率的处理复杂数据,并获得更好的结果。本文的工作如下：[1]介绍了处理含噪数据聚类问题的相关概念和思路。[2] 面向特征中包含噪音的问题,研究了常用的Filter类聚类特征选择算法,包括Laplacian Score、SRANK,分析其原理并提出不足之处。[3]面向数据点集中包含噪音点的问题,研究了常用的基于密度聚类算法,包括DBSCAN、 DLCKDT、谱聚类,分析其原理并提出不足之处。[4] 针对不足之处,本文分别提出了对采样表现稳定的Filter类聚类特征选择算法以及基于K-means带噪音处理的聚类算法。其中,特征选择算法将每个维度的特征投影到样本差异空间中,利用熵加权的方法描述特征间组合的可能性,通过新的目标函数选择出最优的特征子集,并利用该子集对所有特征进行打分排序。聚类算法是基于谱的方法,利用KD-tree对局部密度进行描述,从而对数据的相似度矩阵进行降维,再进行K-means聚类。[5]通过仿真数据实验,验证本文算法的有效性；通过真实数据实验,对比本文算法和其他算法。实验证明,本文所提算法,能更好的处理含噪数据。

其他文献

基于统计的汉语自动分词系统

本文论述了基于统计的汉语自动分词系统的原理和过程。本文首先回顾了分词的发展历史,总结了分词的目标,分析了分词存在的问题,总结了前人对基于语料库的统计分词理论的研究

学位

语料库统计PAT 树词典分词

大型会场座位状态检测方法研究及应用

随着相关技术的快速发展,视频图像处理技术在智能交通、智能安防等很多行业与领域取得了成功应用。面对当前大型会场越来越普及的现实情况,在线准确把握会场状态,提高服务质

学位

视频分析座位状态多特征融合机器学习大型会场管理

Apriori-TIDS算法设计及其在教育决策信息挖掘中的应用

数据挖掘起源于20世纪90年代初期,它是知识发现过程中的一个关键步骤,也是当前知识发现领域中的一个研究热点。关联规则挖掘是数据挖掘中的一项重要任务,用于发现大量数据项

学位

数据挖掘关联规则Apriori算法教育信息

Parlay网关TCAP类协议映射子系统的设计与实现

下一代网络的出现是增值业务发展的必然趋势，下一代网络是基于分组交互的网络，它采用了分层的结构体系，分为业务层、控制层、媒体传输层和接入层。在下一代网络体系中，应用服务器

学位

下一代网络Parlay网关TCAP协议TC用户协议映射CORBAASN.1

面向服务的工作流管理系统

Web服务技术的蓬勃发展,进一步促进了面向服务架构(SOA)的繁荣,越来越多的组织机构已经或正在准备接纳这一新技术来构建基于Web服务的应用。传统的工作流管理系统已经不能满

学位

工作流工作流管理系统Web服务SOAEJB事务异常处理

云环境下基于LQNM的数据库系统自配置框架研究

随着云计算技术的快速发展,部署在云计算平台下的应用程序向着多样化和复杂化的方向发展,对云计算技术的要求也越来越高。云数据库作为云计算平台的后台支撑系统,其性能直接

学位

云计算数据库系统分层排队网络模型自适应配置

DSP芯片试验检测装置的设计与研究

数字信号处理器(Digital Signal Processor,DSP)具有运算速度快,处理性能强等特点,在电子产品的各个领域都有着广泛的应用。DSP的测试能够为包含其应用的电子系统设计的正确

学位

TMS320C6000系列DSP集成芯片测试试验检测装置

复杂背景下的运动目标分割和识别的关键技术研究

本文的研究目标是实现一个复杂背景下的运动目标分割和识别系统。运动目标分割方面。本文首先研究和比较了运动目标分割算法，指出在这些算法中，背景差法最适于解决本文中的运动

学位

运动检测目标分割目标识别混合高斯模型支持向量机

信息系统的动态属性约简研究

随着现代信息科技的迅猛发展，尤其是因特网上信息资源的高速增长，人们可以在短时间内搜集和积累大量的数据资料，使我们面对着日益严峻的信息挑战。我们不仅应当重视信息的有效性

学位

粗糙集可辨识矩阵动态约简SAT问题可满足性问题知识发现算法

智能交通中汽车牌照自动识别系统关键技术的研究

汽车牌照自动识别技术可以应用于道路收费、交通管理等领域,起到节省人力成本、提高效率、改进管理体系等作用。随着我国智能交通行业的发展,车牌识别技术越来越呈现出巨大的

学位

车牌定位边缘检测相连特征域字符分割字符识别BP神经网络

面向含噪数据聚类相关算法的研究

其他学术论文