大规模数据集聚类方法研究及应用

被引量 : 0次 | 上传用户：catticc

【摘要】

：

聚类问题一直是模式识别领域的热点课题,很多聚类方法纷纷涌现。这些方法大多在适合自身特点的小规模数据集上表现出优良的性能,但在大规模数据集上往往收效甚微,甚至无法运

【作者】

：

钱鹏江

【发表日期】

：

2011年期

【关键词】

：

聚类大规模数据集时间复杂度谱聚类相似度聚类均值漂移核密度估计最小包含球 Parzen窗压缩集密度估计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类问题一直是模式识别领域的热点课题,很多聚类方法纷纷涌现。这些方法大多在适合自身特点的小规模数据集上表现出优良的性能,但在大规模数据集上往往收效甚微,甚至无法运行。针对大规模数据环境下聚类问题的这种困境,本课题进行了相关研究,并先后提出了四种适用于大规模数据集的聚类方法和一个基础理论,分述如下:第二章给基于图论的松弛聚类算法GRC的目标表达式引入约束条件和一次优化项后首先提出约束型图论松弛聚类算法CGRC,又CGRC可视作一个中心约束型最小包含球问题,于是使用基于核心集的最小包含球快速估计技术进而提出了快速图论松弛聚类算法FGRC,渐进时间复杂度与样本容量呈线性关系是FGRC的最大优点。概率密度估计是模式识别领域的基础研究之一,很多后续工作都基于它而展开。本文第三章提出快速自适应相似度聚类方法FASCM和第四章提出快速均值漂移谱聚类算法FMSSC都是如此,它们均以快速压缩集密度估计器FRSDE为基础而展开。第三章首先证明相似度聚类方法SCM的相似度度量函数相当于一个基于高斯密度核的概率密度估计函数,于是利用FRSDE可以快速地得到具有稀疏权系数形式的相似度函数,从而大大降低了SCM中SCA过程的计算开销。接着使用图论松弛聚类技术代替层次聚类过程,使算法具有了自适应能力,摆脱了人工经验的依赖增强了实用性。这就是FASCM的主要思想。第四章指出原均值漂移谱聚类算法MSSC繁重计算开销的根源是使用了Parzen窗密度估计式。为此该章重新设计了MSSC的架构,以FRSDE取代其PW,以本文第二章提出的CGRC算法代替其简单模式合并方法,从而提出了快速均值漂移谱聚类FMSSC算法。FMSSC较MSSC显著提高了实用性,其总体时间复杂度与样本容量近似呈线性关系。第五章推导了图论松弛聚类算法GRC的目标表达式可表示成“PW加权和+平方熵”的形式,因此GRC也可看作一个KDE问题。于是利用KDE近似定理提出了基于KDE近似的大规模数据集图论松弛聚类SUGRC-KDEA新方法。SUGRC-KDEA的关键抽样容量要适量,为此该章同步提出了基于超球分割的随机抽样算法HSBRS。HSBRS既保证抽样子集容量合适又保证能较好地反映原数据集的数据分布规律。第六章提出了一个基础性理论:快速核密度估计定理。该章利用柯西-许瓦茨不等式证明了基于抽样子集的KDE和基于完整数据集的KDE的误差上限仅与抽样容量和核参数相关,与其它因素无关。即只要抽样容量和核窗宽合适,可以用抽样子集代替原数据集进行核密度估计。该定理的得出为所有基于数据抽样的模式识别方法或技术提供了新的理论支撑。本课题的所有研究均属于此范畴。

其他文献

我国股权众筹的法律问题研究

股权众筹是近几年我国依靠互联网发展的一种新的融资方式,是由有融资需求的企业在互联网众筹平台上发布融资项目,吸引投资者投资项目,而融资者以股权的形式回报投资者,投资者

学位

股权众筹众筹融资案股权众筹豁免制度

天津区域金融发展与经济增长实证研究

金融发展与经济增长关系问题是金融发展理论的核心内容,国内外的相关研究也较多。但是,目前国外的研究主要集中于国别层面,国内研究也主要以全国或省一级的有关数据为基础进

学位

金融发展经济增长区域金融

高速公路机电设备安装的安全及质量管理

对高速公路机电设备安装的特点进行了概述,对安装过程中常见的电气设备振动、机电螺栓联结、电气设备安装等问题进行了总结,提出了机电设备安装安全管理的意义和措施,对加强

期刊

高速公路机电设备安装安全管理质量管理

一种锪窝深度测量工具的设计

为满足锪窝深度测量对精度和经济性的要求,设计了一种简易的锪窝深度测量工具,具有设计制造简单、价格低、精度高、测量范围广的优点。详细阐述了锪窝深度测量工具的设计过程

期刊

锪孔锪窝深度测量

难民危机下的巧实力：英德两国难民政策的比较

战争难民因中东和北非局势不稳定而涌入欧洲形成难民潮。此次难民潮是二战以来规模最大的一次,在欧洲引起诸多问题:各国处理难民事务的机构力不从心,未处理申请逐渐积压,入境

学位

巧实力难民政策英国德国国家形象

降血脂药品不良反应报告分析

目的:调查分析降血脂药品不良反应(ADR)发生的特点及规律,为临床合理用药提供参考。方法:从国家食品药品监督管理总局信息中心提供的"药品不良反应数据库"和"降血脂药物数据

期刊

降血脂药品药品不良反应报告分析

“新莱比锡画派”的艺术市场研究（1990-2010）

本篇论文选取“新莱比锡画派”艺术市场(1990—2010)作为研究对象。论文研究的目的是分析出“新莱比锡画派”艺术家作品在市场流通过程中,哪些因素共同促成其艺术市场的巨大

学位

艺术市场“新莱比锡画派”格尔德·哈利-吕布克拍卖艺术博览会收藏家展览艺术批评

诵读法在中等职业学校英语口语教学中的应用

随着中国进一步对外开放,经济不断发展,国际文化交流日益增多,用人单位对中职毕业生提出了更高的要求,特别重视他们的英语口语交流技能。而目前中等职业学校学生的英语口语能

学位

英语口语教学诵读教学法中职学生

风险投资参与对中国境内企业IPO影响的实证研究

在过去的2010年,490家中国企业在境内或境外首次公开发行上市,其中有204家公司在深圳交易所中小板上市,117家公司在深圳交易所创业板上市,数量和规模均超过了2007年的历史高

学位

风险投资IPO认证理论信号发送理论

论组合机床行业的现状及发展

本文首先对组合机床的现状进行了分析,然后针对性的提出了组合机床行业的发展对策,其目的是为了找到组合机床发展的瓶颈,提出发展趋势,对组合机床的发展具有重要的借鉴意义。

期刊

组合机床行业现状发展

大规模数据集聚类方法研究及应用

其他学术论文