子空间聚类及其应用研究

来源 :云南大学 | 被引量 : 0次 | 上传用户：aquabluesky

【摘要】

：

传统的聚类技术都是使用数据所有的属性来发现簇。但随着聚类技术应用范围的不断扩大，特别是近年来对气候研究、心理学、电子商务、基因表达谱等数据的分析应用，使用所有属性聚

【作者】

：

徐玉峰

【机构】

：

云南大学

【出处】

：

云南大学

【发表日期】

：

2009年期

【关键词】

：

子空间聚类聚类算法数据分布差异度域转换前缀树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的聚类技术都是使用数据所有的属性来发现簇。但随着聚类技术应用范围的不断扩大，特别是近年来对气候研究、心理学、电子商务、基因表达谱等数据的分析应用，使用所有属性聚类的传统方法已不能满足对现代数据分析的要求。现代数据的一个重要特征是簇通常存在于部分属性所构成的子空间中，而非所有属性构成的全空间中。这样就要求有一种新的聚类方法不仅可以发现簇，而且还可以找出存在簇的子空间。它具体表现为在聚类完毕输出结果时，既要输出簇，同时还要输出相关维(构成子空间)。子空间聚类技术为此应运而生。然而同时发现簇和存在簇的子空间是非常困难的。一般来说，要想聚类就要先确定实施聚类的子空间；而要想确定聚类的子空间又依赖于包含足够多对象的簇，否则将无法确定簇中的对象在哪些维度(属性)上表现出相似性。那么究竟应该先聚类还是先确定子空间呢？这个问题似乎变成了一个关于“先有鸡，还是先有蛋”的争论！　　本文的主要工作如下：　　首先，根据对现有全空间和子空间聚类算法的研究，引入数据分布差异度的概念。通过该概念来描述子空间上数据分布的密集性，以便去除不相关维。基于数据分布差异度的概念进而提出一种新的子空间聚类算法SCDDD。　　其次，为了解决自低向上搜索子空间时间复杂度偏高以及基于距离的相似度不宜应用于高维空间等问题，本文又提出了域转换的概念，将连续域的数据转换到离散域。然后进一步指出子空间聚类问题可以通过域转换变换为对频繁模式的搜索问题。然后本文提出了算法DTPTSubClu。实验结果表明该算法具有很高的精度和较好的运行效率。　　最后，为了方便研究和应用，我们开发了软件“聚类分析工具”。基于“聚类分析工具”，本文对真实数据Food、中医感冒方剂和Yeast Cell基因表达数据进行了分析和研究。

其他文献

块匹配运动估计算法在稳像中的应用研究

当今时代是信息高速发展的时代，视频和图像作为信息的重要载体之一，已经深入人们的日常生活。随着摄像系统越来越多的被应用于智能监控、目标跟踪等场合，对图像稳定性的要求也越

学位

电子稳像运动估计算法运动补偿块匹配运动平滑视频图像

网络视频直播QoE预测模型研究

网络视频直播由于其便捷性、实时性、交互性等特点，越来越深入到网民的日常生活中。在直播业务量级和内容都不断发展的驱使下，用户和商家都越来越注重平台所能提供的直播体验质

学位

网络视频直播用户体验质量预测模型准确率

软计算在基于UML模型生成测试用例中的应用研究

计算机技术已经广泛应用于航空、航天、国防、电信、交通、金融、医疗等领域。在这些领域中，软件系统规模庞大，逻辑复杂，其可靠性和安全性往往有很高的要求。软件测试就显得尤为

学位

软件测试UML模型遗传算法粗糙集理论

基于MapGIS数据中心的空间元数据库管理系统的研究与实现

随着计算机科学技术、GIS技术和数据库技术的日益发展，GIS空间数据的处理能力逐渐增强，空间数据的数据量也随之增大，由原来的GB级发展为现在的海量级。随着网络通信技术的发展，在

学位

数据中心元数据存储数据中心设计器数据库管理系统空间数据地理信息系统

NSGA-Ⅱ的研究及其在星座优化设计中的应用

在科学实践中，很多问题都可以归结为优化问题。一般说来，科学实践中许多优化问题大都是多目标优化问题。多目标优化问题中存在多个目标，多个目标通常是相互冲突，相互竞争的，对其中

学位

卫星星座优化设计遗传算法多目标优化NSGA-Ⅱ算法

基于视觉的足球机器人定位方法

机器人足球比赛是近年来在国际上开展的高科技对抗活动的热点之一，在RoboCup中型组足球机器人竞赛中，视觉系统实现足球机器人感知外部环境的功能，是极其重要的系统模块，机器人的

学位

足球机器人足球机器人视觉系统视觉系统高层策略规划高层策略规划颜色分割颜色分割特征提取特征提取数据流处理数据流处理

三维地层建模及显示

科学计算可视化是通过使用计算机开发应用系统，把通过实测或数值计算获得的大量抽象数据转换为人们可以直接看到的计算机图形图像。它不仅是计算结果的可视化还可以是计算过程

学位

三维可视化三维地层建模钻孔数据地质勘探计算机图形学

动态演化算法及其在卫星天线设计中的应用研究

天线是无线电广播、无线电通信、无线电导航、雷达、遥测遥控、射电天文等民用和军事领域里各种无线电系统中不可缺少的设备。关于天线的科学理论研究与实践应用中存在着大量

学位

卫星天线自动设计结构模型动态演化算法动态爬山算法约束优化

区域Co-location模式挖掘研究

随着空间数据库(仓库)的快速增长和广泛使用，如何从空间数据中自动地发现空间知识变得越来越重要。空间Co-location模式是一组空间对象的子集，它们的实例在地理空间中频繁的一

学位

空间数据库模式挖掘区域模式

Web应用测试建模与技术研究

随着互联网技术的迅速发展，Web应用软件的功能越来越强大，并以其广泛性、交互性、快捷性和易用性等特点迅速风靡全球，并且已经渗入到社会的各个应用领域，并将成为下一代软件的主

学位

Web应用测试测试模型性能测试测试工具

子空间聚类及其应用研究

与本文相关的学术论文