子空间聚类及其应用研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:aquabluesky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的聚类技术都是使用数据所有的属性来发现簇。但随着聚类技术应用范围的不断扩大,特别是近年来对气候研究、心理学、电子商务、基因表达谱等数据的分析应用,使用所有属性聚类的传统方法已不能满足对现代数据分析的要求。现代数据的一个重要特征是簇通常存在于部分属性所构成的子空间中,而非所有属性构成的全空间中。这样就要求有一种新的聚类方法不仅可以发现簇,而且还可以找出存在簇的子空间。它具体表现为在聚类完毕输出结果时,既要输出簇,同时还要输出相关维(构成子空间)。子空间聚类技术为此应运而生。然而同时发现簇和存在簇的子空间是非常困难的。一般来说,要想聚类就要先确定实施聚类的子空间;而要想确定聚类的子空间又依赖于包含足够多对象的簇,否则将无法确定簇中的对象在哪些维度(属性)上表现出相似性。那么究竟应该先聚类还是先确定子空间呢?这个问题似乎变成了一个关于“先有鸡,还是先有蛋”的争论!   本文的主要工作如下:   首先,根据对现有全空间和子空间聚类算法的研究,引入数据分布差异度的概念。通过该概念来描述子空间上数据分布的密集性,以便去除不相关维。基于数据分布差异度的概念进而提出一种新的子空间聚类算法SCDDD。   其次,为了解决自低向上搜索子空间时间复杂度偏高以及基于距离的相似度不宜应用于高维空间等问题,本文又提出了域转换的概念,将连续域的数据转换到离散域。然后进一步指出子空间聚类问题可以通过域转换变换为对频繁模式的搜索问题。然后本文提出了算法DTPTSubClu。实验结果表明该算法具有很高的精度和较好的运行效率。   最后,为了方便研究和应用,我们开发了软件“聚类分析工具”。基于“聚类分析工具”,本文对真实数据Food、中医感冒方剂和Yeast Cell基因表达数据进行了分析和研究。
其他文献
当今时代是信息高速发展的时代,视频和图像作为信息的重要载体之一,已经深入人们的日常生活。随着摄像系统越来越多的被应用于智能监控、目标跟踪等场合,对图像稳定性的要求也越
网络视频直播由于其便捷性、实时性、交互性等特点,越来越深入到网民的日常生活中。在直播业务量级和内容都不断发展的驱使下,用户和商家都越来越注重平台所能提供的直播体验质
计算机技术已经广泛应用于航空、航天、国防、电信、交通、金融、医疗等领域。在这些领域中,软件系统规模庞大,逻辑复杂,其可靠性和安全性往往有很高的要求。软件测试就显得尤为
随着计算机科学技术、GIS技术和数据库技术的日益发展,GIS空间数据的处理能力逐渐增强,空间数据的数据量也随之增大,由原来的GB级发展为现在的海量级。随着网络通信技术的发展,在
在科学实践中,很多问题都可以归结为优化问题。一般说来,科学实践中许多优化问题大都是多目标优化问题。多目标优化问题中存在多个目标,多个目标通常是相互冲突,相互竞争的,对其中
机器人足球比赛是近年来在国际上开展的高科技对抗活动的热点之一,在RoboCup中型组足球机器人竞赛中,视觉系统实现足球机器人感知外部环境的功能,是极其重要的系统模块,机器人的
科学计算可视化是通过使用计算机开发应用系统,把通过实测或数值计算获得的大量抽象数据转换为人们可以直接看到的计算机图形图像。它不仅是计算结果的可视化还可以是计算过程
天线是无线电广播、无线电通信、无线电导航、雷达、遥测遥控、射电天文等民用和军事领域里各种无线电系统中不可缺少的设备。关于天线的科学理论研究与实践应用中存在着大量
随着空间数据库(仓库)的快速增长和广泛使用,如何从空间数据中自动地发现空间知识变得越来越重要。空间Co-location模式是一组空间对象的子集,它们的实例在地理空间中频繁的一
随着互联网技术的迅速发展,Web应用软件的功能越来越强大,并以其广泛性、交互性、快捷性和易用性等特点迅速风靡全球,并且已经渗入到社会的各个应用领域,并将成为下一代软件的主