基于Rough集的层次聚类算法研究及应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:chenfenglianxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,数据挖掘技术得到了广泛的关注。在数据挖掘技术中有很多研究领域,聚类分析是数据挖掘的一个非常活跃的研究方向,有着重要的理论意义和应用价值。目前在文献中存在大量的聚类算法,算法的选择取决于数据的类型,聚类的目的和应用。聚类算法具体可以分为划分方法,层次方法,基于密度的方法,基于网格的方法,以及基于模型的方法等。   在中、小规模的数据聚类应用中,层次聚类算法不仅适合用于任意属性和任意形状的数据集,还可以灵活控制不同层次的聚类粒度,因此具有较强的聚类能力。而传统的凝聚层次聚类算法大部分只能处理数值属性数据,本文针对字符型数据和混合型数据的聚类方法进行了研究。   首先,在经典粗糙集(又称Rough集)理论的基础上,通过松弛对象之间的不可分辨和相容性条件,得到了基于和谐关系的扩展粗糙集模型。该方法有别于传统凝聚层次聚类算法中广泛应用的距离方法,采用和谐度的定义,有效地解决了混合属性对象间的相似性度量问题。   其次,重新定义了个体间不可区分度、类间不可区分度、聚类结果的综合近似精度等概念,提出了一种新的混合数据类型层次聚类算法。该算法不仅能处理数值型数据,而且能处理大多数聚类算法不能处理的字符型数据和混合型数据。实验验证了算法的可行性。   最后,结合Web用户的行为模型,将新的层次聚类算法应用于Web用户挖掘中,提出了一种新的Web用户聚类算法。该算法综合考虑了Web用户浏览行为中的浏览时间和浏览频率,提高了Web用户挖掘的准确度。实验证明该算法比单纯考虑时间或单纯考虑频率的算法具有更好的聚类结果。
其他文献
基因组中的Motif预测算法研究结合了生物学、应用数学、计算机等学科领域,是当前生物信息学研究的一个热点。本文在研究Motif预测算法基础上,针对海量生物基因组数据库的查询搜
学位
主动轮廓线模型(Snake)是一种有效的复杂轮廓提取及图像解释方法,它通过不断地极小化自身的能量函数来达到定位物体边界的目的。但是,传统的Snake模型及其应用仍存在一些问题,如
学位
图像分割是图像识别与理解中的关键步骤之一,图像分割质量的好坏将直接影响图像识别与理解的结果。近年来,在图像处理和计算机视觉领域中,符合人眼视觉模型的多分辨率技术日
学位
随着计算机技术、多媒体技术及Internet的迅速发展,基于内容的图像检索成为多媒体领域最活跃的研究热点之一。它结合人工智能、计算机视觉、模式识别、心理学等研究领域,通过对
学位
随着数字电视的普及,数字电视网上的非法复制和侵权行为越来越严重。据国际知识产权联盟(IIPA)2006年的统计数据显示,90%以上的盗版是通过对终端接口解密以后的数据进行拷贝和录
随着计算机网络和Internet的迅猛发展,运用先进的管理信息系统(MIS)及软件开发平台,对信息进行科学化和网络化管理,已经成为高校信息系统的发展趋势。学科建设是高等学校发展
2000年以来,在人类、水稻等重要生物基因组草图相继完成和信息技术发展不断推动下,生物信息学研究进入了崭新的后基因组时代。基因组信息爆炸式增长、研究工具不断涌现、研究
学位
随着新型嵌入式芯片层出不穷,相应的高级语言汇编器是必不可少的。然而,汇编器的复杂性决定了不可能在短时间内重新为一款新型芯片开发出高级语言汇编器。因此,不断出现的新
学位
随着软件系统的普及,软件测试成为保证软件质量、提高软件可靠性的重要手段。而软件测试的工作量很大,用人工测试几乎难以胜任,在规模迅速扩大的软件系统中,实现高准确度,高
多媒体的应用越来越广泛,已经成为网络传输的主体,如何有效传输这些多媒体数据,已经成为网络时代的一个新的研究方向。多媒体传输涉及到一系列多媒体相关理论,如多媒体数据压