【摘 要】
:
聚类分析作为重要的数据挖掘技术,已在电信、市场、金融、医学、科研和互联网等诸多领域得到广泛应用。聚类就是根据相似性把对象划分成组的过程。聚类分析的数据可分为数值数
论文部分内容阅读
聚类分析作为重要的数据挖掘技术,已在电信、市场、金融、医学、科研和互联网等诸多领域得到广泛应用。聚类就是根据相似性把对象划分成组的过程。聚类分析的数据可分为数值数据和分类数据等。传统聚类算法对数值数据研究得比较多,涉及的聚类相似性度量也较简单,往往是基于数值数据固有的距离意义,对分类数据聚类的效果并不明显。同时,传统聚类算法和现有针对分类数据的聚类算法没有考虑属性以及属性值在聚簇的不平衡性,认为所有属性值对聚簇的形成起同等决定作用。一个好的聚类结果应该满足相同聚簇的对象尽可能相似,不同聚簇的对象尽可能相异,对于分类数据而言,在某聚簇占优的属性值,在其它聚簇出现的概率应该相对较小。同时,聚簇的属性值是不平衡的,普遍出现在各个聚簇的属性值是不重要的,计算聚类相似性时应赋予较小的权重。基于以上两点,本文提出新的分类数据相似性度量。
现实中分类数据集不仅具有维度高、规模大的特点,而且还有动态增长和更新的特点。对分类数据聚类宜采用增量的聚类方式,充分利用已有的聚类结果,对新来数据进行聚类,而且增量性也是衡量现代聚类算法的重要指标。基于分类数据相似性度量的新方法,本文设计的分类数据聚类算法响应增量性的要求,是具有可伸缩的增量聚类算法。在UCI数据集和人工合成数据集上的实验表明新算法能取得很好的聚类效果和聚类效率。将新算法应用到亚健康数据的聚类分析,结果表明新算法还具有很好的可解释性和可用性。
其他文献
计算机安全自互联网普及以来逐渐成为人们关注的焦点,安全问题也成为业界最为头疼的问题。使用木马、病毒和蠕虫在互联网上窃取用户的个人敏感信息的事件也屡见不鲜,而这些恶
随着信息化技术的发展和数字化产品的普及,以计算机技术、芯片技术和软件技术为核心的嵌入式系统成为当前研究和应用的热点。微电子技术和嵌入式操作系统的不断发展,为数字网
随着科技的进步和技术的发展,在临床医学中医学CT图像发挥着越来越重要的作用,它成为医师诊断疾病的重要手段,尤其在肺癌的早期检查中。近年来,医学影像技术的发展提高了医学
自R.Ahlswede等人于2000年提出网络编码的理论以来,网络编码逐渐成为网络信息论的研究热点。目前网络编码的研究开始逐渐向应用领域发展,如无线网络编码、传感器网络、大文件分
多示例分类模型最早是Dietterich等人[1]在研究如何解决制药业中选择哪种分子入药中提出的一种模型。在多示例学习中,我们直接把标签赋给多个示例组成的包,而不是包中的示例。
水平集(Level Set)方法最早由Osher和Sethian提出的,该方法的基本原理是将演化的曲线或者曲面作为零水平集嵌入到高一维的水平集函数中,通过演化高维中的函数,达到演化零水平
MicroRNA(miRNA)是一类长度约为22-24个核苷酸的非编码RNA,能够在转录后层次上调控基因表达。大量研究表明,miRNA与生物体内许多重要的生物过程相关,可以作为疾病临床诊断和
图像工程目前研究和发展的瓶颈主要在理解层次上。本文提出了以像素统计为基础,将图像处理、图像分析、图像理解三个不同的过程融为一体。同时,在保留原有算法优点的基础上,解决
随着电影行业信息化系统的不断完善,制片商和放映公司积累了大量商业电影的观众和票房销售数据,这些海量数据使用传统的查询或分析工具往往不能识别其中有价值的信息。如何更
保障城市排水管网安全运行,必需对排水管网进行全面监测。山地城市地形地貌复杂,地质结构特殊,滑坡、山体崩塌等自然地质灾害时常发生,这些地质灾害可能会引起排水管网破裂、