基于覆盖的聚类算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:QQ0301
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“物以类聚,人以群分”,聚类伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区分不同的事物并认识事物间的相似性,而每个概念的最初形成无不借助于事物的聚类分析。聚类分析是数据挖掘领域中的一项重要的研究课题,它既可以作为单独的工具以发现数据源的数据分布信息,也可以作为其他数据挖掘算法的一个预处理步骤,因此研究如何提高聚类算法的性能具有重要的意义。 本文首先研究分析了数据挖掘、聚类的基本概念和一般方法,对聚类分析的前期工作:样本数据规格化、距离计算、关联程度的计算方法进行了综述;然后详细分析了现有的聚类算法,指出了它们的优缺点,重点提出了一种新的聚类算法——覆盖聚类算法(CCA),同时对提出的算法进行了一定的应用研究,归纳起来,本文的主要研究工作如下: (1)讨论了当前一些代表性的聚类算法,详细研究分析了基于统计理论的系统聚类算法、基于划分的K-means算法、基于矢量的LBG算法,对三种算法的数学理论、实现过程、性能进行了评述,并指出了它们的优点与缺点,为课题的进一步研究打下了基础。 (2)因为传统聚类算法具有如下问题:算法的效率问题、初值的选择问题、算法对输入参数的依赖性问题等。鉴于此,本文提出了一种新的聚类算法——覆盖聚类算法,该算法采用覆盖的概念将比较集中的样本聚合在一起,从而发现隐含在样本集中的类,对于周围稀疏的样本结合最短距离法,获得聚类效果。该算法可以在覆盖后求重心,不断调整所做的覆盖,对大量的样本数据不需要迭代,因而解决了其他聚类算法难以解决的问题:初值的选择和聚类速度。 (3)本文最后把覆盖聚类算法应用到医药公司药品销售数据聚类中,对药品销售数据进行聚类,实验数据证明了覆盖聚类算法的可行性和有效性。
其他文献
随着无线网络技术的发展及嵌入式系统的广泛应用,GSM/CDMA的应用已经不局限于语音通话。随着短消息平台的开放,CDMA/GSM正越来越多地广泛应用于监控、数据采集、GPS定位、消防
设计并建立良好的医疗保障机制是世界各国面临的难题。良好的医疗保障机制是面对政府、社会保险、病人群体等,在费用、服务质量、覆盖面等因素间保持均衡的机制。而如何寻求这
随着互联网技术的迅猛发展,大规模的数据也随之产生,传统的数据存储方式已经满足不了海量数据对于存储和处理的需求。云计算平台的出现,则为海量数据带来的问题给出了一个很
多播是一种高效的群组消息交互模式,其可以降低网络传输代价并能达到较高的可扩展性。很多群组应用都使用了多播技术,如股票行情服务、数字媒体分发、视频会议、付费电视和网络
在当今网络时代,随着世界范围内空间技术的发展,分布式计算技术已广泛应用到航天各个领域。而航天器的故障诊断和容错技术则随着航天器飞行任务扩展、测控精度提高以及工作寿命
随着多媒体技术和计算机通信的日益发展,具有庞大数据量的数字图像极大地制约了图像通信。采用有效的压缩编码技术删除冗余,以尽量少的比特数存储图像,并同时保证图像的质量,
商品管理—采购客户高需求量的商品,处理积压的商品,并把商品以最大利润销售出去—对于零售商来说是成功的关键,因为商品是零售的基础。特别是在一个电子商务环境中,客户的需
当今随着经济环境的全球化,企业面临着越来越激烈的竞争。工作流引擎是工作流管理的技术核心,是实现企业业务流程运行、管理与集成,从而最终实现业务流程的自动化的核心技术
火力发电厂设备检修是电厂管理者甚为关心的问题。网络计划技术是一种广泛应用在各个生产领域中的科学管理方法,网络计划图是网络计划技术的表现形式。电厂机组检修是保证电厂安全生产的一项重要工作,而机组大修网络计划图的应用可以大大提高电厂机组检修工程的效率。 本文在详细调研基础之上,通过客户需求分析、所需算法的研究和实用化功能设计,提出了网络计划图绘制软件系统的设计方案;并且根据项目管理技术设计出了关键路径
软件开发过程的控制和管理一直是软件工程与项目管理领域的研究重点,在各种计算机应用软件开发过程中起着举足轻重的作用。但是目前的各种理论和方法的研究或者过于抽象,可操作