基于联机模糊蚁群聚类的大数据分析研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:javawm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据的背景下,数据已经不是传统意义上的简单的处理对象,而是开始转变成社会的一种基础性的资源。大数据在数量上的规模给数据存储,管理存储数据以及数据分析方面带来了极大的挑战与机遇。大数据隐含着巨大的社会、经济和科研价值。然而传统的数据分析方法都是基于可加载数据上的,并不能直接应用于大数据之上,或者有针对基于大数据的算法,但是效果并不理想。因此,本文针对以上问题,提出了一种联机的模糊蚁群聚类算法。目前已经有很多基于抽样的方法来对这些大量的数据进行聚类分析,特别是基于模糊c均值算法的抽样扩展,比如联机模糊C均值算法。这类算法应用广泛的一方面是因为它易于实现而且算法的思想比较简单和易于理解。另一方面是因为模糊c均值算法的运算速度较快,这对于海量数据处理在速度上是一个非常大的优势。然而,这类基于模糊c均值的算法有一个非常大的缺陷就是对于簇类中心非常敏感,因此联机模糊C均值算法必须初始化簇类中心的个数和中心点位置。正确的初始化簇类中心个数是非常困难的,不正确的初始簇类个数得到的聚类结果与实际的簇类的差距将非常的大。本文提出一种基于蚁群聚类的改进的算法,可以在大数据的背景下来避免这个问题,蚁群聚类算法是一种自适应的算法,因此它不需要簇类个数与簇类中心点位置的初始值也能比较正确的得到簇类的个数与结果。本文提出的联机模糊蚁群聚类算法,就是结合了两个算法的优点并在大数据背景下提出了一些特殊的处理机制有机结合而成的,联机蚁群聚类算法能很好的解决联机模糊C均值算法的初始值敏感的问题。本文在第三章在详细介绍联机蚁群聚类算法思想及算法步骤的之后,我们在通过做了大量实验来检验和对比了联机模糊C均值算法与联机蚁群聚类算法在三个数据集上的准确率。最后为了能更加方便的测试与利用本文提出的联机蚁群聚类算法与联机模糊C均值算法,本文在第四章中对两个算法及参数的调试进行了系统的设计与实现。这样能更好的利用可视化技术来对比不同算法之间的性能,这样也加深对聚类算法结果的理解。
其他文献
地下开采引起地表沉陷是随时空间变化的连续过程。一般使用的静态地表移动变形规律,只是地表移动终止后的一个特例。要完善解决建筑物压煤开采的问题,需要预计开采过程中任意
随着稀疏理论的成熟及自然图像本身存在稀疏性的事实的发现,越来越多的图像分类开始基于稀疏表达模型,特别是在最近几年兴起的高光谱图像分类研究。高光谱图像因为其具有大量
1926年,李大钊根据北京大学订购的美国英文期刊《工人月刊》翻译了马克思专论中国的首篇文章《中国革命和欧洲革命》,先后发表了《孙中山先生在中国民族革命史上之位置》《马
目的探讨紫杉醇的遗传毒性作用。方法 Ames试验(试验设立8,40,200,1000和5000μg/皿5个剂量,同时设立自发回变组、溶剂对照组和阳性对照组。按平板掺入法在加与不加代谢活化系
会议
借助计算机技术的发展和不断应用,地图的表达媒介从纸质转移到了计算机,在方寸之间就能观察到整个城市、国家甚至地球的全貌。电子地图作为地图可视化的一种表现方式,相比传
近年来,环渤海港口企业之间竞争日益加剧。我国的港口企业在运营过程中一般都会采购储备大型设备的备件来应对各种维修,保证生产效率。目前秦港六公司采购业务消耗了公司大量的成本,产生了大量备件库存,但缺货影响故障维修的情况还时有发生,给公司的各项管理工作带来很大负担。因此秦港六公司迫切需要在高效保障设备运行的同时,减少采购成本和库存压力,提高企业自身的综合竞争力,适应新形势下的竞争格局。本文在秦港六公司采
证券企业在金融行业的发展突飞猛进,但是许多业务的处理及管理方式较为落后,信息化程度较低,未有效地使用科技手段处理企业的各项业务及管理流程,使得企业在各方面的业务处理
随着经济社会的快速发展和人们出行需求量的不断增长,交通拥堵已成为亟待解决的社会问题。实践证明:可变信息标志(Variable Message Sign,VMS)作为一种有效的群体诱导信息发布系统对于缓解交通拥堵、合理分配路网交通流量起到了不容忽视的作用。然而,VMS布设位置的选择缺乏系统、科学、合理的论证,如何合理布设VMS能够最大程度地实现路网交通流的合理诱导、其布设位置如何影响交通流分配等,都
代码编程是高校计算机等相关专业的必备技能,但互联网技术的发展使得代码抄袭问题日益凸显,小到学生的编程作业大到软件产品都或多或少存在。抄袭对于学生来说既不利于他们的发展和成长,也不利于他们能力的提升,而对于软件企业来说抄袭可能涉及到侵权问题。现有的研究中,大多数的源代码抄袭检测方法是针对小数量的代码库文档进行的,而且常用一对一匹配的方法进行抄袭代码对检测,随着源码数量的日积月累,常用的一对一匹配的源
早在中国古代就有“三人行必有我师”的同伴教学思想,在20世纪90年代富含同伴教学思想的同伴教学法在美国课堂教学流行起来,并向国际上推广。同伴教学法坚持以学生为主体、教师为主导的教学理念,与新课程标准理念不谋而合,对改变课堂现状与促进各方面能力有作用。目前,关于同伴教学法在信息技术学科的教学应用尚未有系统的研究,而从理论上来看同伴教学法对改变传统信息技术课堂教学模式、信息技术课堂教学现状有很大的帮助