【摘 要】
:
伴随着计算机技术的飞速发展,尤其是互联网技术的兴起和数据存储技术的提升,数据积累的速度越来越快,用户如何在有限的时间内得到有用的信息是目前计算机科学领域迫切解决的问题
论文部分内容阅读
伴随着计算机技术的飞速发展,尤其是互联网技术的兴起和数据存储技术的提升,数据积累的速度越来越快,用户如何在有限的时间内得到有用的信息是目前计算机科学领域迫切解决的问题之一,聚类算法研究就是其中的一项重要研究课题。聚类分析是通过计算数据样本间的相似性完成对于数据的划分,目前已经广泛应用于生物信息学、图像处理、地理信息学、物理高性能计算等领域。虽然传统聚类算法的研究已经取得了不错的效果,但是在处理海量数据的聚类问题方面目前的算法还不够理想,因此如何设计一种高效的聚类算法是当前数据挖掘领域急需解决的问题之一。
本文对于目前常用聚类算法进行介绍,对于常用算法的优势和存在问题进行了分析和归纳。结合目前计算机发展的新形势和机器学习理论,本文提出了一种基于单类支持向量机理论的分布式聚类算法。通过对于经典的支持向量机聚类方法进行改进,提高了算法处理效率,并用该算法结合Multi-Agent框架设计了一种分布式聚类系统。该系统通过对大规模数据集合进行划分,分发给不同分处理器处理生成支持向量,然后使用支持向量机构建邻接矩阵并求解最大连通分量的方法实现聚类。本文采用不同类别和规模的数据样本对系统进行了测试,对于结果进行了分析并与串行算法进行了对比,从实验角度证明了算法对于大规模数据处理的效果和可行性。
本文最后对于系统存在问题进行了归纳,并对聚类算法研究未来的发展进行了展望。
其他文献
Web日志频繁序列模式的挖掘是Web日志挖掘的重要组成部分,主要用来发掘站点和用户交互的频繁路径。利用这些频繁序列模式,可以简单的分析出用户的访问序列模式规律、进行建模
随着动车组的高速发展和大规模的使用,动车组已经成为了铁路客运和货运的重要工具,具有高效、安全、快速、高标准的服务功能,在交通中起到的重要作用也易于凸显。我国高速铁
深层结构学习是近年来机器学习领域兴起的一个学习范式,深层结构语义是数据分析的关键技术之一。本文主要针对深层结构学习中层与层之间的关系问题进行研究,其内容包括:
(1
随着视频压缩技术及网络通信技术的迅猛发展,尤其是无线通信技术的日趋成熟,以视频信息为主的多媒体数据在无线网络上的传输和处理已成为通信领域和多媒体领域共同关注的焦点
近年来,随着研究的深入,脑网络已经成为了热点领域。脑网络由结构脑网络与功能脑网络两部分组成,并且二者之间有着密不可分的关系。人们对脑网络进行研究,其主要关注点在于结构脑
脑-机接口(Brain-Computer Interface, BCI)(?)将人的思维解读为一系列的外部控制命令,使人们可以不依赖神经肌肉通路而达到与外界交流的目的。脑-机接口的研究在康复工程领
随着IP网络逐步由单一的数据传送网向多媒体信息的综合传输网演化,用户的需求也由单一化的基本满足向多样化发展。由于组播的多点传输和多方协作应用特点,同时具有高效的数据
微博作为一种新型的社交媒体,其信息通过发布、评论、转发的形式进行传播,传播过程具有裂变性,因此,具有较快的传播速度和较广的传播范围,它的出现使得传统媒介黯然失色。研
随着网络技术的飞速发展,基于无线传输技术的移动自组网(Mobile Ad hoc Network简称MANET)开始崭露头角。移动自组网与传统无线网络的不同之处在于:移动自组网不需要任何固定
早期的公文流转系统都是通过“硬编码”的方式将业务流程定义程序写在系统中,这就需要对原系统进行重新设计来适应流程的变更,不仅会给企业带来难以承受的工作量,同时使得系