基于CPU-GPU协同计算的平衡聚类算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:anywho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种重要的数据分析技术,其旨在将数据集划分成不同的子集,并且同一个子集中的数据元素具有较高相似度。经过研究者多年的研究,众多性能高效的聚类算法相继被提出,包括基于划分的聚类、层次聚类、密度聚类、网格聚类、模糊聚类等。聚类分析同时具有广泛的应用场景,如图像分割、推荐系统、异常值检测、信息检索等。某些场景对聚类结果的平衡度提出了要求,然而传统聚类算法通常未对聚类结果的平衡度,即未对任意两个簇之间的数据元素个数最大差值做出约束,所以生成的簇平衡性往往较差,经常出现簇过大或者过小簇情形。因此,如何保证聚类结果质量的同时进一步约束结果簇的平衡性具有重要的研究和应用价值。本文针对平衡聚类算法及其性能优化展开研究,主要工作包括:(1)提出一种基于模拟退火与贪心策略的平衡聚类算法。为了提高现有平衡聚类算法的聚类效果与时间性能,提出了一种低时间复杂度的平衡聚类算法。该算法采用模拟退火策略在数据集中首先快速找到合适的平衡聚类初始点,模拟退火作为一种近似算法可以在较短时间内获得NP-Hard问题的一个高质量的解决方案代替最优解,降低了算法的时间复杂度。然后,基于模拟退火选择出的初始点,算法使用一种贪心的策略形成K个簇,具有较低的时间复杂度。然而,该算法只能够产生几乎绝对平衡的聚类结果,很难生成相对平衡尤其是满足用户自定义平衡度的聚类结果,不能够精确约束聚类结果中任意两个簇数据元素数目差的最大值。(2)提出一种基于K-means算法的τ-平衡聚类算法。针对现有相关工作以及第(1)点中的提到的算法的不足,提出了一种能够精确约束聚类结果任意两个簇规模差的τ-平衡约束聚类算法。其中,τ表示聚类结果中任意两个簇规模的差的最大值,支持用户自定义。随后,算法设计了两层过滤器对数据元素分配步骤中的中间多余的距离计算进行过滤,同时优化了质心更新步骤。实验结果表明,所提出的τ-平衡聚类算法具有较好的平衡聚类性能和时间效率,相关的优化机制也进一步提升了算法效率。(3)面向CPU-GPU异构计算平台的平衡聚类算法加速。随着硬件技术的不断发展,GPU逐渐从处理专业图形计算领域开始往通用计算领域发展。由于底层工作原理的不同,GPU相比CPU更擅于处理同时具有重复、简单、大规模特性的计算任务。因此,协调CPU与GPU共同处理计算任务比单纯CPU下执行这些任务通常可以取得更高的执行效率。在现有的平衡聚类算法的工作中,也还未有针对CPU与GPU异构计算方面来进行算法优化的工作。本文对在第(2)点中提出的τ-平衡聚类算法及其相关优化版本算法在CPU-GPU异构平台上进行了性能优化,实验结果表明算法效率有了更进一步地提升。
其他文献
目前,国内陆上油田主要通过注水开发的方式提高原油采收率,实现原油增产稳产。注水工程能够维持油层压力,保持油层稳定,但系统电能消耗巨大,约占油田总耗电量的40%。目前国内油田陆续进入高含水开发阶段后期,注水量逐年增大,管网压力逐渐上升,系统耗能日益升高。对于大型多源枝状注水系统,管网结构复杂,部分管段水流方向不确定,造成凭经验进行系统生产运行方案优化难度大,系统能量浪费严重,系统效率低。因此,开展多
温度交变系统目前广泛应用于汽车、电子、新能源、材料合成等民品行业以及某些军品行业和各种科研机构实验室,其中高低温交变环境室是一种典型应用,其高低温温度范围一般在+1
苗族刺绣是苗族民间传承的手工艺,它是苗族历史的一个活的载体,是苗族人民勤劳智慧的完美体现,传统的苗族服饰被喻为“穿在身上的史书”。作为一个极具传奇色彩的古老民族,台
在人民物质生活得到充分满足的今天,人民更加注重对健康的追求。政府也出台医药政策,使得医药企业的发展受到社会关注。医药制造企业其前期资金投入大、后期收益回报高的特性决定了该行业会面临不确定的财务风险,企业需要及时发现财务异常情况,提出对策预防财务风险的发生。本文以M医药制造企业为研究对象,分析M企业具体的财务风险,在分析了财务预警方法的优缺点并结合M企业的实际情况后,采用改进的功效系数法建立财务风险
近年来,移动互联网发展迅速,4G网络深度覆盖,5G网络已开始发展。同时,国家“网络强国”政策利好、宏观经济稳定增长,也促进了通信消费及流量需求的增长。但随着国家提速降费
本报告基于“Hong Kong Polytechnic University(Poly U)SFQ Handbook for Academic Staff(《香港理工大学(理大)学生意见调查问卷教职员手册》)”的汉译实践撰写而成。该手册的英文源文来自香港理工大学,其是一所位于香港特别行政区的公立研究型大学。经过初步分析,该手册的源语文本和目的语文本均属于信息型文本(根据文本类型理论的分类)。报告进
《中庸》本是《礼记》的一个重要篇目,早在西汉时期就立于博士之官;自南宋朱熹将其纳入儒家四书之后,它从元代至清末一直是中国帝制时代科举考试的重要内容,深刻影响了一代又一代的读书人,在中国传统社会的思想道德教育中发挥过十分重要的作用。遵照习近平总书记关于“推动中华优秀传统文化创造性转化、创新性发展,不断提高人民思想觉悟、道德水平、文明素养”的指示,本文尝试挖掘《中庸》的德育理念及其当代价值,以增强当代
目的:分析单侧慢性鼻窦炎骨炎的好发部位及CT值对其评估的价值,探讨与单侧慢性鼻窦炎骨炎发生和严重程度相关的因素,为预防骨炎的进一步发展和骨炎导致的难治性鼻窦炎的发生提供临床参考。方法:回顾性分析2015年06月至2019年04月于大连医科大学附属第二医院耳鼻咽喉头颈外科住院并初次行功能性鼻窦内镜手术的94例伴或不伴鼻息肉的单侧慢性鼻窦炎(chronic rhinosinusitis,CRS)患者,
最近发生的“中美贸易战”是国际关注焦点,中美双方除了在政治、经济、外交等领域进行着博弈,在国际舆论领域的斗争也愈发激烈。提升舆论引导能力,牢牢把握国际话语权对于维护国家利益起着越来越重要的作用,而在国内舆论引导和国际舆论领域博弈中,新闻媒介发挥着十分重要的作用。本文通过对《环球时报》“中美贸易战”新闻报道进行分析,以期能够对主流媒体报道重大国际事件议题的框架建构和传播优化提供一些启发本文选取201
不确定性是客观世界和实体本身所具有的固有属性,它可以反映所获取的数据与真实数据值之间存在的误差大小。近年来,随着遥感数据广泛的应用于土地规划、灾害监测、目标检测等领域,成为处理地理信息问题的主要信息源,遥感数据中存在的不确定性越来越制约着遥感信息的产品化和实用化的进一步发展。而遥感分类技术作为遥感数据的主要应用领域之一,遥感数据的不确定性存在于分类的整个过程中,包括数据的获取、传输、处理和信息提取