基于Spark的三支决策聚类集成方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:xiaoshuishe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类在数据挖掘、机器学习以及模式识别等领域有着非常广泛的应用,聚类分析是一种针对无标签数据的无监督学习方法。聚类集成的优势在于能够组合多个聚类成员以提供更好的聚类结果,提高算法质量以及鲁棒性。三支聚类表示直观地刻画了哪些对象属于某个类簇,哪些对象不属于某个类簇。Spark作为大数据时代下的一个快速处理数据分析工作的框架,从2009年诞生之日起发展迅速,已成为大数据处理工具的主流。因此,论文针对大规模不确定性数据的聚类问题,提出了基于Spark的三支聚类集成方法。为了能够并行处理大规模数据,论文提出一种基于Spark的三支聚类集成模型。主要包括三个部分,首先,设计了基于分布式近邻传播算法的分布式基聚类器。近邻传播算法的优点在于不需要初始化簇的个数,算法稳定性好,为了使得近邻传播算法能够在集群上并行计算,论文对近邻传播算法中的相似度矩阵、吸引度矩阵以及归属度矩阵的RDD转换进行了改进。然后,对聚类成员的聚类结果构造OVERLAP矩阵,使标签对齐。同时,为了更好地避免聚类结果的错误划分,论文结合三支决策思想,使用了基于三支决策的多数投票法作为一致性函数。最后,论文采用了多组UCI数据集对该模型进行实验验证以及分布式算法的性能测试,测试结果显示本文算法具有良好的加速比和扩展比。为了进一步提高算法性能,基于项目组提出的簇核概念,结合三支决策思想,提出了基于簇核和超图的一致性方法。簇核是在所有聚类成员中,始终划分在该类簇的数据对象的最大集合,它反映了数据集的稳定的局部结构,将其作为一个整体进行后续的计算,必将大大减小计算数据的规模。论文将数据对象分为较大簇核、较小簇核,以及非簇核数据对象三类,并提出了相应的处理策略。利用超图反映数据之间复杂关系的优势,论文基于簇核构造超图邻接矩阵,从而实现一致性聚类。在15个UCI数据集及4个大规模数据集上进行了对比实验工作。
其他文献
中国经济的高速发展给保险行业带来了新的发展机遇,保险业进入了快速发展阶段。保险公司的红利分配问题和风险控制问题显得尤为重要。本文主要研究了更新风险模型中的红利支付和再保险控制策略。公司通过控制分红和再保费的数量使得破产前公司的累积红利期望现值达到最大。第一章主要介绍了最优分红和再保险问题的研究背景、国内外的研究现状以及本文的研究成果。第二章首先介绍了离散更新风险模型的基础知识,接着在模型中引入了再
铜配合物由于其良好的发光特性被视为其他贵金属配合物的替代品,在染料敏化太阳能电池(DSSC)的研究中取得了极大进展。本文以Cu(I)配合物的研究为主题:以提高铜配合物的在可见光区吸光能力、延长激发态寿命为目标,设计开发了具有不同发色基团的Cu(I)配合物。以2-吡啶基咪唑配体为切入点,通过核磁、紫外可见吸收光谱、荧光发射光谱、激发态寿命以及量子产率等表征手段,探究了不同取代基的吡啶基唑类配体对配合
目的:研究静脉注射紫杉醇对肺高压大鼠肺动脉压力、肺血管重构及肺血管周围炎症的作用。研究方法:100只雄性Sprague Dawley(SD)大鼠(由南京医科大学提供,220-250 g),随机分成
近年来,由于比色和荧光检测方法与传统分析方法相比具有即时响应,选择性好,高灵敏度,低花费,易于操作等优良特性,被广泛报道。在众多报道的比色和荧光化学传感器中,发现基于二芳烯类的比色和荧光传感器吸引了众多研究者的关注,这是由于二芳基乙烯类化合物本身具有优于其他光致变色材料的优良特性,如卓越的热稳定性,优异的抗疲劳性以及快速响应等被称为最具有潜力的光致变色材料。然而大多数的二芳烯类比色或荧光传感器仅能
目的:探究绝经后女性血清中高密度脂蛋白胆固醇(HDL-C)和高密度脂蛋白颗粒(HDL-P)的水平与冠状动脉粥样硬化程度之间的相关性。方法:收集2018年11月1日至2020年1月1日在青海
目的:评价薏苡仁汤治疗风寒湿痹型膝骨关节炎的临床疗效和安全性。方法:采用回顾性研究,收集2018年6月至2019年8月期间于成都中医药大学附属医院骨科门诊就诊并分别服用薏苡
本学位论文仅考虑有限、简单且无向图.给定一个图G,我们分别用V(G),E(G),F(G),△(G)和g(G)来表示它的顶点集、边集、面集、最大度和围长.图G的强kk-边染色是指一个映射φ:E(G)→{1,2,...,k},若e1,e2 ∈E的距离至多为2,有φ(e1)≠φ(e2).称χs(G)=min{k| G有一个强kk-边染色}为G的强边色数.1989年,图的强边染色上界的一个著名猜想由Erd
食品会因芽孢的存在而引发腐败及一些安全问题,但是芽孢却又很难被各种杀菌方法杀灭,所以找到杀灭芽孢的路径迫在眉睫。造成芽孢死亡的关键之处在于芽孢皮层肽聚糖水解,由于芽孢萌发、核心水化、皮层裂解酶被激活,所以芽孢抗性消失,故将皮层裂解酶分离纯化出来就显得尤为重要。从天然菌种中提取皮层裂解酶,工作量大、难以分离纯化且产率还低,所以本文通过基因工程操作技术,构建了皮层裂解酶CwlJ的基因工程菌,以获得大量
黄芩来源于唇形科植物黄芩(Scutellaria baicalensis Georgi)的干燥根,是我国传统中药,应用广泛,具有清热燥湿、泻火解毒、止血安胎之功效,其主要有效成分是黄芩苷。黄芩苷具
念珠菌作为一种条件致病菌是引起真菌性奶牛乳房炎的主要病原菌之一。念珠菌致病性强弱与其毒力因子的携带情况有关,这些毒力因子主要有二相性、溶血活性、细胞表面疏水性和