基于基划分选择和加权的聚类集成算法设计与实现

来源 :山西大学 | 被引量 : 0次 | 上传用户:X80908888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类集成能够产生高质量和鲁棒的划分结果,解决了单一聚类算法只能解决特定问题的缺陷。聚类集成主要包括了两个步骤:(1)生成基划分;(2)信息矩阵的表示及生成一致性聚类结果。加权聚类集成和聚类集成选择是从不同的角度进一步提高聚类集成方法性能的两种方法。聚类集成选择生成基划分后采用不同的准则选出高质量的基划分结果,目前鲜有工作从基划分结果中簇之间的关系出发设计衡量基划分质量的标准。现有的加权聚类集成方法通常认为基划分中的每个簇都是同等重要的,为其分配相同的权重,却忽略了不同簇中所含有的信息存在一定的差异。因此为各个簇分配不同的权重是更合理的策略。本文针对以上两个问题,分别作出了进一步的研究与改进,提出了两个新的算法,并与现有的较经典的算法进行了完善的实验对比。主要工作如下:(1)提出了一种基于簇紧凑性的加权聚类集成算法。通过计算所有样本中各属性方差的均值作为该簇的方差,并定义了簇紧凑性指标作为权重刻画每个簇的重要性,再利用它们对传统的相似性矩阵Co-association matrix(CA)矩阵进行加权,从而得到最终的结果。(2)提出了一种基于类内散度和类间散度的聚类集成选择算法。通过计算基划分中簇的类内散度和同一基划分中不同簇之间的类间散度,定义了每一个基划分的类内类间散度来衡量该基划分的聚类质量。本文通过确保簇的类内散度尽可能小,簇之间的类间散度尽可能大来保证基划分的类内类间散度达到最小,从而选出高质量的基划分结果进行聚类集成。(3)设计并实现了基于MATLAB的加权聚类集成分析系统。该系统实现了数据集的导入、算法的内调、评价指标的选取以及实验结果的展示。采用了MATLAB GUI技术实现了系统的可视化界面。本文所研究的内容是聚类集成中有待解决的关键问题,为聚类集成的研究起到了推动作用,并且在实际生活中也具有可解释性,是未来研究的热点之一。
其他文献
目标跟踪技术是机器视觉研究领域极为重要的组成部分,已在军用和民用领域得到了广泛应用。由于视觉跟踪技术需要面对目标被遮挡、光照变化、快速运动等具有挑战性的场景,同时,现有运算平台大多数是一些高功耗和大体积的系统。因此需要设计一种鲁棒的多策略目标跟踪算法,且使用低功耗和小体积的嵌入式开发系统。论文重点研究和设计一种能够解决实际场景问题的多策略目标跟踪系统,改进核相关滤波目标跟踪算法,并在嵌入式系统上完
随着物联网的发展,RFID技术目前正广泛地应用于越来越多的场景中。RFID系统通常需要在较远的读取范围内操作,并且要准确和低成本。有芯片RFID标签支持较远的读取范围,但成本较高。相比之下,无芯片RFID标签成为提高标签可靠性和降低成本的一种有效方案。由于没有芯片的存在,标签仅靠散射阅读器发射来的电磁波来传输有用信号,导致传输距离短。因此本文针对无芯片RFID远距离传感的问题展开研究,主要研究内容
逻辑推理是人类智能的核心,也是人工智能领域的一个关键且具有挑战性的研究课题。人工智能当前在图像的识别和分类任务上取得了显著的进步,但不足之处在于当前的识别系统缺乏推理能力。人工智能的目标之一是开发具有类似人类逻辑推理能力的机器,因此我们有必要来深入理解机器中的学习和推理。如何让计算机学习拥有类似人类的逻辑推理能力是一个非常重要的研究内容。当前的人工智能推理技术仍不成熟,让机器直接进行推理是比较困难
跨模态检索技术是信息检索领域的研究热点,该技术是指通过放入一种模态的数据进行查询,之后检索并返回的结果是与查询时不同的另一种模态的数据,但两种数据的表达相关。当前跨模态检索技术存在的根本问题是不同模态的数据在表达上虽然都是表示同一件事情,即它们在语义上具有关联性,但是抽取出的底层特征所处的空间结构差异太大,即特征空间上存在异构鸿沟。处理好跨模态检索技术难题的关键是解决底层特征上存在的结构差异性、关
半监督聚类是将半监督学习和聚类算法相结合,通过已有的先验信息指导聚类提高算法性能,在生物医学、图像处理、自然语言等领域广泛应用。先验信息主要分为少量带标签的样本集和成对约束两类,现阶段半监督聚类算法大多单一的使用一种监督信息指导聚类,这样会造成一些先验信息的浪费,本文将如何同时使用两种先验信息进行指导聚类算法进行了系统研究,并且扩充了成对约束信息从而提高了算法性能。主要工作如下:(1)提出了一种基
词义理解是人在阅读中必备的一种能力,也是考试阅读理解中重要的一项考察内容。词义理解题通常有两种形式:(1)词义辨析题:给定目标词语及其释义,判断该释义是否为目标词所在上下文的意义。(2)词义解释题:给定目标词及其上下文,给出目标词的意义解释。本文针对这两类挑战性问题提出了相应的解决策略。本文的主要工作如下:(1)尝试了基于相似度的多策略词义辨析题解答方法。本文从词义辨析题的解答难点及人类解题的思路
随着互联网技术的飞速发展,网络上的新闻数据呈指数级增长,对新闻语料进行关键词提取有助于终端用户快速了解新闻内容,有助于新闻媒体机构对新闻进行快速分类和检索,更有助于高效编辑和管理。传统关键词主要是通过手工标注方式,数据量大、维度高,同时需要大量昂贵人力和时间资源,已经远远不能满足系统高效实时可用等需求。本文基于新闻领域设计和实现了一个智能关键词提取系统,该系统利用深度学习模型自动进行特征学习,采用
作为数据挖掘的一项重要技术,聚类分析已经逐渐成为一种跨学科、跨领域的数据分析方法。传统的聚类是一种无监督的分析方法。半监督聚类主要是将少量先验知识融入到聚类过程中以获得更好的聚类结果。本文以半监督聚类为主题,就聚类的有效性进行了评估分析,主要研究内容如下:(1)大量的不同类型的半监督聚类算法已被提出,评估其算法的有效性已成为半监督学习的重要研究内容之一。然而,已有评估方法主要以无监督聚类结果为基准
在当前社会中,智能安防越来越凸显其价值,是维护社会长治久安的重要手段。自动视频分析系统是智能安防系统的一个子系统,主要是从监控视频内容中提取关键的行人信息。行人重识别正是自动视频分析系统的核心技术之一,目前已成为了深度学习领域的研究热点。近年来,基于深度学习行人重识别方法在开源数据集上已经表现出优越的性能,但是在跨域行人重识别问题上性能明显下降。本文深入分析了跨域行人重识别存在的问题,并利用深度学
近年来,面向智慧司法服务的法律判决预测已成为自然语言处理领域的研究热点。判决要素抽取是法律判决预测研究的重要子任务之一,其旨在从法律文书的事实描述中自动识别出不同的判决特征,现有研究主要是从法律文书的事实描述部分抽取出判决要素词汇或句子。法律判决要素抽取是判决预测研究的重要依据,为判决预测的结果提供可解释性。本文基于2019中国“法研杯”司法人工智能挑战赛“要素识别”任务,重点研究面向法律文书事实