基于多核学习的多视图增量聚类模型研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:bach88888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人们的生活包含着各式各样的数据,许多数据中都含有很重要的信息。数据挖掘就是从海量数据中提取重要信息的一种技术。作为数据挖掘中的一个重要方法,聚类分析可以有效地将这些数据按照相似度划分为不同的簇,可以便捷地发现数据对象的内在分布规律。每个簇中的数据样本都具有相似的信息,不同簇间的数据具有差异较大的信息。而随着数据越来越复杂,传统的聚类算法无法从多个角度对数据进行分析,多视图聚类算法应运而生,并成为了现阶段研究的热点。多视图数据集是由从不同角度描述同一事物的数据组成的,多视图聚类算法通过组合所有视图中的有效信息对样本进行聚类,并得到最终的聚类结果。核函数是处理线性不可分数据的一种有效方法,而多核学习(MKL)是对核函数的一种改进方法,其将现有的核函数进行线性组合得到组合核函数来代替单核函数,并通过调整每个核函数的权重,使其适用于不同类型的数据集。本文基于多核学习的思想,提出基于样本加权和多核学习的多视图聚类算法,此算法通过对不同视图对某个样本的贡献度加权,并将权重的乘积设置为1,增加贡献度较高的视图所占的比重,提高聚类质量。本文还引入了改进的加权高斯核,解决了核函数选择的问题,最终通过迭代方法获得权重值与聚类结果。通过在多个数据集上进行实验证明了该算法具有更高的聚类质量。增量聚类算法是一种处理动态增加数据的经典方法。在已有聚类结果的基础上,逐个或逐批次的处理新增数据,可以避免大量的重复计算,以提高聚类效率。本文将增量聚类应用于多视图数据集上,提出了基于核K-means的多视图增量聚类算法,该算法将数据集划分为多个数据块,并对每个数据块使用多视图核K-means聚类算法进行聚类,最终将所有块得到的聚类结果进行合并,并再次聚类得到最终的聚类结果。通过在多个数据集上实验,证明该算法在保证聚类质量的基础上,降低了聚类所需的时间。
其他文献
随着电子商务的迅速发展,人们从网上获取的信息越来越多,顾客有了更大的选择空间同时也带来了一些新的课题。海量的数据信息增加了顾客购买所需的难度,在找到自己需要的商品前必
近年来,信息技术不断发展,互联网络技术在人们的生活中发挥着重要的作用。随之产生的海量数据中存在着大量未被挖掘的信息,没有有效工具的帮助,人们在寻找有效信息的过程中耗
电子邮件是当前互联网上使用最为广泛的服务之一,随着互联网及应用的不断发展,垃圾邮件大量蔓延,造成社会生产力的极大浪费。因此垃圾邮件过滤非常必要,具有重要的理论意义和社会
多视图的学习在最近十几年引起了众多研究人员的极大兴趣和关注。而传统的模式识别和机器学习的方法多是集中在单视图上进行的。这些单视图方法往往通过独立、交替的方法训练
随着互联网的迅速发展,网络问答系统成为一种具有应用前景的远程教育模式。目前国内多数教育问答系统对用户提出问句的理解仍然局限在关键词匹配的模式,反映了实用性和智能性的
随着人工智能的发展,人们对这个领域的研究不断深入。对类似真人发音的语音生成和获取的控制,是机器人发音系统急需解决的问题。DIVA(Directions Into Velocities ofArtculators
无线传感器网络是一种无基础设施的网络,它由一组传感器节点以自组织的方式构成,其主要目的是协作感知、数据采集和处理网络覆盖区域中的感知对象的信息,最后将经过处理得到详尽
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库中的数据量非常大,并且在逐年增大。因此提高查询速度是数据仓库必须要
互联网的快速发展及电子信息的迅猛膨胀带来了严重的“信息爆炸”问题,用户可以通过网络获取到最新信息,同时,鉴于网络的开放性这一特点,用户就会不可避免的接触到暴力、色情、封
"十一五"以来,在党中央、国务院和地方各级党委、政府领导下,各地、各有关部门认真贯彻落实国务院《关于进一步加强消防工作的意见》,我国消防工作取得了明显进步。但是,随着