基于种子对象约束的半监督聚类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：passcardaj

【摘要】

：

目前随着科学技术的发展,互联网数据呈现出了指数级的爆炸式增长,这就使得人工标注数据样本的代价急速增加。所以,怎样用较少的人力和财力来获取更好的效果,是人们一直在致力

【作者】

：

李伟峰

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2016年期

【关键词】

：

半监督聚类种子对象迪杰斯特拉算法密度峰值聚类协同聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前随着科学技术的发展,互联网数据呈现出了指数级的爆炸式增长,这就使得人工标注数据样本的代价急速增加。所以,怎样用较少的人力和财力来获取更好的效果,是人们一直在致力解决的问题。本课题旨在提出新颖有效的半监督聚类算法,解决现有半监督聚类算法准确度较小和需要一定数量标记样本的问题。针对这些问题,提出了基于密度峰值和基于协同聚类的半监督聚类算法,该方法可以在一定程度上减小成本的消耗,并能取得较高的准确率。本课题主要从以下几个方面进行了相关的研究:设计了种子对象扩展先验知识和简单约束条件提取的方法,与此同时利用密度峰值聚类算法来对数据集的聚类中心自动提取。自动提取的概念就是说不需要人工给定的K值,其算法可以较准确地计算出数据集合类簇的个数。不但如此,在这个算法进行过程中,因为种子数据(有类标的样本)是事先给定的,其具有一定的先验性知识。根据得到的种子数据之间的先验性知识,可以更加准确地对数据类簇个数和聚类中心位置进行确定。通过观察和分析种子对象之间的限制条件和约束对,并利用种子对象对类簇的聚类中心点进行标记打分。通过对所有的数据样本进行数学建模,建立数据点的多叉树或图。利用已知的种子对象来对聚类中心点进行打分标记。具体打分标记是利用迪杰斯特拉方法,找到种子对象到每个簇中心点的最短路径。找到这个路径其实只是解决问题的一个步骤,关键是利用这个最短路径上的最大距离作为衡量数据标记的标准。这其实就是利用类簇与类簇之间桥的大小,来决定类簇中心最终的类标。基于以上的研究,最后对所有样本数据进行聚类。此时可以选用基于密度的聚类算法,方便找出各种形状的聚类簇。针对单一聚类算法得到的聚类结果会存在偶然性误差,设计了协同聚类算法,其主要思路是利用种子对象约束限制来扩充训练样本集合。通过对种子对象进行多个步骤的扩充,最终利用多个聚类算法进行整个数据的聚类,此算法在实验中取得了较高的正确率和召回率。

其他文献

高校图书采购决策系统的设计与实现

科学技术的快速发展，人类知识的不断更新，传播知识图书的数量急剧地增加。各类图书馆特别是高校图书馆，为了适应发展，满足读者的需求，图书馆每年都会投入大量的经费来采购图书。而

学位

高校图书采购决策系统决策方案图书利用率经费分配

本体库的构建方法及应用研究

本体是使Web具有语义性的关键技术,自从20世纪90年代以来,本体已成为知识工程、自然语言处理和知识表示等人工智能研究界的热点研究领域。近来本体也越来越成为智能信息集成

学位

领域本体本体库完全存储模式信息聚合

基于内容的中文文本过滤关键技术研究

随着网络技术的迅猛发展,信息处理成为了人们获取有用信息不可缺少的工具,其中,信息过滤是中文信息处理的一个重要的研究领域。信息过滤,就是根据用户的信息需求,利用一定的

学位

用户模板向量空间模型自适应文本过滤概念扩充

联邦数据库系统查询技术的研究与应用

联邦数据库系统为适应从不同数据源获取数据的需要,集成不同的数据库管理系统,实现不同系统之间的互操作,为用户提供一个统一和透明的访问界面,同时还需要在不同的系统之间保

学位

联邦数据库三层构架模式元数据联邦模式查询处理XML

XML数据查询技术在软件资产管理系统中的研究及应用

软件复用可以有效地提高软件的质量和生产率。实践表明,大量可复用软件资产能够有效提高软件复用的效能。软件资产管理包括了对资产进行描述、分类、存储、检索和维护等相关

学位

软件复用资产管理软件资产库XML信息检索

基于Agent的SVG图形操作票系统研究与实现

计算机辅助开票系统的研发是电力自动化一个重要的研究领域,正确无误的开具操作票对变电站日常运行和工作管理具有重要的现实意义。本文在分析了计算机辅助开票系统开发现状

学位

操作票Agent图形开票一次接线图SVG

基于内核对象行为的恶意代码检测方法及其本体表示

近年来,随着互联网的高速发展,我们迎来了互联网信息时代。网络给人们的生活带来了极大的便利,人们的生活已经融入到互联网时代的大家庭当中了。然而互联网在提供便利的同时,

学位

内核对象本体恶意代码检测

量子密钥分发宽频电子控制系统设计

随着计算机技术的不断发展,基于问题求解规模的现代密码遇到了越来越严峻的考验。虽然一次一密加密算法能保证信息的绝对安全,但如何进行大规模的密钥分发和管理却极大的限制

学位

量子密钥分发宽频电子控制系统控制信号生成高频数字电路设计FPGA

认知无线网络中广播策略的研究

近年来,随着无线通信技术的飞速发展,越来越多的应用通过无线网络进行信息传输,因而对频谱的需求也不断增加。这使得原本就有限的频谱资源显得更为稀缺。同时,目前大多数主要

学位

认知无线网络广播重传

基于相对词频的相似度研究

在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,相似度计算的方法目前也有很多种,针对总体研

学位

分词消歧相对词频语义相似度知网

基于种子对象约束的半监督聚类算法研究

其他学术论文