基于种子对象约束的半监督聚类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:passcardaj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前随着科学技术的发展,互联网数据呈现出了指数级的爆炸式增长,这就使得人工标注数据样本的代价急速增加。所以,怎样用较少的人力和财力来获取更好的效果,是人们一直在致力解决的问题。本课题旨在提出新颖有效的半监督聚类算法,解决现有半监督聚类算法准确度较小和需要一定数量标记样本的问题。针对这些问题,提出了基于密度峰值和基于协同聚类的半监督聚类算法,该方法可以在一定程度上减小成本的消耗,并能取得较高的准确率。本课题主要从以下几个方面进行了相关的研究:设计了种子对象扩展先验知识和简单约束条件提取的方法,与此同时利用密度峰值聚类算法来对数据集的聚类中心自动提取。自动提取的概念就是说不需要人工给定的K值,其算法可以较准确地计算出数据集合类簇的个数。不但如此,在这个算法进行过程中,因为种子数据(有类标的样本)是事先给定的,其具有一定的先验性知识。根据得到的种子数据之间的先验性知识,可以更加准确地对数据类簇个数和聚类中心位置进行确定。通过观察和分析种子对象之间的限制条件和约束对,并利用种子对象对类簇的聚类中心点进行标记打分。通过对所有的数据样本进行数学建模,建立数据点的多叉树或图。利用已知的种子对象来对聚类中心点进行打分标记。具体打分标记是利用迪杰斯特拉方法,找到种子对象到每个簇中心点的最短路径。找到这个路径其实只是解决问题的一个步骤,关键是利用这个最短路径上的最大距离作为衡量数据标记的标准。这其实就是利用类簇与类簇之间桥的大小,来决定类簇中心最终的类标。基于以上的研究,最后对所有样本数据进行聚类。此时可以选用基于密度的聚类算法,方便找出各种形状的聚类簇。针对单一聚类算法得到的聚类结果会存在偶然性误差,设计了协同聚类算法,其主要思路是利用种子对象约束限制来扩充训练样本集合。通过对种子对象进行多个步骤的扩充,最终利用多个聚类算法进行整个数据的聚类,此算法在实验中取得了较高的正确率和召回率。
其他文献
科学技术的快速发展,人类知识的不断更新,传播知识图书的数量急剧地增加。各类图书馆特别是高校图书馆,为了适应发展,满足读者的需求,图书馆每年都会投入大量的经费来采购图书。而
本体是使Web具有语义性的关键技术,自从20世纪90年代以来,本体已成为知识工程、自然语言处理和知识表示等人工智能研究界的热点研究领域。近来本体也越来越成为智能信息集成
随着网络技术的迅猛发展,信息处理成为了人们获取有用信息不可缺少的工具,其中,信息过滤是中文信息处理的一个重要的研究领域。信息过滤,就是根据用户的信息需求,利用一定的
联邦数据库系统为适应从不同数据源获取数据的需要,集成不同的数据库管理系统,实现不同系统之间的互操作,为用户提供一个统一和透明的访问界面,同时还需要在不同的系统之间保
软件复用可以有效地提高软件的质量和生产率。实践表明,大量可复用软件资产能够有效提高软件复用的效能。软件资产管理包括了对资产进行描述、分类、存储、检索和维护等相关
计算机辅助开票系统的研发是电力自动化一个重要的研究领域,正确无误的开具操作票对变电站日常运行和工作管理具有重要的现实意义。本文在分析了计算机辅助开票系统开发现状
近年来,随着互联网的高速发展,我们迎来了互联网信息时代。网络给人们的生活带来了极大的便利,人们的生活已经融入到互联网时代的大家庭当中了。然而互联网在提供便利的同时,
随着计算机技术的不断发展,基于问题求解规模的现代密码遇到了越来越严峻的考验。虽然一次一密加密算法能保证信息的绝对安全,但如何进行大规模的密钥分发和管理却极大的限制
近年来,随着无线通信技术的飞速发展,越来越多的应用通过无线网络进行信息传输,因而对频谱的需求也不断增加。这使得原本就有限的频谱资源显得更为稀缺。同时,目前大多数主要
在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,相似度计算的方法目前也有很多种,针对总体研