符号型数据聚类算法的研究

来源 :山西大学 | 被引量 : 2次 | 上传用户:btmax22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来符号型数据的无监督学习在模式识别、机器学习、数据挖掘和知识发现等诸多领域,起着愈来愈重要的作用。为了有效地挖掘符号型数据内在的组结构信息,相关文献中已经发展了很多符号型数据的聚类算法。然而这些算法相比数值型数据的聚类算法,在性能方面仍然有很大的提升空间,其根本原因在于符号型数据缺乏类似数值型数据那样清晰的空间结构。本工作跟踪国际国内的研究前沿,针对符号型数据的聚类问题进行了深入的探究和实验,取得的成果如下:(1)深入研究目前国际国内流行的、经典的符号型数据聚类算法,分析比较各个方法的优缺点,进而引出新的聚类算法的研究动机和目标。通过采用新的符号数据表示方案,将原始的符号数据在不失任何信息的情况下,映射到新的维度的欧式空间中。基于这一新的符号数据的聚类框架,为了找到类中更有代表性的模式,结合Carreira-Perpi~n’an提出的K-Modes算法进行无监督学习(SBC_K-modes算法)。通过与其它四种经典的符号型数据聚类算法在9个UCI数据集上实验的比较,结果验证了新算法的有效性。(2)在对符号数据可能存在的空间结构的进一步研究和假设的基础上,提出一种新的符号数据的再表示方案。经过推理和实验验证了这一表示的正确性和有效性。在这一表示的基础上,结合两种不同的差异性度量方式和K-Means算法基本范式,提出了两种算法(NSBC和JSBC)。通过与其它四种经典的符号型数据聚类算法在9个UCI数据集上实验的比较,结果验证了新算法的有效性。总之,本文对符号数据聚类相关理论进行了研究,提出了新的符号数据的再表示方案和相应的算法,并在UCI数据集上对算法的有效性进行了验证。本文的研究为符号型数据的聚类分析提供了新方法与新思路,在数据挖掘和知识发现等领域有着一定的应用价值。
其他文献
科技在进步,时代在发展。在这个"读图"和"听音"的时代,语音技术已不再陌生,让机器开口"说话"也不再是幻想。目前,语音合成的清晰度已达到人们的要求,流畅度却尚待提高,合成的
网格(Grid)是一个分布式和并行计算的支持平台,是一种无缝、集成计算和协同环境。它关注于在动态的、多机构的虚拟组织中协调资源共享和协同解决问题,核心思想是在一组参与问
随着计算机网络技术的迅速发展,人们逐渐从传统的桌面应用程序向在线的web应用程序迁移。web应用程序有方便易用、跨越不同平台等优点,但是用户的数据分散在各种不同的web应用
虚拟人动画是当前计算机图形学领域的一个研究热点,在游戏影视、体育仿真和可视通信等产业都得到了广泛的应用。本文针对虚拟人的脸部建模与动画、人体运动合成等环节开展研究
随着信息化的全面推进和网络技术的迅猛发展,计算机支持的协同工作(Computer Supported Cooperative Work,CSCW)越来越受到人们的青睐。协同编辑是CSCW的研究热点,应用前景广
软计算是指将处理模糊现象的方法与仿生算法结合、解决传统计算不能解决的复杂问题的方法。已有的研究成果显示出软计算特有的价值和作用。本文研究了中介真值程度度量(measu
内河航运在我国交通运输中地位越来越重要,但随着内河船舶数量不断增加,且船舶不断向大型化高速化发展,以及内河环境复杂多变和内河河流弯曲等这些问题给船舶航行安全带来了严峻
软件测试是保证软件质量与可靠性的重要手段,随着软件复杂性的提高,软件测试在软件开发过程中的地位也越来越重要。然而,软件测试过程复杂,且重复性较高。提高软件测试的自动化程
随着微博、微信等社交工具的普及,每个人都成为了社交网络信息的发布者及传播者,这些社交服务也因此积累了大量用户产生的数据信息,其中包括用户的个人档案、社交关系、文本
计算机和互联网的急速发展,尤其是移动互联网技术的广泛应用,彻底改变了人们获取和分享信息的方式,海量互联网信息满足用户对信息的多样需求,为用户提供了极大的支持和帮助。