聚类特征选择方法的研究和应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:renrenxiaonei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式识别的主要任务就是利用样本中的特征,将样本划分为相应的模式类别。通常情况下,样本特征中包含了足够的类别信息,才能通过分类器实现正确分类。为了提高模式识别的正确识别率,人们通常需要采集数量巨大的原始特征,使得原始特征空间或输入空间的维数可能高达几千维或几万维。这样,结果不仅使样本特征维数增大,而且其中可能存在较大的相关性和冗余,影响最后的分类精度。这就造成所谓的维数灾难。所以为了有效地进行模式分类和数据分析,特征降维就显得异常重要。本论文的研究目的是为了探索新的特征选择方法,提出一种用于特征降维的特征排序和特征选择,丰富减少特征维数的方法。文中简要介绍了特征降维的准则,回顾了当前的主要特征降维技术。文中也对特征相关性分析和聚类有效性准则进行了阐述,重点介绍了特征之间相似性度量的方法和聚类有效性的判断准则。本论文重点是建立了一种基于对特征进行聚类的特征选择准则,阐述了应用该准则进行特征排序的原理和方法。针对特征选择这一问题,文中从特征对分类结果的影响、特征之间的相似度量公式和特征之间相关性的分析这三个方面出发,先利用特征相似性度量公式计算每一维特征之间的相似度即求出相似度矩阵,再依据每一维特征对样本分类的影响,结合聚类算法和聚类有效性的判断准则等,然后提出了一种基于聚类的特征选择算法。文中先前几个章节先对相关的知识背景进行粗略的介绍,如K均值聚类算法、层次聚类方法、聚类有效性判断准则等。论文对于无监督的情况,利用聚类的方法,提供一种简化了的针对无监督情况的特征排序方法和一种简化了的特征选择方法。论文最后采用C++来编程实现了文中提出的算法,选取了大量数据来进行实验。大量的基于的实验结果表明,本文所提出的方法是有效、可行的,并且与现有的一些方法相比,更为有效。它还有着运算速度快等优点。
其他文献
随着计算机网络技术的发展,无线网络技术已经为人们带来了极大的方便。但同时值得注意的是,无线网络安全问题也成为了无线网络技术应用和普及的一个主要障碍。而身份认证是网
软件复用一直是软件工程中一个热门课题,通过软件复用,可以减少不必要的重复劳动,提高软件生产的效率和质量。但是现代的企业应用软件越来越复杂,研究人员试图寻找一种软件体
随着信息技术的飞速发展,一种新型的企业模式——虚拟企业,得到了迅速发展,并吸引了众多研究人员的关注。虚拟企业(Virtual Enterprise)是一种联合供应商、制造商、经销商及
随着现代信息化建设步伐的加快,笔录录入电子化已成为趋势。而检察院对笔录有系列的特殊要求,如笔录的安全性、实时性等等,通用的编辑工具并不能够满足这样的要求。如何针对
学位
随着多媒体和网络技术的飞速发展,基于内容的图像检索CBIR成为当前多媒体信息检索研究的热点之一。它的主要思想是根据图像所包含的颜色、纹理、形状以及对象的空间关系等低
支持向量机(Support Vector Machine,SVM)作为一种基于统计学习理论的新的机器学习方法,克服了神经网络方法解不稳定、推广性差的缺点。目前,SVM已经成为机器学习领域的研究
电信计费系统是电信运营商的核心业务支撑系统,电信计费具有海量数据处理、实时性要求高、用户访问量大、处理能力要求高等特点。这些特点使现有的计费系统面临着巨大的挑战。
当前,安全性是决定Ad Hoc网络的潜能能否得到充分施展的一个关键所在,特别是对于Ad Hoc网络在军事上和商业上的应用。相比于传统的有线网络,无线移动Ad Hoc网络更容易受到各
网络化制造是制造企业为应对知识经济和制造全球化的挑战而实施的以快速响应市场需求、提高企业竞争力和加速区域经济发展为主要目的一种先进制造模式。我国作为制造业大国,传统作业方式依然占据主流地位。企业间协作意识不强,企业资源的集成度松懈,数据共享不通畅。随着制造业的发展和竞争的加剧,这一问题显得越来越突出。因此,利用信息技术,建立网络化协同工作平台,对制造资源进行优化配置,实现产品协同设计和资源共享,就