基于有效距离的特征提取和特征选择算法研究

来源 :南京航空航天大学 | 被引量 : 4次 | 上传用户:griffinroar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习和模式识别领域,特征提取和特征选择技术已经成为了解决高维数据的重要途径,并且在信息检索、文本分类和疾病诊断等领域都得到了广泛的应用。研究表明多数的特征提取和特征选择算法都利用相似性来衡量样本之间的关系,而样本之间的相似性往往都是使用传统的欧氏距离计算。由于欧氏距离的静态本质,因此它往往忽略了周围其他样本对目标样本的影响以及样本与样本之间潜在的动态结构。为了可以充分反映出样本之间这种潜在的动态结构,本文提出在全局拓扑结构关系的基础上,考虑到其他样本与目标样本之间的关系,然后计算样本之间的距离,即有效距离。接着我们利用了有效距离计算样本之间的相似性,提出了基于有效距离改进的特征提取和特征选择算法。本文的主要创新点和研究工作总结主要如下:一方面,我们提出了两种方式计算样本之间的有效距离,分别为基于KNN (k Nearest Neighborhood)的有效距离和基于稀疏表示的有效距离。这两种有效距离的计算都要依赖于样本之间的拓扑结构关系,因此我们首先利用样本之间的稀疏重构关系或样本之间的近邻关系构造出一个双向的拓扑网络,然后依赖于这个双向网络计算了两个样本之间的有效距离。接着,我们把基于有效距离得到的相似性矩阵引入到特征提取算法中,得到了基于有效距离的特征提取算法。实验结果表明,基于有效距离改进的特征提取算法,能够有效地获取样本的全局和局部结构信息,从而得到更加优越的分类性能。另一方面,我们首先通过稀疏表示得到样本之间的稀疏重构关系,然后基于这种稀疏重构关系构建了全局的拓扑结构,从而可以计算样本之间的有效距离。通过有效距离,我们可以计算不同样本之间基于有效距离的相似性,在特征选择过程中用于衡量特征的重要性。此外,我们在特征选择过程中加入了迭代的思想,逐渐地去选择最优的特征子集。因此,我们提出了基于有效距离的迭代特征选择算法。我们在一系列的UCI数据集上进行了验证,实验结果表明,相比于使用欧氏距离的特征选择算法,本文提出的基于有效距离的特征选择算法可以选择出更优的特征,进而可以提升分类性能。
其他文献
随着电子信息技术迅猛发展,数据存储逐渐成为计算机科学技术研究的重要领域。许多大规模科学、工程应用和商业计算领域都依赖于分布在不同地理区域的海量存储资源。同时,存储
当前,随着企业内部业务系统越来越明细,企业应用软件也越来越复杂,一个应用系统往往是由几个小系统整合而成。对遗留系统的整合集成是企业面临的一大难题,尤其是如何把这些遗留系
云计算概念自提出后,得到了工业界与学术界的广泛重。云计算可按需提供接近无限的计算资源,能够降低IT部署成本,提高系统灵活性与可扩展性。然而,其开放的运行环境以及中心化的组
Pentium指令集兼容80486,是典型的CISC指令集,指令功能复杂,寻址方式多样,指令长度不固定,其指令微操作设计主要就是微指令和微程序的设计。优化的译码器设计和微程序设计能
伴随着我国物联网技术的蓬勃发展,对移动环境下射频识别技术的需求也随之增加。在ISO/IEC—18000—6C和EPC C1G2标准中,仅考虑理想条件下静态RFID系统的通信,而在实际应用中
论文主要研究了批量数据定时上传系统及其稳定性的设计与实现。该系统主要用于定时将性能测量数据转换为结果文件并上传这些结果文件。该系统包含两个进程:系统的功能部分由S
随着计算机和网络技术的不断发展,网络上商务行为越来越普遍,电子商务应运而生。它充分利用了Internet的优势,使企业与企业、用户与企业之间的距离变为零,这种零距离的交易给
为了辅助考古研究工作,本文对数字考古中的考古发掘现场的三维建模技术和文物网上重现技术进行了研究。考古发掘现场的三维建模技术利用有限的考古成果进行考古现场的复原和
随着计算机软硬件技术的高速发展,基于互联网的应用越来越多,网络安全也面临更加严峻的考验。互联网安全事件频发,信息安全早已经提升至国家战略高度。依据信息安全等级保护三级
随着人们对个人通信需求的日益增长,无线通信及移动通信技术目前得到长足发展和应用。第一、无线网络能极大地减少建设成本,如节省了铺设电缆和维护电缆的开支;第二、无线网络能