基于对偶重构的特征和样本双向选择算法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:jinjiajie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今数据爆炸的时代,数据降维是机器学习、模式识别以及数据挖掘等领域的共性问题之一。伴随着数据采集相关技术的快速发展应运而生的是大规模的高维数据的出现,普遍存在于数据处理应用过程中。当今数据采集技术的发展水平的仍有局限,数据源种类众多,数据类型也发展的更为多元化,采集阶段会将部分低质量数据比如噪声数据纳入采集结果中。虽然高维数据具有更全面的特征信息,可以更好的去刻画数据内部结构,但是无疑会带来负面的影响,比如更高的运算与存储成本、维度灾难等。所以面对高维数据的处理问题,许多学者致力于使用特征选择方法来实现数据降维。而特征选择是实现数据降维的重要手段之一。针对特征选择有待改进的技术难点,本文的工作针对样本选择与特征选择的有效集成,提出了相应的改进算法,具体如下:(1)提出了无监督对偶特征与样本选择算法。该方法将特征选择过程与样本选择过程有效的整合到一个学习框架中。从样本选择的角度讨论,我们采用经过特征筛选的数据点来进一步选择样本,保证经过特征选择所保留的数据点能够很好的重构数据的原始结构。同样的对于特征选择层面,经过样本筛选过程我们选取信息量最大的样本形成样本集。通过这两个选择任务的共同作用,在特征选择层面与样本选择层面都可以取得较好的性能表现。通过多个基准数据集的性能对比实验,证明该方法的有效性且性能优于许多主流算法。(2)提出了基于局部结构保持策略的对偶选择方法。该方法在无监督对偶特征与样本选择方法的基础上,考虑了局部流形结构对构造数据原始结构的重要性,引入一个局部正则化算子去提取特征的局部判别结构。以更为准确的局部特征保持结构来进一步提升特征选择结果的质量。同时在集成的双向选择框架中,特征选择性能提升也会为样本选择过程带来正面的效果。通过多个基准数据集的性能对比实验,证明该方法的有效性且性能优于前文提出的DFIS方法。设计并开发了一个无监督特征选择算法分析系统。系统包括初始化模块、无监督对偶样本与特征选择算法模块和算法结果展示三个模块。该系统集成了无监督对偶与特征与样本选择算法与其13种对比方法的实验结果,使用者可以选择性能的评价指标和展示形式来进行性能展示。
其他文献
分类是数据挖掘领域中一个重要的分支,普通的分类模型通常假设数据集中各类别的样本数量差距很小且对于每个类别的误分代价相等,而使用不平衡数据集训练传统的分类器会导致模型对于少数类的预测精度很低,因此不平衡数据的分类问题一直是机器学习领域的研究热点。本文针对面向不平衡数据的分类方法开展研究,引入了基于样本权值的欠采样方法,样本局部密度计算方法以及样本误分代价计算方法,提出了三种面向不平衡数据的AdaBo
机器学习通过学习样本数据、进行模型拟合或者预测推理等方法,使其在数据集中自动获取相应的理论,从而形成一种与常规方法互补且具备可行性的算法,其主要适用于缺乏一般性理论及规模较大的数据集中。物理学可以用来探究物质运动的规律,随着物理学研究的不断发展与进步,机器学习算法也成为了研究物理学问题的热门算法。该学科虽与机器学习处于两个不同专业领域,但其在处理问题的思想上存在诸多共通之处。因此,可通过机器学习来
当下,人们生活中的衣食住行都向着智能的方向改进,而这一切都离不开对数据信息的挖掘。智能的生活方式产生了海量数据,数据挖掘就是从大量数据中发现其中潜在信息的过程。在数据挖掘领域中,高维数据导致的维度灾难和数据过拟合是困扰研究人员的两大问题。特征选择是一个重要的数据预处理步骤,通过从候选特征集中挑选出重要的特征组成新特征子集,利用该子集进行模型训练等学习任务。进行特征选择可以有效地克服维度灾难问题,缓
目前,越来越多的计算机视觉系统被广泛应用于各个行业,这些计算机视觉系统大都以输入清晰图像为前提进行工作,但是在实际场景中,特别是在室外环境下,由于雾、霆等天气原因,我们无法保证获取到清晰可用的图像数据,因此图像增强技术越来越受到研究人员的关注。应用水下机器人进行水下探测是一项重要任务,而计算机视觉技术是完成这项任务的关键环节。但是光的吸收和散射现象同样存在于水下环境中,比起有雾图像,水下图像会遭受
随着5G、互联网、云计算以及其他技术的迅速发展,网络环境日益复杂,且攻击形式日益多样化,也为网络空间安全带来了严峻的考验。网络入侵检测技术采用一种主动防御方式来维护网络的安全,为网络提供实时的监控与动态的保护。面对海量的网络数据,现有的入侵检测模型不仅无法有效处理这些高维且复杂的数据,也难以识别数据样本较少的攻击类型,且模型检测效率低、识别率较差。基于上述问题,本文提出了基于PGoogLeNet-
近年来,随着物联网迅速发展,射频识别技术(RFID,Radio Frequency Identification)被广泛应用于物流追踪、身份识别与国防军事等多个领域。目前,由于有芯片RFID传感器标签制作成本较高,所以设计低成本的无芯片RFID(Chipless RFID)传感器标签成为现今研究热点。本文针对无芯片RFID传感器标签的抗杂波性能进行研究与设计,具体从传感器标签的结构设计、极化转换特
网络资产是指连接到互联网的网络设备、安全设备、中间件、服务器、个人计算机等设备的类型和版本、操作系统类型、IP地址、开放端口及端口服务等信息。对网络资产进行探测和管理既可以帮助企业网络资产管理人员清楚地了解企业内部拥有的网络资产,又可以作为渗透测试人员或黑客开始工作前的信息收集,因此,对各种网络资产信息进行有效探测是必不可少的。其中,操作系统是各种设备运行的基础,当前市面上的操作系统类型众多,而现
近年来随着信息技术的快速发展和数据获取方式的不断丰富,人们对于图像视频类数据的处理需求也越来越多,目标跟踪作为图像视频类数据处理的重要技术,与之相关的研究也变得异常火热。从基于传统计算机视觉技术的相关滤波算法到基于深度学习跟踪模型的出现,跟踪算法的性能得到大幅提升。但是,在目标跟踪领域始终面临着多方面的挑战,如:复杂的背景、光照变化、目标物被遮挡以及运动物体的旋转尺度变化等,严重影响现有目标跟踪算
在互联网信息技术普及的21世纪,流行媒介作为现代化生活直接有效的信息传播方式,形成以数字媒介为主体的发展趋势。它丰富的图像语言以及广泛的视觉传播性得到了大众的认可。抽象立体形态的图像语言借助媒介反映了人们追求时尚理念与情感表达的诉求。笔者尝试和运用抽象立体形态语言进行创作,展现客观物体的三维形态,本研究以基础理论作为支撑,在C4D软件技术背景的支持下,将传统文化形象最终以抽象立体的形态语言呈现出来
近年来,随着自然语言处理技术的快速发展,聚焦于词级、短语级的研究已取得显著进展,针对于句子级的语义分析任务还相对较少,因此侧重于理解句子语义的篇章句间关系识别任务得到了研究者们的广泛关注。该任务作为篇章语义分析中的一项核心任务,旨在研究篇章内部论述单元(简称为“论元”)的逻辑语义关系,如因果关系、比较关系等。如何更准确的挖掘论元的深层语义信息是研究该任务的关键,也是影响模型性能的主要因素。本文主要