基于局部均值近邻结构的特征选择及分类方法的研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:songyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现阶段,数据的获取方式简单且多样化,在提升模型效果的同时也产生了高维数据易存在噪声样本的问题。进而使得特征选择任务和构造具有鲁棒性的分类模型成为目前的研究热点。其中,模糊粗糙集理论作为特征选择和分类模型的理论基础,已经构造出了相应的模型。传统方法由于利用单一样本间的模糊相似关系来构造模型,使得建模过程中忽略了全局的关系,并且模型存在着对噪声敏感的问题。最终影响了模糊粗糙特征选择及相关分类模型的性能。为了提升基于模糊粗糙集理论模型的效果,本文针对传统的模糊粗糙集理论存在的不足,结合近邻思想分别提出了类间局部均值近邻理论和样本间局部均值近邻理论。两种理论均减弱了单一样本的影响,且考虑了待测样本关于多个样本间的模糊相似关系。使得在构造模型时可以考虑的更加均衡和全面,实现了提升模型的鲁棒性和性能的目的。在特征选择方面,本文结合新理论提出了四种特征选择方法。新方法基于不同局部均值近邻结构替代了传统模糊粗糙集去衡量特征间的关系,并利用模糊粗糙快速约简方法来选择特征。新的特征选择模型在原始模型的基础上通过考虑数据的全局信息实现了提升模型效果目的。实验结果表明,相比于其他方法,新方法选择的特征子集的质量更高。此外,本文将样本间局部均值近邻理论应用于分类任务中,提出了基于样本间局部均值近邻结构的分类方法。新方法在划分待分类样本时,通过新理论中多元关系来衡量待分类样本关于各个类别的隶属程度,实现分类的任务。新的分类方法同样利用了新理论的特性,在降低了噪声样本影响的同时更加全面的考虑了各个类别与待测样本间的关系。同样,最终实验结果表明,新的分类模型在准确率等指标下效果更优。
其他文献
目的 观察中药熏蒸联合西药治疗儿童肺经风热型急性鼻窦炎的疗效。方法 选取2021年7月—2022年3月在福建中医药大学附属三明中西医结合医院耳鼻咽喉科门诊就诊的肺经风热型急性鼻窦炎患儿120例,采用随机数字表法分为对照组和观察组各60例,治疗期间对照组脱落3例,观察组脱落4例。对照组予阿莫西林克拉维酸钾干混悬剂和布地奈德鼻喷雾剂治疗,观察组在对照组治疗基础上予苍耳子散中药熏蒸治疗,2组疗程均为10
期刊
随着Twitter、微博等社交工具的广泛应用,社交网络大数据集合应运而生。在对由大量结点和结点间的连接关系形成的网络结构的研究工作中,社区(community)的概念得到广泛关注。社区是指在网络结构中内部结点间的联系较外部结点间的联系更为紧密的子网络。网络中的社区发现问题可以广泛应用在现实生活中,如进行兴趣社团推荐、犯罪团伙识别等。然而,现有的社区研究工作主要关注结点之间的结构凝聚性,仅有的少量结
学位
目的 分析急性鼻咽炎患者治疗期间常规方案与连花清瘟颗粒鼻腔熏蒸治疗方案的不同效果呈现,以期为后续相关治疗方案的合理制订提供参考。方法 选取2021年1月至12月广州中医药大学深圳医院收治的急性鼻咽炎患者100例,按随机数字表法分为对照组和试验组,各50例。对照组口服连花清瘟颗粒,试验组采用连花清瘟颗粒鼻腔熏蒸+口服,疗程为7 d,对比两组患者的临床症状、体征积分,临床疗效和不良反应发生情况。结果
期刊
随着网络的快速发展,使得人们的交流方式更加便捷。图像是网络信息的一种常见载体,它促进了网络信息发展的多样性。与此同时,也带来了许多的网络信息安全问题。为了保证图像在网络传输的安全性,图像加密方案已经成为了学术界的一大研究热点。由于图像自身的特性,一些传统的加密方案已经不能满足其安全性的要求。对于混沌系统来说,有着遍历性、伪随机性、非周期性以及对初始条件高度敏感等特征,十分符合图像传输安全性的要求。
学位
随着社会的飞速发展,大量工业污水违规排放加剧水体污染,水体富营养化导致水底环境失衡,因此水质的监测与管理成为社会亟待解决的热点问题之一。水体中总氮、总磷的含量与水体环境平衡密切相关,是用来衡量水质好坏的重要指标。原始的水质监测手段主要是在局部水域人工采集水样,并送至化学实验室分析各成分含量。通过该手段监测到的各组分十分精确,但只能对局部水体进行监测,若对整体水域进行监测则需要大量的人力财力。高光谱
学位
移动互联网和Web 2.0造就了空间众包(Spatial Crowdsourcing,SC)这种借助网民群体解决实际问题的商务模式。任务匹配或工人选择是SC的一个核心问题,当前研究大多将目标聚焦于最大化匹配数目(MTA)与最大化匹配分数(MSA),但MTA方法忽略了任务属性的差异,MSA方法也没有考虑同一工人之于不同任务的完成质量差异。本文首先对SC的背景意义、SC任务匹配的概念模型和通用框架以及
学位
以去中心化方式运行长达五年的比特币系统,因其令人惊叹的稳定性,在2014年被发掘出其背后的关键技术——区块链(Blockchain)。区块链技术的可靠性和创新性,在互联网的高效信息交换之后,实现了价值传递,为更高效率信用社会的建立提供了新的技术支撑。随着央行数字货币、溯源等应用的迅速开展,由传统技术实现的区块链早期技术远不能满足实际的应用需求,区块链核心技术亟待创新与突破。其中以公链的吞吐量大幅提
学位
知识图谱是一种语义化知识库,其中实体被表示成节点,关系则由边表示。一个典型的知识图谱通常将知识描述为多关系数据,并以三元组(头实体,关系,尾实体)的形式表示。虽然知识图谱存在大量的实体和事实数据,但是许多大规模知识库仍不完整,并且缺少大量的真实三元组。针对大型知识库中常见的事实三元组缺失问题,研究学者提出很多知识图谱补全模型。本文主要研究知识图谱补全技术,通过对国内外相关知识图谱补全工作的全面考察
学位
特征选择技术是数据预处理步骤中最重要的操作之一,它可以提高数据分析中聚类、分类和信息检索等任务效率。现如今大数据时代的到来,各个领域的数据信息呈喷发式增长,导致越来越多高维的数据集出现。此时,数据预处理过程中利用特征选择去除与后续算法不相关的特征或冗余特征就显得尤为重要。有监督和半监督的特征选择方法的研究往往依赖样本的类别信息,而现实环境中数据的类别信息获取通常很困难。因此,不需要依赖标签信息的无
学位
作为分类算法之一的k-近邻分类算法,它凭借自身的简单性和有效性被广泛应用到现实生活中。然而现实生活中的真实数据集都不可避免地包含噪声数据,这个情况会损害k-近邻分类算法的分类性能。同样的问题也出现在模糊粗糙集理论中,模糊粗糙集在计算模糊下近似时需要查找测试样本的唯一最近邻样本,这个步骤使模糊粗糙集的模糊下近似值受数据集中噪声样本的影响,并且对后续的特征选择起到负面的作用。本篇论文首先在k-近邻分类
学位