不一致性特征加权的局部数据引力分类方法

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:cs_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类任务作为机器学习中的重要课题之一,在许多方面已经得到了广泛应用。基于数据引力的分类方法由于模型简单高效而愈发受到关注,而大多数基于数据引力的分类方法在训练时通常不考虑数据特征的质量,平等的利用所有数据进行训练,因此影响了模型的训练结果。另外这些方法大都采用的是整体累加求和的计算方式进行分类,这种做法可能会导致样本间的冗余表达和信息丢失而导致误分类。为了解决这些问题,本文首先提出了一种以不一致性为导向的特征评价方法,该方法利用推土机距离(Earth Mover’s Distance,EMD)作为评价函数来评估样本间的不一致程度。首先根据不一致性,在近邻关系下利用数据取值将样本划分为两个不同的集合。之后利用EMD的计算思想,设计了不一致性的评价函数,该函数可以计算出这两个集合之间的转换成本,并将这个成本视为这两个集合不一致性的量化程度。最后将不一致程度转换为可以和分类任务过程相融合特征权重,帮助分类器在进行样本间度量时得到更加准确的评价结果。另外,本文又提出了一种融合了特征权重的局部数据引力分类方法。首先在局部范围内,使用了引力计算公式来计算每个样本受到的引力大小,随后挑选出具有较大引力值的样本作为每个类中的代表。之后,为了计算出这些代表样本的表示区域大小,本文又提出了引力范围的概念,该引力范围是根据样本的类别以及可靠性程度这两个标准来进行划分。最后基于待测样本和引力范围的不同的位置情况而考虑设计了新的分类规则进行分类。在上述的步骤中,距离度量均融合了第一个方法计算出的特征权重,提高度量准确度。为了验证本文所提方法的有效性,在实验中利用了真实世界数据和人工处理数据,并在多个指标下进行了系统的分析。实验结果说明了本文所提出的以不一致性导向的特征评价方法和融合了特征权重的局部数据引力分类方法可以有效的提高分类表现。在未来将会考虑将所提出的方法应用到聚类或者回归等机器学习任务之中。
其他文献
目的 分析急性鼻咽炎患者治疗期间常规方案与连花清瘟颗粒鼻腔熏蒸治疗方案的不同效果呈现,以期为后续相关治疗方案的合理制订提供参考。方法 选取2021年1月至12月广州中医药大学深圳医院收治的急性鼻咽炎患者100例,按随机数字表法分为对照组和试验组,各50例。对照组口服连花清瘟颗粒,试验组采用连花清瘟颗粒鼻腔熏蒸+口服,疗程为7 d,对比两组患者的临床症状、体征积分,临床疗效和不良反应发生情况。结果
期刊
随着网络的快速发展,使得人们的交流方式更加便捷。图像是网络信息的一种常见载体,它促进了网络信息发展的多样性。与此同时,也带来了许多的网络信息安全问题。为了保证图像在网络传输的安全性,图像加密方案已经成为了学术界的一大研究热点。由于图像自身的特性,一些传统的加密方案已经不能满足其安全性的要求。对于混沌系统来说,有着遍历性、伪随机性、非周期性以及对初始条件高度敏感等特征,十分符合图像传输安全性的要求。
学位
随着社会的飞速发展,大量工业污水违规排放加剧水体污染,水体富营养化导致水底环境失衡,因此水质的监测与管理成为社会亟待解决的热点问题之一。水体中总氮、总磷的含量与水体环境平衡密切相关,是用来衡量水质好坏的重要指标。原始的水质监测手段主要是在局部水域人工采集水样,并送至化学实验室分析各成分含量。通过该手段监测到的各组分十分精确,但只能对局部水体进行监测,若对整体水域进行监测则需要大量的人力财力。高光谱
学位
移动互联网和Web 2.0造就了空间众包(Spatial Crowdsourcing,SC)这种借助网民群体解决实际问题的商务模式。任务匹配或工人选择是SC的一个核心问题,当前研究大多将目标聚焦于最大化匹配数目(MTA)与最大化匹配分数(MSA),但MTA方法忽略了任务属性的差异,MSA方法也没有考虑同一工人之于不同任务的完成质量差异。本文首先对SC的背景意义、SC任务匹配的概念模型和通用框架以及
学位
以去中心化方式运行长达五年的比特币系统,因其令人惊叹的稳定性,在2014年被发掘出其背后的关键技术——区块链(Blockchain)。区块链技术的可靠性和创新性,在互联网的高效信息交换之后,实现了价值传递,为更高效率信用社会的建立提供了新的技术支撑。随着央行数字货币、溯源等应用的迅速开展,由传统技术实现的区块链早期技术远不能满足实际的应用需求,区块链核心技术亟待创新与突破。其中以公链的吞吐量大幅提
学位
知识图谱是一种语义化知识库,其中实体被表示成节点,关系则由边表示。一个典型的知识图谱通常将知识描述为多关系数据,并以三元组(头实体,关系,尾实体)的形式表示。虽然知识图谱存在大量的实体和事实数据,但是许多大规模知识库仍不完整,并且缺少大量的真实三元组。针对大型知识库中常见的事实三元组缺失问题,研究学者提出很多知识图谱补全模型。本文主要研究知识图谱补全技术,通过对国内外相关知识图谱补全工作的全面考察
学位
特征选择技术是数据预处理步骤中最重要的操作之一,它可以提高数据分析中聚类、分类和信息检索等任务效率。现如今大数据时代的到来,各个领域的数据信息呈喷发式增长,导致越来越多高维的数据集出现。此时,数据预处理过程中利用特征选择去除与后续算法不相关的特征或冗余特征就显得尤为重要。有监督和半监督的特征选择方法的研究往往依赖样本的类别信息,而现实环境中数据的类别信息获取通常很困难。因此,不需要依赖标签信息的无
学位
作为分类算法之一的k-近邻分类算法,它凭借自身的简单性和有效性被广泛应用到现实生活中。然而现实生活中的真实数据集都不可避免地包含噪声数据,这个情况会损害k-近邻分类算法的分类性能。同样的问题也出现在模糊粗糙集理论中,模糊粗糙集在计算模糊下近似时需要查找测试样本的唯一最近邻样本,这个步骤使模糊粗糙集的模糊下近似值受数据集中噪声样本的影响,并且对后续的特征选择起到负面的作用。本篇论文首先在k-近邻分类
学位
现阶段,数据的获取方式简单且多样化,在提升模型效果的同时也产生了高维数据易存在噪声样本的问题。进而使得特征选择任务和构造具有鲁棒性的分类模型成为目前的研究热点。其中,模糊粗糙集理论作为特征选择和分类模型的理论基础,已经构造出了相应的模型。传统方法由于利用单一样本间的模糊相似关系来构造模型,使得建模过程中忽略了全局的关系,并且模型存在着对噪声敏感的问题。最终影响了模糊粗糙特征选择及相关分类模型的性能
学位
全媒体时代网络新技术的发展和应用,促进了新媒体技术与高校法治教育的深度融合,客观上推动了高校法治教育模式的变革。全媒体时代高校法治教育蕴含着拓展法治教育载体、改革法治教育模式、丰富法治教育方法和加强主客体间对话等价值,通过探索实现“媒介技术+法治教育”的模式转化,要在加强社会主义核心价值观的价值引领、完善协同育人体制机制和提升教育主客体媒介素养等方面推进具体实践,加强高校法治教育立德树人的质效。
期刊