非一致性引导的无监督特征选择

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:mydxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择技术是数据预处理步骤中最重要的操作之一,它可以提高数据分析中聚类、分类和信息检索等任务效率。现如今大数据时代的到来,各个领域的数据信息呈喷发式增长,导致越来越多高维的数据集出现。此时,数据预处理过程中利用特征选择去除与后续算法不相关的特征或冗余特征就显得尤为重要。有监督和半监督的特征选择方法的研究往往依赖样本的类别信息,而现实环境中数据的类别信息获取通常很困难。因此,不需要依赖标签信息的无监督特征选择更适用于实际应用中。粗糙集与模糊粗糙集是有效处理不确定性数据的工具。它们在分类和有监督特征选择等研究方向已经发挥了重要作用,但在无监督特征选择中的研究目前还较少。本文首先在粗糙集与模糊粗糙集的理论基础上针对离散型和实值型数据分别提出非一致性度量方法DAM。该度量目的是度量特征之间的差异程度,或者理解为度量特征间所携带信息的不相关程度。然后,本文基于DAM值提出无监督特征选择算法DAMUFS应用于离散型数据集和实值型数据集。本文无监督特征选择算法属于属性添加的过程,利用DAM值评估属性与特征子集所携带信息的差别选择特征。DAMUFS算法在特征选择过程中不但可以选择出包含信息量多的特征子集,而且还尽可能减少特征子集中的冗余信息。最后,本文进行实验评估DAMUFS无监督特征选择算法的性能。实验中,采用十种离散型数据集和十种实值型数据集。将DAMUFS算法分别与一些现有的无监督特征选择算法和有监督特征选择方法进行对比,比较各个特征选择算法的结果应用在多种分类器上的分类准确率。实验结果证明本文无监督特征选择DAMUFS算法的整体性能不仅优于目前现有的一些无监督特征选择算法,而且本文算法的特征子集分类性能并不比经典的有监督特征选择算法差,甚至优于某些算法。
其他文献
区块链技术为高效信用社会的建立提供了新的技术支撑。近日,我国发布将区块链成为实现国家治理体系和治理能力现代化重要支撑的指导意见,区块链技术的发展迎来了新机遇。随着现有区块链应用迅速发展,用户节点数量、交易积压度、计算复杂度等大幅增加,早期块链式结构因其固有的缺陷,越来越难以满足现有用户群体交易。因此有向无环图(Directed Acyclic Graph,DAG)区块链技术,将有向无环图的数据结构
学位
近年来,随着计算机视觉分析技术的快速发展,基于计算机视觉的人体姿态分析技术已广泛应用于体育、军事、娱乐、康复医疗等多领域。该项技术涉及到人工智能、机器学习等多个学科,不仅要求计算机能实时捕获实际场景中目标的位置和动作信息,同时还应具有快速的行为分析和理解能力,具有重要的理论研究和实际应用价值。其中,在运动训练和教学应用场景中,由于运动员的认知水平和实际运动能力之间存在不同程度上的差异等原因,往往容
学位
目的 观察中药熏蒸联合西药治疗儿童肺经风热型急性鼻窦炎的疗效。方法 选取2021年7月—2022年3月在福建中医药大学附属三明中西医结合医院耳鼻咽喉科门诊就诊的肺经风热型急性鼻窦炎患儿120例,采用随机数字表法分为对照组和观察组各60例,治疗期间对照组脱落3例,观察组脱落4例。对照组予阿莫西林克拉维酸钾干混悬剂和布地奈德鼻喷雾剂治疗,观察组在对照组治疗基础上予苍耳子散中药熏蒸治疗,2组疗程均为10
期刊
随着Twitter、微博等社交工具的广泛应用,社交网络大数据集合应运而生。在对由大量结点和结点间的连接关系形成的网络结构的研究工作中,社区(community)的概念得到广泛关注。社区是指在网络结构中内部结点间的联系较外部结点间的联系更为紧密的子网络。网络中的社区发现问题可以广泛应用在现实生活中,如进行兴趣社团推荐、犯罪团伙识别等。然而,现有的社区研究工作主要关注结点之间的结构凝聚性,仅有的少量结
学位
目的 分析急性鼻咽炎患者治疗期间常规方案与连花清瘟颗粒鼻腔熏蒸治疗方案的不同效果呈现,以期为后续相关治疗方案的合理制订提供参考。方法 选取2021年1月至12月广州中医药大学深圳医院收治的急性鼻咽炎患者100例,按随机数字表法分为对照组和试验组,各50例。对照组口服连花清瘟颗粒,试验组采用连花清瘟颗粒鼻腔熏蒸+口服,疗程为7 d,对比两组患者的临床症状、体征积分,临床疗效和不良反应发生情况。结果
期刊
随着网络的快速发展,使得人们的交流方式更加便捷。图像是网络信息的一种常见载体,它促进了网络信息发展的多样性。与此同时,也带来了许多的网络信息安全问题。为了保证图像在网络传输的安全性,图像加密方案已经成为了学术界的一大研究热点。由于图像自身的特性,一些传统的加密方案已经不能满足其安全性的要求。对于混沌系统来说,有着遍历性、伪随机性、非周期性以及对初始条件高度敏感等特征,十分符合图像传输安全性的要求。
学位
随着社会的飞速发展,大量工业污水违规排放加剧水体污染,水体富营养化导致水底环境失衡,因此水质的监测与管理成为社会亟待解决的热点问题之一。水体中总氮、总磷的含量与水体环境平衡密切相关,是用来衡量水质好坏的重要指标。原始的水质监测手段主要是在局部水域人工采集水样,并送至化学实验室分析各成分含量。通过该手段监测到的各组分十分精确,但只能对局部水体进行监测,若对整体水域进行监测则需要大量的人力财力。高光谱
学位
移动互联网和Web 2.0造就了空间众包(Spatial Crowdsourcing,SC)这种借助网民群体解决实际问题的商务模式。任务匹配或工人选择是SC的一个核心问题,当前研究大多将目标聚焦于最大化匹配数目(MTA)与最大化匹配分数(MSA),但MTA方法忽略了任务属性的差异,MSA方法也没有考虑同一工人之于不同任务的完成质量差异。本文首先对SC的背景意义、SC任务匹配的概念模型和通用框架以及
学位
以去中心化方式运行长达五年的比特币系统,因其令人惊叹的稳定性,在2014年被发掘出其背后的关键技术——区块链(Blockchain)。区块链技术的可靠性和创新性,在互联网的高效信息交换之后,实现了价值传递,为更高效率信用社会的建立提供了新的技术支撑。随着央行数字货币、溯源等应用的迅速开展,由传统技术实现的区块链早期技术远不能满足实际的应用需求,区块链核心技术亟待创新与突破。其中以公链的吞吐量大幅提
学位
知识图谱是一种语义化知识库,其中实体被表示成节点,关系则由边表示。一个典型的知识图谱通常将知识描述为多关系数据,并以三元组(头实体,关系,尾实体)的形式表示。虽然知识图谱存在大量的实体和事实数据,但是许多大规模知识库仍不完整,并且缺少大量的真实三元组。针对大型知识库中常见的事实三元组缺失问题,研究学者提出很多知识图谱补全模型。本文主要研究知识图谱补全技术,通过对国内外相关知识图谱补全工作的全面考察
学位