在线流特征选择算法研究

来源 :合肥工业大学 | 被引量 : 3次 | 上传用户:kjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统特征选择方法在进行特征选择前,特征空间中的所有特征都已存在并且其特征值是可获取的。然而,在实际应用领域的许多具体问题中,存在很多无法预先获取整个特征空间,并且其特征以流的方式存在的场景。为此,出现了面向特征流的在线特征选择方法研究。特征流是指特征数据以流的方式逐个或成组到达,且无法提前获知整个特征空间的信息。随着大数据时代数据体量和维度的剧增,传统批处理模式的特征选择方法因不具有增量处理特性,使其在时空性能上已无法满足要求。相比传统特征选择,针对高维海量数据和特征空间未知场景的在线特征选择具有更重要的研究和应用价值。本文在对现有在线流特征选择方法进行研究的基础上,针对其存在的相关问题和不足,提出了几种新的在线流特征选择算法。主要研究工作如下:(1)针对现有在线流特征选择方法在进行特征选择前需要获取领域知识并提前设置相关参数的问题,提出一种新的基于自适应邻域关系的无参在线流特征选择算法。为了适应不同类型数据集,定义了一种新的可以根据样本分布自动决定需考虑邻居个数的Gap邻域关系,并基于此关系构建了一种新的无参在线流特征选择算法OFS-A3M。基于邻域粗糙集理论,OFS-A3M不需要获取相关领域知识。同时,使用Gap邻域关系使得OFS-A3M不需要提前设置任何参数。根据“最大依赖度,最大相关度和最大重要度”这三个准则,OFS-A3M算法能够选择出高相关,高依赖和低冗余的特征。实验结果表明:在选择相同数量特征的情况,OFS-A3M优于现有的一些传统特征选择方法;同时,在线特征选择场景下,优于最新的在线流特征选择算法。(2)提出一种新的考虑特征交互的在线流组特征选择方法。现有的在线流特征选择方法聚焦于移除不相关和冗余特征,并选择出最相关的特征子集,而忽视了特征之间的交互性。交互特征是指那些就单个特征而言相对于类标签不相关或低相关,但是当同其他特征相组合时却呈现出同类标签高相关性的特征。基于互信息理论框架,对特征相关、特征冗余和特征交互进行了定义,并提出了一种新的可以度量特征之间交互度的特征交互权重因子。利用此交互权重因子,提出了一种新的可以有效选择交互特征的在线流组特征选择算法OSGFS-FI。通过在人工数据集和现实数据集上的充分实验,验证了 OSGFS-FI算法的有效性。(3)提出一种新的面向高维类不平衡数据的在线流特征选择方法。类不平衡是指数据集中某些类别的样本数量远远大于另外一些类别的样本数。对于这种类别不平衡数据,现有在线流特征选择方法因针对正常类分布数据构建,往往会忽略那些至关重要的小类样本。为此,首次对面向类不平衡数据的在线流特征选择问题进行了形式化描述,并提出了一种新的基于条件特征和决策特征之间依赖度的在线特征选择框架。与此同时,提出了一种新的基于K个最近邻对象依赖度的在线流特征选择方法,K-OFSD。基于邻域粗糙集理论,K-OFSD充分利用最近邻样本的类别信息来选择出能够最大程度区别大样本类和小样本类的特征。实验结果表明:在高维类不平衡数据集上,K-OFSD要优于选择相同特征数量的传统特征选择方法;同时,在线特征选择情景下,优于最新的在线流特征选择算法。
其他文献
长江中下游成矿带是我国东部十分重要的铁、铜、金多金属成矿带,广泛发育斑岩-矽卡岩型矿床和玢岩型矿床。基于对带内典型矿床的详细研究,许多学者提出长江中下游成矿带斑岩型矿床为陆内背景下岩浆热液活动的结果。然而,对于长江中下游成矿带斑岩成矿系统的认识还存在很多疑惑和争议,如构造背景,成矿岩浆岩起源及演化过程,热液流体的出溶及矿质沉淀机制等,因此,需要对区内斑岩矿床进行深入细致的剖析,为该成矿带矿床成因提
脂肪组织作为主要的储能器官,在维持体内能量稳态过程中发挥重要作用。白色脂肪组织中不仅有典型的白色脂肪细胞,还零星分布着可以诱导产热的浅棕色脂肪细胞。白色脂肪组织基质血管相(stromal vascular faction,SVF)中的肥大细胞(MC)等免疫细胞、前脂肪细胞以及内皮细胞等,通过与脂肪细胞的互作而调控脂肪组织和机体的能量稳态。2009年,本团队报道了MC通过影响白色脂肪组织血管化,关键
锌是人体必需的营养素,与人类健康息息相关,体内锌紊乱会导致多种疾病的发生,如肿瘤。临床研究发现,肿瘤患者体内缺乏锌,存在多种锌转运蛋白表达异常,膳食补锌具有抑制肿瘤作用,但具体的分子机制仍不清楚。癌症基因组图谱(The Cancer Genome Atlas,TCGA)中数据显示,人类多种肿瘤组织锌转运蛋白Zn T7表达量下降,但无相关机制研究。本课题以此为契机,探究营养素锌对肿瘤发生发展的影响及
肉类食品是人类饮食的重要组成部分,肉制品安全与人们的身体健康和生命安全直接相关。近年来接连发生的肉制品安全事件使人们充分意识到建立准确、有效的肉品质量监管机制的重要性。然而,目前的检测方法仍以实验室分析为主,可用于快速、简单和现场检测肉源性成分的方法较少。针对肉制品检测的研究现状,本论文以聚合酶链式反应(PCR)、环介导等温扩增(LAMP)和重组酶聚合酶扩增(RPA)等核酸扩增技术为基础,并与荧光
随着我国社会经济的飞速发展和物质财富极大丰富,人们的物质生活水平得到了极大的提高,消费者也越来越倾向于购买高端化、个性化和品质化的产品。但传统的自动化生产线主要实现单一品种、大批量的生产,这一生产模式已远远不能满足消费者的需求。为解决需求变动所带来的生产问题,考虑到高端化、个性化和品质化产品的多品种、小批量、到达时间随机等特点,企业往往采用工作台的生产方式,安排员工各自加工,然后根据工艺要求,将加
该文针对行政规范性文件的文本纠错任务,提出了一个基于BERT(Bidirectional Encoder Representations from Transformers,一种经典的自然语言处理领域的预训练模型)的文本纠错模型,模型针对冗余、缺失、错序、错字等四类任务分别建模,分为检错和纠错两个阶段。检错阶段检查出文本是否有错、错误的位置以及错误的类型等内容,纠错阶段运用BERT掩码语言模型和混
下扬子地区在晚中生代时发生了强烈的、多阶段的成岩成矿作用,形成了大量的岩浆岩和多金属矿床。然而,下扬子地区内的两大构造单元,长江中下游成矿带和江南造山带东段,却有着明显不同的成矿特征。长江中下游成矿带燕山期岩浆作用主要产生Cu-Au-Fe矿床,而江南造山带东段却发育大量W-Mo矿床。此外,相对于与成矿密切相关的早阶段岩浆岩而言,长江中下游地区晚阶段A型花岗岩的岩石成因及构造背景研究较为薄弱,且争议
采用酶解法提取新疆伊吾县野山杏多肽,探究其对衰老模型小鼠的抗氧化作用。通过单因素实验,考察酶底物比、料液比、提取时间、p H值和酶解温度对野山杏多肽水解度的影响,结合正交试验,优化野山杏多肽提取工艺;以提取物为原料,D-半乳糖制备小鼠衰老模型,分为空白对照组,野山杏多肽低、中、高剂量组(50、75、100 mg/kg),衰老模型组以及Vc阳性对照组,连续灌胃饲养30 d,测定血清、肝组织和脑组织匀
图或者网络可以对现实世界普遍存在的实体、关系、属性进行建模,构成属性网络。随着信息技术的发展,各种网站、桌面软件、手机应用、传感器产生了大量属性网络数据,如人们熟知的社交网络数据,物联网数据等,为相关研究提供了丰富的数据资源。属性网络的模式发现被广泛用于传染病爆发预测、道路拥堵检测、网络入侵检测等领域。现有网络模式发现的研究多关注单一网络或网络结构方面,而本文将研究重点聚焦于属性依存网络,即多个存
随着环境和能源的严苛要求,电动汽车已成为当前和未来很长一段时期汽车产业发展的趋势,正加速向电动化、智能化、轻量化方向发展。与目前集中式驱动的电动汽车不同,分布式驱动电动汽车具有传动高效、结构紧凑、各轮驱动与制动力矩独立可控等特点,动力输出更加平稳高效,被认为是未来低碳社会与智慧城市的主要交通工具之一。分布式驱动电动汽车取消了差速器等传动系统的机械连接,由四个独立的轮毂电机直接驱动,这对提升汽车稳定