【摘 要】
:
如何在不损失信息的情况下对高维数据进行属性约简,从而减少数据的传输、存储代价,并降低后续数据挖掘的难度,是数据科学领域的一个重要课题。由于不需要数据本身以外的任何先验性知识,粗糙集属性约简被广泛应用于高维数据的属性约简。邻域粗糙集是对传统粗糙集模型的扩展。由于引入了邻域粒化和粒度空间的概念,邻域粗糙集无需对连续型数据进行离散化处理,可减少传统粗糙集模型对连续型数据离散化导致的信息损失,扩大了粗糙集
论文部分内容阅读
如何在不损失信息的情况下对高维数据进行属性约简,从而减少数据的传输、存储代价,并降低后续数据挖掘的难度,是数据科学领域的一个重要课题。由于不需要数据本身以外的任何先验性知识,粗糙集属性约简被广泛应用于高维数据的属性约简。邻域粗糙集是对传统粗糙集模型的扩展。由于引入了邻域粒化和粒度空间的概念,邻域粗糙集无需对连续型数据进行离散化处理,可减少传统粗糙集模型对连续型数据离散化导致的信息损失,扩大了粗糙集理论的适用范围。本文针对现有的邻域粗糙集属性约简算法在邻域粒化策略、度量函数设计和小样本数据下的属性约简等方面存在的问题,提出了针对性的改进方法。主要工作如下:1.提出了一种基于加权邻域依赖度的属性约简算法。算法针对现有邻域粗糙集模型忽略邻域内样本分布特征而导致的有效信息损失问题,引入了考虑邻域内样本间距离分布的加权邻域概念,定义了加权邻域依赖度函数用于启发式属性约简。以12个UCI公开数据集和实验室采集的玉米种子高光谱数据集为研究对象,采用所提算法进行属性约简,并利用3种常用的分类器建立分类模型以验证分类能力。与2种对比算法相比的结果表明,在UCI数据集上,基于所提算法获得的约简集平均分类精度为84.37%,与对比算法相比提高了2.02%,平均维度基本不变;在玉米种子高光谱数据集上,平均分类精度为89.00%,与对比算法相比提高了0.26%,平均维度为20.00,降低了6.50,因此所提算法具有较好的分类性能。2.提出了一种基于可区分度的连续空间属性约简算法。算法针对现有邻域粗糙集属性约简算法中存在的连续数据处理时的信息丢失、粒化策略易引入不一致信息、参数寻优困难等问题,充分利用数据本身的分布信息,直接从提高分类性能的角度出发,分别定义了类内可区分度和类间可区分度的概念,用于反映类内一致性和不同类别间的可区分性,并以最小化类内可区分度、最大化类间可区分度为约简原则确定最优约简集,从而提高后续分类器的分类性能。实验结果表明:在12个UCI数据集和1个玉米种子高光谱数据集上,采用所提算法获得的约简集平均分类精度分别为85.85%、89.21%,平均维度分别为5.00、29.00,与6种对比算法相比表现出更好的分类性能。3.研究了一种面向增量式数据的扩充式属性约简算法。算法针对增量式数据集较小难以准确评估属性重要度而导致属性约简困难的问题,借鉴邻域粗糙集理论中邻域粒化的思想,构建了历史数据和增量式数据间的邻域关系,基于构建的邻域关系对历史数据进行选择,并扩充到增量式数据集中,以解决不同数据集之间可能存在的概念漂移问题,基于扩充后的数据集进行属性约简,提高了属性约简算法在小样本增量式数据集上的约简性能。基于5种属性约简算法的实验表明:采用所提扩充式属性约简算法在12个UCI数据集上的平均分类精度为84.25%,平均维度为5.80;在玉米种子高光谱增量式数据集上的平均分类精度为89.48%、平均维度为23.60。由此可知,所提算法具有较好的分类性能。
其他文献
藏窗是藏族民居建筑中最基础的组成部分,因其实用与装饰于一体的形制语言,成为藏族民居中最直观的艺术创作之一。本文基于川西地区甘孜州甲居藏族村落的田野考察,运用形态分析方法解析村落民居中的藏窗构造,筛选撷取典型纹样,以形状文法规则进行图案创新,再结合形式的提炼完成藏窗的创新设计。以期为乡建中藏式民居在构造组成藏窗方面提供新的视野与启发,同时验证基于逻辑抽象思维的方法进行设计创新的可行性。
目的:探讨重症高甘油三酯血症性急性胰腺炎发生的危险因素。方法:回顾性分析宁夏医科大学总医院自2016年1月至2021年12月收治的300例高甘油三酯血症性急性胰腺炎患者的临床资料,根据病情程度分为轻症组和重症组,采用单因素分析并进行Logistic回归分析重症HTGP发生的危险因素,评估独立危险因素预测重症HTGP的效能。结果:轻症组HTGP患者共243例(包括轻症及中度重症),重症组患者57例,
<正>刘泽政,马暄皓,刘永林在《教育科学研究》2022年第10期《共同体理论视域下家校共育的逻辑证成与政策路向》一文指出,家庭教育与学校教育共同缔造儿童未来,合作共育之识映出家校之间存有共同体之态。马克思基于历史唯物主义立场,以人的自由全面发展为价值目标、以共同体的共生关系为发展取向、以生产力发展作为重要推手构建共同体理论,赋予家校共育新的解释视角和发展路向。
<正>成绩差的学生,对数学语言信息的敏感性较差,在数学学习中理解问题的能力较弱,思维受到限制,学习水平低。数学教学离不开数学语言,数学语言包含口语表达,也包括书面表达。数学教学语言具有高度的准确性、精炼性。我们说信息会不断地更替,知识也会不断地遗忘,但是数学能力将伴随学生的一生,学生数学素养的高低与是否准确使用数学语言有着直接关系。数学语言包括符号语言、图形图示语言、逻辑思维训练语言。
生猪养殖企业为适应复杂多变的猪周期,应对财务风险进行针对性管控以保障正常经营,而数字技术为该行业管控财务风险带来了新的契机。本文基于国内当前对数字化背景下财务风险管控的研究,以生猪养殖龙头企业牧原股份为例,分析传统生猪养殖行业存在的财务风险,并提出数字化背景下生猪养殖行业开展财务风险管控的有效路径,以供参考。
以《伤寒论》辨证思维方法为切入点,探讨其应用于溃疡性结肠炎的诊治思路。认为溃疡性结肠炎可归属于《伤寒论》中的“下利”范畴,可应用借鉴的临床思维方法包括辨证论治法、方证对应法及抓主证法。对于溃疡性结肠炎的临床诊治,建议以辨证论治溯源病因病机为先,方证对应执简驭繁为要,善抓主证以精准识别病证本质,并结合现代医学进展及后世医家经验重视病证结合而妙用经方,进而扩大临床中医药治疗溃疡性结肠炎的优势。
中国经济已经进入“新常态”,经济的转换和产业结构的调整导致了不良贷款的增加。这不仅影响商业银行的流动性、利润和安全程度,还影响我国金融系统的稳定。从宏观经济层面、微观银行这一层次进一步探究银行不良贷款的发生缘由,明确对不良贷款造成影响的因子,根据实证剖析影响因素是如何作用于不良贷款的。在此基础上,提出相关政策建议,即完善企业的贷款制度结构,根据经济发展调整贷款政策,适度发展表外业务,尝试金融创新,
当前社会要求教师既要有崇高的师德,又要有娴熟的专业技能。要"落实好立德树人的目的,健全德技并修、工学结合的育人模式,完善评价方式,规范人才培养过程。"所谓"把职业学校的孩子培养好",首先是品德,其次是技术技能。对于职业教育而言,要想落实好"立德树人"的根本任务,就是要培养学生"德技并修"。
<正>《幼儿园教育指导纲要》(试行)中指出:"环境是重要的教育资源,应通过环境的创设与利用,有效地促进幼儿的发展。"我园是新建园,在园长的组织下,我们开会讨论环创的方案,各班定好各自的班级主题,结合网络资源,开始出谋划策。我们的主题是"小猪佩奇",在后墙面我们选用的是KT板,上面画了小猪佩奇一家人,象征着团结。我们的吊饰以本土色为主色调,充分利用自然资源,寻找枯树枝,在上面刷上各种色彩,
<正>1955年3月,毛泽东在全国党代表会议上代表中共中央宣布:1956年下半年召开八大。1956年初,中共中央开始着手召开八大的实际准备工作,毛泽东也把主要精力投入到筹备工作中去。作为中共中央主席,毛泽东所做的主要是八大的思想理论准备工作。回顾历史,毛泽东为八大所做的思想理论准备工作,不仅为八大的召开奠定了基础,而且对中国独特社会主义道路的开辟,起到了重大作用。