基于条件互信息的变量筛选方法

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:tmd632
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,数据资源是分析各个领域不可或缺的资料。随着信息收集方式的不断进化,数据资源的维数和数量也逐渐增多,产生了大样本数据及高维数据。就高维数据而言,由于数据维数的增高使得计算难度大幅上升,如何有效地分析高维数据,是研究者们面临的非常重要的问题。一个解决高维数据分析难题的有效方法就是变量筛选,通过变量筛选将高维数据降低到适当维数,为后续的分析工作有效减负。论文的第一项工作是将条件互信息用于变量筛选方法中。本文用条件互信息来度量变量间的相关程度,使用的估计方法对数据分布无限制,计算简便。基于条件互信息的独立性检验结果表明,条件互信息能较好地控制犯第一类错误的经验概率,而且它的经验势能也非常不错。这都说明条件互信息可以敏感地捕捉变量间的相关性,能够以条件互信息为基础进行后续的变量筛选工作。论文的第二项工作是提出基于条件互信息的前向变量筛选方法和集成变量筛选方法。模拟实验结果表明,基于条件互信息的前向变量筛选方法和集成变量筛选方法在各类情形下的整体表现优秀,能够较好地兼顾变量筛选的速度和准确率。此外,基于条件互信息的前向变量筛选方法和集成变量筛选方法能较好地应用在基因微阵列数据和新闻文本数据的变量筛选中。论文的第三项工作是提出基于条件互信息的加权集成变量筛选方法。数值模拟和真实数据集的实验结果表明,该方法在变量筛选上有较为不错的表现。大多数情形下,基于条件互信息的加权集成变量筛选方法的筛选速度和准确率比集成变量筛选方法和前向变量筛选方法更具优势。
其他文献
随着国家财税体制改革稳步推进,行政事业单位在会计工作中面临的问题逐渐凸显出来。近几年通过各级纪委监委的巡察,发现一些违规违纪线索与行政事业单位会计工作存在关联。加强对行政事业单位会计风险的防控,不仅可以从源头上预防违纪违法问题的发生,还有助于形成风清气正的社会氛围。本文阐述了行政事业单位会计风险防范的重要性,列举了会计风险的表现形式,分析了风险形成的原因,最后结合自身工作,提出了会计风险的防范与控
期刊
改革开放以来,经济快速增长,工业产值逐步上升,随之伴随的空气污染问题逐渐受到广泛关注。在研究空气污染过程中,研究者们探索空气污染与经济发展之间的关系时,大多数只考虑了经济活动对城市空气污染的影响。这里一个关键假设是,空气污染在城市之间的传播可以忽略不计。这一假设是否有统计证据,已成为一个需要回答的重要问题。本文选取四川盆地、长三角地区和华北地区作为研究区域,通过对三个区域的空气污染物的时间序列进行
学位
近年来,评价素养在国内外受到越来越多的关注,研究者们反复强调教师评价实践对学生学习表现的影响之中,然而有学者发现,学校和课堂层面的评价过于依靠考试成绩,尤其是标准化考试的结果。同时,教育相关部门逐渐重视教学评估在教学实践中的重要作用,教师评价素养受到前所未有的关注,同时面临更高的要求。为了探究贵州省教师评价素养现状并为教师评价素养提升途径提供参考依据,本研究采用定量分析和定性分析相结合的方法,通过
学位
学位
由严格理论导出的Logistic回归模型被广泛应用于多个领域,但传统的Logistic模型存在过拟合问题,且不具有稀疏性,导致估计参数全部或大部分不为0,然而大多数实例(比如糖尿病的风险预测)表明,尽管风险因素变量有许多个,但影响结果的关键变量通常只有少数几个。为解决以上问题,本文提出了正则惩罚项由L1/2范数和L1范数的线性组合构成的L1/2+1-Logistic回归模型,并对该模型的求解算法进
学位
近年来,实体经济市场消费者的需求日益下降,尤其是受到疫情影响,实体企业投资回报率不断下滑。在这种情况下多数的实体企业都进入到了金融、投资性房产等高回报率的行业,试图通过跨行取利这种方式来寻找新的生意机会点。实体企业金融化这一概念就此产生,并在这几年不断发展,成为了国家监管关注的焦点。而探寻金融化成因的构成要素,也是当下金融研究的热点之一。本文对金融化微观领域的成因进行探究,通过“烙印”理论推导CE
学位
我国已经步入经济新常态的发展阶段,创新逐步替代依靠资源、低成本劳动力成为新的经济驱动,使得我国社会、经济发生深刻变革。同时我国的资本市场对外开放也进入了新的阶段,而资本市场开放与改革是为了对提升配置全球资本要素的能力,从而更好地促进实体经济的高质量发展。融合创新壮大实体经济发展,是我国经济发展的重点。A股成功被纳入MSCI指数是我国资本市场对外开放的巨大进步,反映了外界对中国资本市场开放与改革的肯
学位
教学学术和在线教学都是高等教育的新兴事物,两者存在着内在的关联。教学学术是一种以教学为对象的学术活动,信息技术推动了高校在线教学的多样化发展。信息化时代,教育技术向教学领域延伸,线上教育的复杂性对高校教学的开展形成了挑战。基于教学学术的在线教育,表征着高校教学的发展方向。通过信息技术,高校教学实现了从“课堂教学”到“直播教学”的转变;通过教学学术,高校在线教学还将实现从“技术”到“学术”的升华。在
期刊
教育数字化是确保全民优质教育的最有力工具,为我国高等教育高质量发展提供新动能。文章以数字化转型的高等教育内涵和人才培养效能作为切入点,基于教学学术与数字化相结合的理论视角,分析了高校教学共同体的深层作用、作用渠道以及在线教学背景下的表现,并利用分学科、分地区教育数据统计,深入探讨了数字化变革和高等教育普及化背景下,智慧解决教师资源有限、社会发展新型人才缺少、教学复合交叉不足、软硬新基建不充分等现实
期刊
保险风险度量是保险风险领域的一个重要的问题,常见的风险度量指标有破产概率、条件尾期望(CTE)、在险价值(VaR)等,这些指标的本质就是总索赔额的尾概率和矩尾。另一方面,经典风险模型假设索赔额服从轻尾分布且相互独立,但研究表明保险公司索赔额、风投领域资产值、重大灾害损失额等不满足轻尾与相互独立假设,而是具有相关关系的重尾分布。因此为精确刻画相依背景下的保险风险,越来越多的学者开始探讨重尾风险模型的
学位