基于SIR的数据降维算法研究及其应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:hlyhky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,很多领域都产生了大量的高维数据,如何刻画高维数据的内在结构并从中提取出对自己有用的信息显得非常重要。充分降维方法正是解决这一问题的有效手段之一,目前评价充分降维方法的好坏(降维效果)通常是用平方多重相关系数的大小来表示的。针对充分降维,本文主要以应用为主,对三种不同类型数据结构的数据集提出了改进的降维方法,主要工作如下。一,以含有离群点的数据集为研究对象,本文将K-medoids聚类算法与切片逆回归方法相结合,提出了K-medoids逆回归算法。通过对由线性模型和非线性模型产生出的模拟数据所进行的仿真实验发现,该算法相比于切片逆回归、切片平均方差估计和海森主方向等传统的充分降维方法不仅有较高的降维正确率,而且有很好的降维效果。本文将上述方法应用于实际数据,数据分析进一步说明了新方法的有效性。二,以响应变量为二分变量的数据集为研究对象,以切片逆回归为代表的传统充分降维方法大多不可用。本文对切片逆回归、切片平均方差估计和海森主方向三种方法进行了研究,给出了三种方法的核矩阵的具体形式和其相对应的检验方法。通过研究发现,改进的方法可应用于响应变量为二分变量的数据集,并且对该结构的数据集有很好的降维效果。三,以预测变量含有分类属性的数据集为研究对象,本文结合虚拟变量法的思想,将基于对象相似性度量的聚类算法代替原始的切片方法提出了一种新的充分降维方法。通过与偏切片逆回归算法的对比发现,新方法解决了实际问题中预测变量含有较多分类变量或者分类变量中含有较多分类属性情况时的回归问题,对分类属性有了更加充分的利用,完善了含预测变量数据的回归方法,对含有分类属性的混合型数据集的应用表明该方法具有很好的降维效果。
其他文献
<正>由文化和旅游部、山东省人民政府共同主办的第五届中国非物质文化遗产博览会于9月13日至17日在山东济南成功举办。期间,全国各地的优秀非物质文化遗产项目及传承人云集泉
对加拿大圭尔夫大学学习共享空间的构建背景、理论、特色,以及学习共享空间的组织结构和服务项目进行详细介绍和分析。认为圭尔夫大学学习共享空间的成功在于坚持以学生为中
随着科学技术的发展,荧光共振能量转移技术在生化分析和临床诊断中有着越来越广泛的应用。基于能量转移技术的核酸探针以核苷酸序列作为基本骨架,以碱基互补配对或其他相互作
蛛网膜下腔出血(subarachnoid hemorrhage,SAH)是指各种原因出血血液流入蛛网膜下腔的统称。临床上可分自发性与外伤性两大类,自发性又分为原发性与继发性两种。由各种原因引
随着科技的不断进步,教育教学在未来几年的改革趋势正向着信息化方向发展,但是,就当前的形势来看,教学模式是人们最关注的问题,忽视了信息化教学的发展现状、存在问题以及解
分数阶微积分是研究任意阶微分和积分的理论,是普通的整数阶微分和积分向非整数阶的推广.分数阶微分有助于神经元高效的信息处理,并可以触发神经元的振荡频率的独立转变.并且
该文综述了充电宝的一些普遍存在的安全问题,例如安全说明和标记不规范,容量虚标,经受不住重物冲击,输出电压性能不稳定,无防火外壳等,针对安全问题提醒消费者在选购和使用充电宝时
介绍了某煤化工项目的离心压缩机组在长期搁置期间所采取的保管存放措施,以及重新启动试车工作时应完成的各项工作及注意事项,总结了该压缩机组在试车期间的特殊要求和设计特
<正>硝苯地平属于二氢吡啶类钙拮抗剂,不论是短效或是控释制剂,其降压效果十分显著,广泛应用于临床治疗高血压。由于短效硝苯地平作用时间较短,而且需要每日多次服用,副作用
村民自治建设已进行了近20年,有关规则、程序都比较具体详细,标准化程度也比较高了,但是,村民的基本权益还是没有得到有效的保护,一些侵权、侵利事件不断发生,这说明村民自治