论文部分内容阅读
随着时代的发展与科技的进步,人们解释了很多规律也同时对更加复杂的客观规律越发好奇.但是人们会发现越是复杂的客观规律背后隐藏的信息量和数据量越是庞大.所关注的客观规律中包含的因素越多,数据量的维数也就越大,而维数的增大伴随而来的是分析数据的难度呈指数型增长.随着科学技术的发展,数据采集技术不断提高,数据采集的精度和频率也随之提高.现如今,每两次采集数据的时间间隔可以变得非常短,虽然采集到的数据实际上是离散的,但是几乎可以看作是连续的曲线或者是连续的函数.这种具有函数特征的数据简称为函数数据.降维方法是用于克服“维数灾难”或者将高维数据模型化的一种典型数据处理技术.在一般情况下,需要将高维数据的维数降到一个合理的大小,与此同时还要尽可能多的保留原始信息,目的是为了剔除掉冗余信息,获得更加合理的表示方式.在获得更加合理的表示方式之后,再将降维后的数据送入处理系统,从而降低处理数据的时间和工作量,达到提高数据处理的效率的目的.本文的目的是研究并综述当下函数数据分析领域几种常见的降维方法和前人的研究成果,为本人今后在金融业从事函数数据分析处理工作打基础.第一章首先介绍了“函数数据”和降维的必要性并对函数数据分析相关概念进行概述.其中包括“维数灾难”的由来:“维数灾难”一词是由Bellman,Richard Emest[1].于1961年首次提出的,指的是估计多变量函数的难度会随着所需采样点个数的线性增加呈指数型增长;什么是函数数据:函数数据最基本的思想是把离散数据光滑成函数,然后从函数数据中提取信息进行统计推断.经典的函数数据是假设整个曲线被完整观测到而且无误差.由于这种假设过于完美,主要应用在气象数据中;“降维”的定义:当数据的维数线性增加的时候处理这些数据时所面临的难度是呈指数趋势增长的,所以当数据维数达到一定程度时便需要采取一定的手段使数据处理系统可以有效的处理这些数据,这种手段便是现在提及越来越多的降维方法;函数数据分析的基本理论:J.O.Ramsay长时间致力于函数数据分析的研究工作.在他和C.J.Dalzell的Some Tools forFunctional Data Analysis中提出了很多实用的用于研究时间上无穷维的函数数据的方法和工具,并且将函数型数据的主成分分析方法应用到对加拿大温度与降水量的关系的实证性研究中.此后, J.O.Ramsay在1997年与B.W.Silcerman合作总结出函数型数据分析的理论和方法,并出版了Functional Data Analysis一书.书中非常全面地阐述了函数型数据的基本特征及其统计分析思想,极大地推动了函数型数据分析的发展与学术界对函数型数据的认知.第二章对近年来函数数据降维的发展和前人们研究成果中主要的函数数据分析方法进行综述,其中函数数据分析方法包括函数数据主成分分析、函数数据典型相关分析和函数数据切片逆回归分析.由于函数数据分析领域中一般的降维方法均是由多元情形下的数据分析降维方法演变而来,所以在第二章先分别介绍这三种降维方法在多元情形下的降维思路,以此和函数数据分析中三种方法进行关联和对比.主成分分析方法[4]要求个成分可以再现全系统的变异性,但大部分变异性常常只用少数个主成分就可以说明.这个主成分中所包含的的信息和那个原变量所包含的几乎一样多.于是由对个变量的次测量值所组成的原始数据就压缩为对个主成分的次测量值所组成的数据集.典型相关分析[7]最早是由霍特林(H.Hotelling)于1936年提出的.典型相关分析的目的的是识别并量化两组变量之间的联系.其研究焦点是:一组变量的线性组合之间的相关关系[8].切片逆回归[10]最早是由Li(1991)在Slicedinverse regression for dimension reduction一书中提出的.在不进行任何参数的或者非参数的建模过程的情况下降低输入变量的维数.切片逆回归方法估计基于逆回归.不同于正向回归中用对做回归分析,逆回归是用对做回归分析.这样做的最直接的好处就是交换了和的位置,可以将维数问题平移.本质上,我们将正向回归的高维问题转变成为解决一维到一维的回归问题.为了挑战维数灾难,我们希望利用低维投影来补偿高维数据中我们感兴趣的特征.第三章对这三种函数数据降维方法的优缺点进行分析与总结,并希望在不久的未来可以研究出相关的函数数据分析软件满足各个行业对于函数数据分析的需求.