论文部分内容阅读
科学技术的迅猛发展,不仅使得人们对生活的环境有了更深层次的认识,更使得人们对生活的品质要求的越来越高。这也使得从现实生活中所汇聚的各类数据变得庞大无比,从而导致我们处理这些数据变的越来越复杂。想要研究这些错综复杂的实际数据,如果简单的对数据总体进行分析,那么就很难找到数据中各类别的差异。为了更好的分析数据的性质,统计学家们常常对数据进行聚类分析,将总体数据按照不同的指标或者特性进行分类,再对具有相似性质或相似指数的数据进行详细的分析。在异质总体中,混合回归模型是最重要的统计数据分析工具之一,其主要研究含有两个或两个以上子聚类的混合数据,在生物学、医学、经济学、环境科学、抽样调查及工程技术等领域具有广泛的应用。而大量异方差数据的存在,则打破了经典回归模型中方差齐性的假设,为了有效的控制方差,了解方差的来源,就有必要对方差建模,联合均值与方差模型是处理异方差数据的重要研究工具。而变量之间往往存在着非线性关系,这也使得线性回归模型这一简便且在很多领域都得到了广泛使用的模型,在实际问题的应用中并不多见。虽然一些模型可通过变换将它化为线性模型,事实上,更多的情况下是不能通过变换化为线性模型的非线性模型。本文针对异质总体、混合数据、异方差、非线性模型,通过EM算法对正态数据与偏态数据下各模型中未知参数的极大似然估计进行研究,主要的内容有:第一,对联合均值与方差模型中的均值参数与方差参数建立非线性模型。在假定了混合数据服从正态分布的基础上,提出了混合非线性联合均值与方差模型。给出了EM算法所需的公式,研究该模型参数的极大似然估计,通过随机模拟实验验证模型与方法的有效性,结合实际数据验证了该模型和方法具有实用性和可行性。第二,正态数据是对称的,而实际数据比如金融、经济、生物医学和环境科学等领域很多都是近似正态,并非严格的对称,这类数据具有一定的偏斜性。而由偏正态分布的性质可知,当偏度为零的时候,偏正态分布会退化成正态分布。也就是说,正态分布是偏正态分布的一种特例。因此,在第一部分研究的基础上,提出偏态数据下混合非线性回归模型和混合非线性联合位置与尺度模型,研究了基于偏正态分布下混合数据的不同模型中参数的极大似然估计,随机模拟实验验证此模型与所提出方法是有效的。第三,同样基于偏正态数据,在前一部分的基础上,除对位置、尺度进行非线性建模外,对偏度参数同样进行非线性建模,研究偏态数据下混合非线性联合位置、尺度与偏度模型,通过EM算法研究该模型参数的极大似然估计,由随机模拟实验可以证明模型与方法的有效性。