论文部分内容阅读
在统计学中,如何较好地拟合一组给定数据的密度函数并给出密度曲线的参数形式一直备受关注。尤其是实际问题中经常遇见的删失数据和多峰数据的拟合,不但要求密度曲线具有高度的灵活性,而且不能出现过度拟合现象,这就大大增加了拟合难度。其中,对于混合模型的研究越来越受到人们的重视,是因为混合模型是一种介于参数方法与非参数方法间的半参数模型,这种半参数模型的优越在于它既避免了参数模型对数据结构的拟合偏离问题又具有分布函数可知等非参数模型无法具备的拟合性质。继Tijims[2]给出证明,在弱收敛的意义下,具有相同尺度参数的混合Erlang模型可以无限逼近任意分布后,利用混合Erlang模型解决金融、保险等行业的数据建模问题有了更加广泛和深入的应用。保险破产理论中,当利用混合Erlang分布对保险损失的严重程度建模时,通常拟合都有良好的表现。混合Erlang分布的密度如下:(?)其中θ是这个混合分布公用的尺度参数。α表示各个Erlang分支在混合分布中所占权重,是个权重向量,满足0<αk≤1,k∈1,…,K,及(?)是分布的形状参数向量,每个分量均为正整数.K是混合模型的序,即分支分布的个数。Lee&Lin[3,4]将Expectation-Maximization(EM)算法引入混合 Erlang模型的参数估计中,其本质就是利用迭代的EM算法估计出模型的参数。由于迭代算法对初值的选取依赖很强,不同的初值选取方法对拟合结果会产生不同的影响。Gui等丨7,8丨利用事先确定的混合个数对数据进行聚类得到初值,再给出BIC准则选出最佳模型的方法来避免序的过度拟合。在Lee&Lin[3]和Yin&Lin[9]文章中,EM算法的尺度参数初值来自于一个非常大的备择空间,通过不断迭代来将表现较差的尺度参数估计剔除。这种方法事先所选参数范围较大,尤其是混合模型的序,很容易出现过度拟合现象。因此本文参考Gui等[7,8]方法来确定迭代初值。混合Erlang模型的线性结构很好的实现了异质性,但是产生了不可避免的问题:混合个数(序)的确定。很多学者讨论过正态混合模型序的确定,主要包括最小距离法,假设检验法,惩罚似然法等。Fan&Li[10]提出应用于线性回归模型的SCAD惩罚函数,通过惩罚回归系数,实现变量选择和回归系数的估计,由于混合模型的线性结构与线性回归结构类似,在Yin&Lin[9]中,类似SCAD惩罚函数,作者提出一种新的关于混合权重向量估计的阈值惩罚函数,iSCAD惩罚。通过惩罚混合权重来确定混合分支的个数,即模型的序选择。并且作者给出了估计量满足稀疏性、连续性和无偏性的证明。但在实际数据的密度函数估计中,该惩罚算法收敛性质受到多个因子的影响,可能会出现收敛速度较慢的现象。基于以上,本文提出另一种惩罚似然函数的观点。受到传统的粗糙惩罚定义的启发,将连续的随机变量密度函数三阶导平方作为惩罚项,粗糙惩罚定义如下如下:(?)在本文第四章中,我们通过模拟数据的例子和实际数据密度估计来证实粗糙惩罚后的序估计要优于未惩罚的序估计。