(a,b,0)零膨胀分布类的Copula函数连接及索赔次数拟合

来源 :预测 | 被引量 : 0次 | 上传用户:a77115280
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文针对非寿险索赔次数回归拟合问题,以(a,b,0)零膨胀分布类为基础,简化其描述表达式,引入服从均匀分布的扰动量,将离散变量转化为连续变量,并通过Gaussian Copula实现边际分布的连接,给出模型的参数估计,通过对一组汽车保险索赔次数数据的实证分析和结果比较,表明采用Copula连接后的(a,b,0)零膨胀分布类回归模型有效地改善了拟合效果,并且避免了保险费率厘定时对索赔次数分布的选择。
  关键词:零膨胀;索赔次数;(a,b,0)分布类
  中图分类号:F840.48文献标识码:A文章编号:10035192(2014)05005306doi:10.11847/fj.33.5.53Abstract:According to the problem of nonlife insurance claim frequency regression fitting, the paper takes(a,b,0)zeroinflated distribution class as a foundation, simplifies the description expression, introduces a jitters variable with uniform distribution, transforms discrete variables to continuous variables, and joint marginal distributions by Gaussian Copula function, puts forward the parameter estimation of distribution model. By the empirical analysis and results comparison, which using a group of auto insurance claims data, shows that: the(a,b,0)zeroinflated distribution class regression model jointed with Copula function is effective to improve the fitting effect, and avoids the choice of the distribution for claim frequency in rate making.
  Key words:zeroinflated; claim frequency; (a,b,0)distribution class
  1引言
  在非寿险精算中,分布类是一个最为常用的索赔次数拟合方法,它涵盖了泊松分布、二项分布、负二项分布、几何分布[1,2],具有一定的实用价值。但在大部分非寿险业务中,索赔次数数据往往具有过离散和零膨胀特征,尤其在免赔额限制和无赔款优待(NCD)的影响下,期望零远远小于实际数据中零的个数,零膨胀情况更为严重。为解决这一类问题,人们分别展开了(a,b,0)分布类中零膨胀泊松、零膨胀负二项分布等的研究工作。
  对零膨胀现象的研究,最早可追溯到Johnson和Kotz[3]的一些初步理论研究工作,Lambert[4]则首次提出了零膨胀泊松模型,建立了零计数和非零计数的混合概率分布,并应用于电子制造业的质量控制中。基于这一思想,Greene[5]将零膨胀泊松分布模型扩展到零膨胀负二项分布模型,并采用BHHH方法估计模型参数的标准误差。Yip等则讨论了各种零膨胀模型在非寿险中的应用,并对车险数据的索赔频次进行了拟合分析[6]。Denuit等和Winkelmann分别还在其专著中对零膨胀现象进行了讨论,分析了索赔次数数据的零膨胀特征[7,8]。除此而外,Hall[9],Bohning[10],Agarwal[11],Cheung [12],Bohara[13],Curmu[14]等还分别探讨了不同行业领域的零膨胀现象,并将零膨胀思想与分布模型应用到农业、医学、环境科学、儿童发育学、人口学以及计量经济学范畴,通过实证分析论证了零膨胀分析的正确性与实用性,推动了零膨胀的研究与发展。当前,随着研究的深入,业已出现了(a,b,0)分布类中的零膨胀泊松、零膨胀负二项分布的扩展和推广,典型的有:Moffatt等[15]针对观测到的数据并非确切值而仅已知其落在某区间范围的情况,提出了数据集不同分类的分组GZIP模型;文献[16]还对其进行了改进,提出了一种零膨胀泊松半参数回归模型来处理分组计数数据,该模型中泊松分布的期望与协变量之间采用部分线性连接函数,而零值的概率与协变量之间采用线性连接函数。Gupta等则引入零膨胀广义泊松回归模型ZIGP对胎儿运动与死亡次数数据进行了拟合[17]。Czado等[18]又在此基础上对ZIGP回归模型做了进一步的研究与分析。针对损失数据,孟生旺等[19]分别利用零膨胀泊松回归、零膨胀负二项回归、零膨胀广义泊松回归模型进行了分析,说明了零膨胀模型可以显著改善拟合效果。徐昕等[20]和郭念国[21]则分别给出一个零膨胀负二项分布的扩展形式和一个修正的零膨胀泊松模型,解决了索赔次数中出现的零膨胀问题。
  虽然上述研究已经在一定程度上解决了索赔次数的零膨胀问题,然而随着人们对非寿险精算索赔次数拟合和回归的要求越来越高,仅仅依靠传统的泊松分布和负二项分布的零膨胀改造、泛化和扩展,已经不能够满足精算实务的需要,人们迫切希望探索一种能够进一步提高拟合效果,充分表现不同风险因素对索赔次数作用的分布模型。为此,本文在介绍(a,b,0)零膨胀分布类的基础上,通过引入服从均匀分布的扰动量将离散变量转化为连续变量,以(a,b,0)零膨胀分布类为边际分布,建立了基于Gaussian Copula的联合分布模型,并给出模型的参数估计,最后与文献[6]和[20]中多个回归拟合的结果进行了比较分析。结果发现,零膨胀模型对零索赔次数的估计相比传统的(a,b,0)分布类更加接近真实值,并且利用Copula函数连接可以实现对多种边际分布的联合,更加准确地反映了综合风险因素条件下的索赔次数,提高了拟合分析效果,避免了保险费率厘定时对索赔次数分布模型的选择。   郭莲丽,等:(a,b,0)零膨胀分布类的Copula函数连接及索赔次数拟合
  5实证应用
  为便于比较,本文采用与Yip等[6]相同的数据进行实证分析。数据来自SAS企业数据挖掘数据库,数据内容包括保单信息、驾驶记录、潜在风险、投保人特征,以及索赔日期、索赔频次、补偿数量等。原始数据中有观测值10303个,33个风险分类变量,由于数据大多不够完整,故仅采用1年的数据展开分析,总计抽取3712个客户的2812条完整数据记录,实测的0,1,2,3,4,5次索赔的频度分别为[1706,351,408,268,74,5]。
  5.1索赔次数的拟合
  索赔次数的拟合分别选用AB0、ZIAB0、ZINBII、ZIGP、ZINBK、CZIAB0共6种分布,其中AB0为(a,b,0)分布类,ZIAB0为(a,b,0)零膨胀分布类,ZINBII和ZINBK为来自文献[20]的两种零膨胀负二项分布,ZIGP为零膨胀广义泊松分布[6],CZIAB0为本文利用Copula函数在n=2时建立的二维零膨胀(a,b,0)联合分布。通过编写NLMIXED代码所获得的无风险分类下索赔次数数据的拟合结果如下:(1)当采用(a,b,0)分布类进行拟合时,得到参数估计a=0.3664、b=0.1500,满足表1中的判别条件00,分布符合负二项分布,索赔次数拟合结果分别为[1478,763,337,140,57,22],此时AIC和BIC分别为7006和7017,大于7000,说明拟合效果相对较差。(2)用(a,b,0)零膨胀分布类进行拟合时,得到参数估计a=0、b=1.6899,满足条件a=0和b>0,其分布符合零膨胀泊松分布,索赔次数拟合结果分别为[1706,443,357,201,85,29],此时AIC和BIC分别为6699和6719,拟合效果相比前者明显改善。(3)ZINBII、ZIGP、ZINBK三种零膨胀是对(a,b,0)零膨胀分布类中的零膨胀泊松分布和零膨胀负二项分布的扩展,对应的索赔次数拟合结果分别为[1706,423,357,201,85,29]、[1706,423,357,201,85,29]、[1706,423,357,201,85,28],结构零比率1-w分别为0.5177、0.5176、0.5176,拟合效果均有所提升,但由于参数数量的增加,AIC和BIC降低的幅度不高,且三者之间差异不大,在一定程度上影响了拟合时分布函数的选择。(4)在将两个(a,b,0)零膨胀分布作为边际分布,使用Gaussian Copula函数建立联合分布后,得到参数估计a1=0、b1=1.5966(零膨胀泊松分布)和a2=0.6820、b2=0.2208(零膨胀负二项分布),结构零比率1-w=0.5150,根据判断条件可知联合分布CZIAB0实际是由零膨胀泊松分布和零膨胀负二项分布这两个边际分布通过Gaussian Copula函数连接而成,索赔次数拟合结果分别为[1706,416,398,220,78,16],此时AIC和BIC分别为6168和6197,拟合结果明显改善,更加接近于观测数据。并且还可以看出,在这一过程中,我们不需要在拟合前确定各边际分布的具体类型,其可以通过参数估计结果和判断条件反推获得,因而避免了保险费率厘定时对索赔次数分布模型的选择。(5)综合比较可知,零膨胀模型对零索赔次数的估计相比传统的(a,b,0)分布类更加接近真实值,为了进一步验证,我们还选取了其它年份数据进行了分析,发现ZIGP、ZINBK、CZIAB0三种零膨胀分布均准确地反应了索赔数据中的零索赔次数,且参数在水平为5%下显著,仅是在结构零所占比率的大小上有所不同。
  5.2回归模型的拟合
  在回归模拟中,选取了13个费率因子,包括客户性别、教育程度、婚姻状况、单亲家庭、客户年龄、汽车类型、汽车颜色、汽车用途、行驶区域、年薪收入等,除年薪收入为连续变量外其它均为属性变量。经过风险分类后,回归模型拟合结果如下:(1)所有的回归模型结果均表明汽车用途、婚姻状况、行驶区域、年薪收入、客户性别是与索赔次数相关的重要风险因素,采用AB0、ZIAB0、ZINBII、ZIGP、ZINBK、CZIAB0模型回归后的截距分别为-1.2187、-0.5619、-0.5619、-0.5619、-0.6361、-0.5899,各因素在不同模型下回归系数分别为0.2895、0.1489、0.1489、0.1489、0.0854、0.0950,-0.1430、-0.1108、-0.1107、-0.1108、-0.0807、-0.0991,1.4071、1.2298、1.2298、1.2298、1.2888、1.2355,-0.0309 、-0.0174、-0.0174、-0.0174、-0.0181、-0.0179,-0.1187、-0.0510、-0.0510、-0.0510、-0.0315、-0.0419,且散度参数和结构零的比率参数w均在水平为5%下显著,反映了观测数据的零膨胀特点。(2)在6个回归模拟中,ZIAB0、ZINBII、ZIGP的结果差异不大,AIC和BIC都在6500附近,ZINBK模型通过对ZINB扩展后略有提升,AIC和BIC分别是6452和6470,而CZIAB0的AIC和BIC分别为6289和6349,
  是所有模型中最小值,具有最佳的回归效果,更加有效地描述了潜在的索赔次数分布,同时表明观测数据中有1211(2812×(1-0.5692))个结构零。(3)回归结果还说明:商业用途的汽车相比家用或个人汽车显示出高的索赔次数;生活或工作在市区的投保人由于产生事故的概率较大,因而引起的索赔次数也相对较高;婚姻状况的协变量系数为负值,表明已婚被保险者可能驾驶车辆时较为谨慎,索赔率较低;年薪收入变量也具有负系数,说明高收入的保险人或许更加重视车辆的保养、维护和维修,从而拥有较低索赔次数;另外,客户性别变量的系数也为负值,揭示了男性驾驶者发生事故的几率比女性驾驶者小;但总体来看,年薪收入和客户性别对索赔次数的影响程度相对其它并不明显(系数分别为-0.0179和-0.0419)。   6结论
  本文综合利用(a,b,0)分布类、零膨胀理论、Copula函数,探讨了零膨胀条件下的索赔数据拟合问题,建立了基于Gaussian Copula的(a,b,0)零膨胀分布类CZIAB0,并通过索赔次数和回归模型的拟合,与AB0、ZIAB0、ZINBII、ZIGP、ZINBK等5个模型进行了比较。从拟合结果来看,CZIAB0具有最小的对数似然值、AIC和BIC,结构零比率的相关参数w均在水平为5%下显著,更加接近观测数据。总体来看,CZIAB0涵盖了常见的泊松分布、负二项、零膨胀泊松和零膨胀负二项分布,并通过Copula实现了对多种分布的联合,更加有效地反应了综合风险因素条件下的索赔次数,提高了拟合分析效果,并且避免了保险费率厘定时对索赔次数分布模型的选择。
  参考文献:
  [1]许芹.索赔次数数据分布的拟合方法的分析和比较[J].应用概率统计,2005,21(3):315321.
  [2]孟生旺,刘乐平.非寿险精算学[M].北京:中国人民大学出版社,2007.1927.
  [3]Johnson N L, Kotz S. Distribution in statistics: discrete distribution[M]. New York: Wiley, 1969. 132.
  [4]Lambert D. Zeroinflated Poisson regression with an application to defects in manufacturing[J].Technometric, 1992, 34(1): 114.
  [5]Greene W. Accounting for excess zeros and sample selection in Poisson and negative binomial regression models[R]. Working Paper,Department of Economics, New York University, 1994. EC94103.
  [6]Yip K C H, Yau K K W. On modeling claim frequency data in general insurance with extra zeros[J]. Insurance: Mathematics and Economics, 2005, 36(2): 153163.
  [7]Denuit M, Marechal X, Pitrebois S, et al.. Actuarial modeling of claim counts: risk classification, credibility and bonusmalus systems[M]. England: John Wily and Sons, Ltd, 2007. 6285.
  [8]Winkelmann R. Econometric analysis of count data(5th)[M]. Berlin: SpringerVerlag Berlin Heidelberg, 2008. 173199.
  [9]Hall D B. Zeroinflated Poisson and binomial regression with random effects: a case study[J]. Biometrics, 2000, 56(4): 10301039.
  [10]Bohning D, Dietz E, Schlattmann P, et al.. The zeroinflated Poisson model and the decayed, missing and filled teeth index in dental epidemiology[J]. Journal of Royal Statistical Society. Seris A(Statistics in Society), 1999, 162(2): 195209.
  [11]Agarwal D K, Gelfand A, et al.. Zeroinflated model with application to spatial count data[J]. Environmental and Ecological Statistics, 2002, 9(4): 341355.
  [12]Cheung Y B. Zeroinflated models for regression analysis of count data: a study of growth and development[J]. Statistics in Medicine, 2002, 21(10): 14611469.
  [13]Bohara A K, Krieg R G. A zeroinflated Poisson model of migration frequency[J]. International Regional Science Review, 1996, 19(3): 211232.
  [14]Gurmu S, Rilstonez P, Stern S. Semiparametric estimation of count regression model[J]. Journal of Econometrics, 1999, 89(1): 123150.
  [15]Moffatt P G, Prters S A. Grouped zeroinflated count data models of coitl frequency[J]. Journal of Population Economics, 2000, 13: 205220.   [16]钟雨珂,薛宏旗,张三国.分组零膨胀泊松模型的半参数统计推断[J].中国科学院研究生院学报,2009,26(2):172184.
  [17]Gupta P L, Gupta R C, Tripath R C. Analysis of zeroadjusted count data[J]. Computational Statistics and Data Analysis, 1996, 23: 207218.
  [18]Czado C, Erhardt V, Min A, et al.. Zeroinflated generalized Poisson models with regression effects on the mean, dispersion and zeroinflation level applied to patent outsourcing rates[J].Statistical Modeling, 2007, 7(2): 125153.
  [19]孟生旺,王维.零膨胀损失次数回归模型及其应用[J].兰州商学院学报,2011,27(1):17.
  [20]徐昕,袁卫,孟生旺.零膨胀负二项回归模型的推广与费率厘定[J].系统工程理论与实践,2012,32 (1):127133.
  [21]郭念国.零膨胀泊松模型的改进在零磁索赔建模中的应用[J].统计与信息论坛,2010,25(7):2225.
  [22]李晶.索赔次数分布簇(a,b,0)类的性质及应用[J].科学技术与工程,2010,10(22):54815484.
  [23]Panjer H, Willmot G. Computational aspects of recursive evaluation of compound distribution[J]. Insurance: Mathmatics and Economics, 1992, (5): 113116.
  [24]Sklar A. Fonctions de repartition a dimensions et leurs marges[J]. Publication de I’Institut de Statistique de I’Universite de Paris, 1959, 8: 229231.
  [25]Madsen L, Fang Y. Joint regression analysis for discrete longitudinal data[J]. Biometrics, 2011, 67(3): 11711175.
  [26]Denuit M, Lambert P. Constraints on concordance measures in bivariate discrete data[J]. Journal of Multivariate Analysis, 2005, 93(1): 4057.
其他文献
摘要:在经济新常态下,如何借助金融媒介来加大民营企业研发投入力度,促进民营企业成长,成为亟待解决的问题。本文选取2007年以来我国制造业民营上市公司面板数据,分析了金融集聚、研发投入对民营企业成长的影响。研究发现:金融集聚度和企业研发投入的提升对企业成长均具有正向影响,但是金融集聚对于企业研发投入与民营企业成长之间关系的正向调节效应并不显著,说明金融集聚影响下的金融机构贷款大多用于企业项目投资等,
期刊
摘要:传统金融工程技术能够得到风险中性概率,但如果不还原出表征市场风险偏好结构的定价核,无法进一步得到真实概率。围绕定价核的还原研究,近年来出现两类不同的方法:Ross的矩阵法,Carr和Yu的微分方程法。前者求解矩阵最大特征值,后者求解方程最小特征值。本文通过引入状态转移定价算符,探讨这两种方法的内在联系,给出统一表述的还原法:求解定价算符特征方程, 其最大实特征值对应市场贴现率,而特征函数代表
期刊
摘要:本文探讨了顾客参与与顾客信任的关系以及顾客满意的中介作用和两种自律导向的调节效应。研究结果发现:顾客参与对顾客信任和顾客满意都具有积极的促进作用,顾客满意在顾客参与和顾客信任之间呈现出完全中介作用,情感导向能够有效调节顾客参与与顾客满意之间的关系,但是理性导向则起不到调节作用。  关键词:顾客参与;顾客满意;情感导向;理性导向;顾客信任  中图分类号:F713.55 文献标识码:A 文章编号
期刊
摘要:基于双渠道古诺博弈模型,本文比较了三种不同情况下的渠道选择博弈及其均衡。分析发现在这三种情况下,降低某渠道的单位变动运营成本,提高消费者对某渠道的偏好程度,以及在避开“差异化陷阱”的条件下扩大某渠道与其他渠道的差异,都可以增加该渠道的均衡销量;而博弈结果是视具体参数而定的,任何情况下均为最优的渠道选择是不存在的;一般情况下,企业兼营双渠道时,设置相同的线下和线上价格是一种缺乏经济效率的安排。
期刊
摘要:针对矿产资源的耗竭性与不可再生性及在开发过程中的外部性,本文构建了一种可以评价其生产价值、产权价值、生态价值及代际补偿价值的组合性均衡评价模型。即用期权价值修正矿产资源开发补偿的基准值,修正内容包括矿产资源开发的不确定性及博弈主体的策略性价值,并用利他心理效用函数修正矿产开发中博弈主体的效用,体现矿产资源开发的代际补偿价值。以此为基础,构建基于贝叶斯规则及动态博弈均衡的矿产资源协议定价博弈模
期刊
摘要:现金股利政策常常成为上市公司控股股东进行利益侵占的手段,但股权分置改革前后控股股东影响现金股利政策的动机存在差异。本文选取股权分置改革后中国上市公司的数据,实证检验了控股股东对上市公司现金股利政策的影响。研究发现,股权分置改革后上市公司控股股东的利益侵占水平和现金股利发放负相关;控股股东的持股比例与现金股利发放正相关,控股股东持股比例的增加会减弱利益侵占和现金股利之间的相互替代关系。研究结论
期刊
摘要:本文基于完全自适应集合经验模态分解(CEEMDAN)和希尔伯特谱分析,对沪深300指数(000300.SH)和主动偏股型开放式基金指数(H11022.CSI)进行了趋势分解和不同时间尺度的波动分析,研究对比了我国股票和基金市场的收益和风险。结果表明:我国基金市场的期望收益率远比股票市场高,风险却小于股票市场。随后解释了出现这种现象的现实原因,并为我国投资者提供了操作上的建议。  关键词:完全
期刊
摘要:本研究从上市公司非系统性风险和公司股票估值的角度出发,采用1998年至2013年具有时间连续性的209家ST上市企业为研究样本,对ST政策的实施效果进行了深入细致的探讨。结果发现,在控制了公司特征、行业和时间固定效应后,ST政策的实施与上市公司非系统性风险呈正相关,与公司股票价值呈负相关;在引入反映公司管理者行为的盈余管理变量后,盈余管理并未起到降低企业非系统性风险的作用,相反却增加了ST政
期刊
摘要:随着项目管理进入“大尺度”时代,项目间交互关系成为项目组合风险测度及选择决策研究的重要基础。基于Artzner风险定义,本文提出了以超预期收益率为随机变量的项目组合一致性风险测度策略,构建以交互关系分类为基础的多因子模型,借以度量项目间风险交互效应,并讨论一致性风险测度框架下项目组合风险和单项目风险的定量关系。在此基础上,提出了以收益最大化和风险最小化为目标的项目组合选择决策模型及其求解算法
期刊
摘要:本文运用机制转换混合Copula函数研究了沪深300股指期货与沪深300指数之间的尾部传染,用AR(1)GJR(1,1)t模型描述沪深股指期货和现货收益率的边缘分布,以机制转换混合Copula函数对股指期货与现货收益率间的尾部相依结构进行建模,刻画了沪深300股指期货与现货2010年4月16日至2013年2月1日期间的尾部相依结构,并分析了两市之间的尾部传染性。实证结果表明:机制转换混合Co
期刊