论文部分内容阅读
本篇文献中出现的经典相关系数有三种,它们分别由统计学的奠基人Pearson提出的积矩相关系数(Pearson‘s Product Moment Correlation Coefficient,PPMCC),心理学家Spearman提出的斯皮尔曼秩次相关系数(Spearman’s rho,SR),以及统计学家Kendall提出的肯德尔秩次相关系(Kendalls tau,KT),经过很多代各行各业的研究者共同的探索,终于将这3种经典相关系数在高斯模型下的统计特性基本上已经确定。还有一种是在它们基础上推导出来的斯皮尔曼简捷相关系数,这个相关系数就是本篇文章主要研究的对象。在统计学家Fisher的努力下,我们对PPMCC在二元高斯模型下的性能有了很好的了解。他证明出PPMCC是总体相关系数的渐近无偏最优估计,它的方差只要在所给样本足够大时,就可以达到Cramer-Rao下限。除了以上优点外,PPMCC的算法复杂度和数据长度成正比,运算速度快,可以满足实时性要求,因此PPMCC在各领域中都占据了主导地位。 但当出现以下情况时,PPMCC的稳健性就达不到要求了: 1.样本数据是不完整的,即只有数据的排序信息(秩次)是知道的时候。这在社会科学领域中例如心理学和教育学中是很常见的。 2.底层的样本数据是完整已知的,同时服从二元正态分布,但是当存在一些传感器且为单调非线性转换时,则PPMCC或多或少的会衰减。 3.样本数据是完整的,大部分服从二元正态分布,但会有少量的脉冲噪声存在时。 在以上情况下,非参数系数SR和KT更加适合被应用,当比较两个信号之间的相关性时,其中一个是没有受干扰的信号,而另一个是受到非线性或者脉冲干扰时,这种情况可以用高斯混合脉冲噪声模型来模拟,而且这种情况会经常在样本匹配,雷达和声纳扫描中出现,本文研究的内容就是将这四种相关系数在这种情况下的稳健性进行比较,它们的模型是在matlab上模拟了的。