论文部分内容阅读
吉林扶余县第一中学孙恒来 一、基础知识
1。函数关系是一种确定性关系;而相关关系是一种非确定性关系。
2。回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤为:收集数据、画出散
点图、求出回归直线方程、利用方程进行预报。
3。对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归直线的斜率和截距的最小二乘
估计公式分别为^b=ni=1xiyi-n xy ni=1xi2-n x2、^a= y-^b x,其中 x=1nni=1xi, y=1n
ni=1yi,( x, y)称为样本点中心,^a的几何意义是y不受x的变化影响的部分,^b的几何意义是x每增加(
减少)一个单位,y平均改变^b个单位。
4。相关系数r是用来衡量两个变量之间线性相关关系的方法,样本相关系数的计算公式为:
r=ni=1(xi- x)(yi- y)ni=1(xi- x)2·ni=1(yi- y)2
=ni=1(xiy1-n x y)ni=1(xi2-n x2)·ni=1(yi2-n y2) 。
当r>0时,表明两个变量正相关。当r<0时,表明两个变量负相关。r的绝对值越接近1,表明两个变量线性
相关越强;r的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系。当|r|>0。75时,认为两
个变量有很强的线性相关关系。
5。具有线性相关关系的两个变量x和y可用线性回归模型y=bx a e来表示。这里a和b为模型的未知参数,e
是y与bx a之间的误差,它的均值E(e)=0,方差D(e)=σ2。这样,线性回归模型的完整表达式为:
y=bx a e,
E(e)=0,D(e)=σ2。
6。在线性回归模型中,随机误差e的方差σ2越小,用bx a预报真实值y的精度越高。随机误差是引起预报
值^y与其真实值y之间的误差的原因之一,其大小取决于随机误差的方差。
7。在实际应用中,对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,
i=1,2,…,n,其估计值为^ei=yi-^yi=yi-^bxi-^a,i=1,2,…,n,^ei称为相应于点(xi,yi)的残差。
8。我们可以利用图形来分析残差特性。作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据或
体重的估计值等,这样作出的图形称为残差图。
9。一般地,建立回归模型的基本步骤为:(1)建立研究对象,明确哪个变量是解释变量,哪个变量是预
报变量。(2)画出解释变量和预报变量的散点图,观察它们之间的关系(是否存在线性关系等)。(3)
由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)。(4)按一定规则
(如最小二乘法)估计方程中的参数。(5)得出结果后分析残差图是否有异常(如个别数据对应残差过
大,残差呈现不随机的规律性等)。若存在异常,则检查数据是否有误,或模型是否合适等。
二、点睛应用
例假定小麦的基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下。
x15。025。830。036。644。4y39。442。942。943。149。2(1)以x为解释变量,y为预报变量,作出散
点图;
(2)求y与x之间的回归方程,对于基本苗数56。7预报成熟期有效穗。
图1解析:(1)散点图如图1。
(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间
的关系。
因为 x=30。36, y=43。5,
ni=1xi2=5101。56,ni=1yi2=9511。43,
y2=1892。25, x2=921。7296,ni=1xiyi=6746。76。
所以^b=ni=1xiyi-n x yni=1xi2-n x2≈0。291,^a=y-^bx≈34。67。
故所求的回归直线方程为^y=34。67 0。291x。
当时x=56。7时,^y=51。1697,估计成熟期有效穗为51。1697。
1。函数关系是一种确定性关系;而相关关系是一种非确定性关系。
2。回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤为:收集数据、画出散
点图、求出回归直线方程、利用方程进行预报。
3。对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归直线的斜率和截距的最小二乘
估计公式分别为^b=ni=1xiyi-n xy ni=1xi2-n x2、^a= y-^b x,其中 x=1nni=1xi, y=1n
ni=1yi,( x, y)称为样本点中心,^a的几何意义是y不受x的变化影响的部分,^b的几何意义是x每增加(
减少)一个单位,y平均改变^b个单位。
4。相关系数r是用来衡量两个变量之间线性相关关系的方法,样本相关系数的计算公式为:
r=ni=1(xi- x)(yi- y)ni=1(xi- x)2·ni=1(yi- y)2
=ni=1(xiy1-n x y)ni=1(xi2-n x2)·ni=1(yi2-n y2) 。
当r>0时,表明两个变量正相关。当r<0时,表明两个变量负相关。r的绝对值越接近1,表明两个变量线性
相关越强;r的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系。当|r|>0。75时,认为两
个变量有很强的线性相关关系。
5。具有线性相关关系的两个变量x和y可用线性回归模型y=bx a e来表示。这里a和b为模型的未知参数,e
是y与bx a之间的误差,它的均值E(e)=0,方差D(e)=σ2。这样,线性回归模型的完整表达式为:
y=bx a e,
E(e)=0,D(e)=σ2。
6。在线性回归模型中,随机误差e的方差σ2越小,用bx a预报真实值y的精度越高。随机误差是引起预报
值^y与其真实值y之间的误差的原因之一,其大小取决于随机误差的方差。
7。在实际应用中,对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,
i=1,2,…,n,其估计值为^ei=yi-^yi=yi-^bxi-^a,i=1,2,…,n,^ei称为相应于点(xi,yi)的残差。
8。我们可以利用图形来分析残差特性。作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据或
体重的估计值等,这样作出的图形称为残差图。
9。一般地,建立回归模型的基本步骤为:(1)建立研究对象,明确哪个变量是解释变量,哪个变量是预
报变量。(2)画出解释变量和预报变量的散点图,观察它们之间的关系(是否存在线性关系等)。(3)
由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)。(4)按一定规则
(如最小二乘法)估计方程中的参数。(5)得出结果后分析残差图是否有异常(如个别数据对应残差过
大,残差呈现不随机的规律性等)。若存在异常,则检查数据是否有误,或模型是否合适等。
二、点睛应用
例假定小麦的基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下。
x15。025。830。036。644。4y39。442。942。943。149。2(1)以x为解释变量,y为预报变量,作出散
点图;
(2)求y与x之间的回归方程,对于基本苗数56。7预报成熟期有效穗。
图1解析:(1)散点图如图1。
(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间
的关系。
因为 x=30。36, y=43。5,
ni=1xi2=5101。56,ni=1yi2=9511。43,
y2=1892。25, x2=921。7296,ni=1xiyi=6746。76。
所以^b=ni=1xiyi-n x yni=1xi2-n x2≈0。291,^a=y-^bx≈34。67。
故所求的回归直线方程为^y=34。67 0。291x。
当时x=56。7时,^y=51。1697,估计成熟期有效穗为51。1697。