⑴总偏差平方和:每个效应(观测值减去总的平均值)的平方加起来,即用表示总的效应;
学生动手计算出例1中的总偏差平方和。
⑵残差平方和:数据点和它在回归直线上相应的位置的差异是随机误差的效应,称为残差,为残差平方和;
学生动手计算出例1中的残差(如下表)与残差平方和。
编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59 yi 54.373 54.373 47.581 58.618 62.863 54.373 45.883 58.618 ei -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382
⑶回归平方和:解释变量和随机误差的总效应(总偏差平方和),即总的偏差平方和=回归平方和+残差平方和,所以
回归平方和=总的偏差平方和-残差平方和
学生动手计算出例1中的回归平方和。
学习要领:①注意、、的区别;
②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和;
③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;
④对于多个不同的模型,我们还可以引入相关指数来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 的值越接近于1,说明残差平方和越小,也就是说模型拟合的效果越好,即解释变量和预报变量的线相关性越强.
代入例1中的数据知例1中的,即解释变量对总效应约贡献了64%,而随机误差贡献了剩余的36%,所以身高对体重的效应比随机误差的效应大得多。
问题二:观察图1.1-5中的残差图,样本点是如何分布?有无异常情况(个别数据对应残差过大,或残差呈现不随机的规律性等等)?
师:提出问题,指导学生画出残差图(以残差为纵坐标,样本编号或身高或体重为横坐标作出图形),引导学生进行残差分析,从而做到检查数据是否有误,或模型是否合适等。
生:分析、讨论。
从残差图中可以看到第1个样本点和第6个样本点的残差较大,需要确认是否出现采集的错误,指导学生去掉这两个数据后重新再计算回归方程与相关指数,了解到拟合的效果会更好。
引导学生归纳残差所能说明的情况:
① 样本点的残差比较大,确认采集数据时是否出现人为的错误或其他原因;
② 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高。 例2:一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表中,试建立y与x之间的回归方程。
编号 1 2 3 4 5 6 7 温度x/°C 21 23 25 27 29 32 35 产卵数y/个 7 11 21 24 66 115 325 问题三:例2中如何选择解释变量与预报变量?
师:读例2的要求,引导学生理解例题含义。
生:思考、讨论、叙述自己的理解。
形成把温度x作自变量,红铃虫的产卵数y作因变量的共识
问题四:观察图1.1-6中的散点图,红铃虫的产卵数y与温度x具有线性关系吗?除线性关系外,还学过哪些常见的函数关系?
师:绘制散点图1.1-6,引导学生观察散点图的特点:随着自变量的增加,因变量也随之增加。
引导学生探究红铃虫的产卵数y与温度x更可能是什么关系,选择几个模型,比如线性回归模型、二次函数模型、指数函数模型。而二次与指数函数模型是属于非线性回归模型。
生:讨论、回忆一些常见函数图象的特点,判断红铃虫的产卵数y与温度x的可能关系
从散点图中可以看到样本点分布在指数函数曲线的周围。
问题五:请学生思考能否把模型经过变换后转化为另外两个变量的线性关系?
师:提出问题,引导学生寻找变换的方法,在学生讨论后给出具体的方法。
生:思考、讨论、解释。
解答过程如下:
对两边取自然对数
令,建立与之间的线性回归方程
问题六:经过变换后指数函数模型转化为线性回归模型,你如何得到这个线性回归模型的参数估计?
师:提出问题,引导学生分组讨论,启发学生把原变量的观测数据转化为新变量的数据,然后让学生给出每种线性回归模型的参数估计。
生:以组为单位进行数据变换,求参数的最小二乘估计(可以用计算器)
解答过程如下:
令,,即
分析与之间的关系,通过画散点图(如下图),可知与之间是存在着线性回归关系,可以用最小二乘法求出线性回归方程
列表计算出各个量
编号 1 2 3 4 5 6 7 合计 温度x/°C 21 23 25 27 29 32 35 192 产卵数y/个 7 11 21 24 66 115 325 569 z=ln y 1.946 2.398 3.045 3.178 4.190 4.745 5.784 25.285 xi2 441 529 625 729 841 1024 1225 5414 xizi 40.9 55.2 76.1 85.8 121.5 151.8 202.4 733.7 27.429 3.612 5414 733.71
问题七:我们的目标是建立红铃虫的产卵数y与温度x的模型,如何使得到的线性回归模型再变回红铃虫的产卵数y与温度x的模型?
师:提出问题。
生:进行变换,每组得到红铃虫的产卵数y与温度x的模型。
因为,所以,即。