实例介绍
线性统计模型 线性回归与方差分析 这对于准备从事大数据分析的人来说是必修的一门课程
由于作者水平所根,书中的缺点和错误在所难免,请同行和广大读批浮 指 编者 1999年4月30日 百录 第一章引论 §].1线作回模型… S1.2方差分析模型…… §1.3应用概述 ·""·++·+·1,·· 习题 第二章随机向量… §2.均值向量与协方差阵 ■■■士「!■ §2.2随机向量的次型 m■■口■■b■b■·■■■■■■自加P'■■ §2.3正态随机问 §2.4x2分布… ■■中■■ 第三章回归参数的估计 ■■口■■■凸d■·■■■ b4..甲A日日日日日1自日P目"·“ 83.1最小乘估计… 【十■十号 28 83.2最小乘估计的性质……… 83.3约束最小二乘佔计 ∴4( 83.4四诊断 s3.5Bx-(ox变换 岑3.6广义最小二乘估计… ■■會■■血■音 3.7复共线性… §3.8岭栌讠 §3.9主成分估计 ■■■■『■亡·會管 7 习题三…… 7 第四章假设检验与预测 bbd■ §4. 般线性假设 ■■L■■■冒■ §4.2回归方程的显著性枪验 鲁■甲■ ■+甲■严日 4.3回归系数的显著性枪验 4。·■。■■■古h■■甲·"日自“血■"·日「 9) §4.4异常点检验 ■■。■凸凸■bd■罪■■L■■■自■■會甲■, ……9 4.5因变量的预测 以题四-…… 聊■■■■■自■中■甲平···"啬bh■· 第五章回归方程的选择… 5.1评价回归方程的标准… ) 2目录 努5.2计算所有可能的凹 ■■ L12 §5.3计算最优子集回归 ■十■十b矗■晋■■俨■『■■■t口■■d■■■■·■■口■■十■b■■■■矗■■■■■备■■b 11 §5.4逐步回 1z6 题五 第六章方差分析模型 ●■■■■ ■■■■ §61单因素方差分析…… 138 §6.2两因素方差分析 ……………;………"!…s……!]轩7 86.3正交试验设计与方差分析…………………… ……………·155 可题六……… 161 “第七章其它线性回归模型 l63 87.1引 ………………163 87.2具有异方差误差的线性回模型 164 §7.孑其有白国归误差的线性回归模型……… ■甲■■■ 178 §7.4其有一阶自回归误差的线性回归模型…… 甲: 186 §7.5对-阶自归误差的假设检验 202 87.6半相佼线性回归模型 附录1关于矩阵的若于基础知识… hb■■■b■d■■【■晶 ■【bd 22 附录2本书部分例轰常用统计软件包计算机輸出结果…………………226 附录3 Harbin- Watson统计蚤的上、下界值表 …233 参考文献 矗■■■■暑血■山■·晶■『■■|b 36 第一章引论 线性统计模型是现代统计学中应用最为广泛的模型之一,而且也是其它统 计模型研究或应用的基础.之所以如此,其原因主要是 1.在现实世界中,许多量之间具有线性或近似的线性依赖关系 2.在现实世界中,虽然许多量之间的关系是非线性的但是经过适当的变 换,变换过后的新变量之间具有近似的线性关系 3.线性关系是数学中最基本的关系,因而比较容易处理,在数学中已经积 累了处理线性关系的丰富的理论与方法,为实际应用提供了坚实的理论依据和 有效算法 本章我们通过一些实例引进线性统计模型使读者对这种模型丰富的实际 背景有一定了解,这对后面要引进的些统计概念和方法的理解将是大有裨 益的 81.1线性回归模型 在现实世界中,存在着大量这样的情况:两个变量例如ⅹ和Y有一些依赖 关系由X可以部分地决定Y的值,但这种决定往往不很确切常常用来说明这 和依赖关系的最简单直观的例子是体重与身高.若用X表示某人的身高,用Y 表示他的体重众所周知,-般说来,当X大时,Y也倾向于大,但由X不能严 格地决定Y.又如,城市生活用电量Y与气温Ⅹ有很大的关系在夏天气温很高 或冬天气温很低时,由于室内空调冰箱等家用电器的使用,可能用电量就高相 反,在春秋季节气温不高也不低,用电量就可能少但我们不能由气温X准确地 决定用电量Y.类似的例子还很多变量之间的这种关系称为“相关关系”,国归 模型就是研究框关关系的一个有力工具 在以上诸例中,Y通常称为因变量或响应变量,X称为自变量或预报变量 我们可以设想,Y的值由两部分组成:一部分是由X能够决定的部分,它是X 的函数,记为f(X)而另一部分则由其它众多未加考虑的因素(包括随机因素 所产生的影响,它被看作随机误差,记为e于是我们得到如下模型: Y=f(X)+ 1.1.1 这里e作为随机误差,我们有理由要求它的均值E(e)=0,其中E(·)表小随机 2第一章引论 变量的均值 特别,当f(X)是线性函数f(X)=Bn+R1X时,我们得到 Y=A+β1X+e 在这个模型中,茗忽略掉e,它就是一个通常的直线方程因此,我们称(1.1.2) 为线性回归模型或线性凵归方程.关于“回归”一词的由来,我们留在后面作解 释.常数项阳是直线的截距,1足育线的斜率,也称为回归系数在实际应用 中,月和皆是末知的,需要通过观测数据来佔计 假设白变量X分别取值为x1,x2,…,xn时,因变量Y对应的观测值分别 为y1,y2,…,y于是我们有n组观测值(x,1,y;),=1,…,.如果Y与X有问 月关系(1.1.2),则这些(x,y)应该满是 +βt 这里e为对应的随机误差基于(1.1.3),应用适当的统计方法(这将在第三章 讨论)可以得到A和1的估计值0,81,将它们代人(1.1.,2),再略去误差项c 得到 Y +BX 称之为经验回归直线,也称为经验回归方程.这里“经验”两字表示这个回归直线 是基于前面的n次观测数据(x;,y),=1,…,n面获得的,在许多文献中,人们 往往把“经验”两字省略掉经过适当的统计检验后,我们可以认为(1.1.4)描述 因变量Y与自变量X之间的相关关系 例I1肥胖是现代社会人们关注的一个重要问题,那么体重多少才算 是肥胖呢?这当然跟每个人的身高有关,于是许多学者应用直线回妇方法研究 人的体重与身高的关系,假设X表示身高(m),Y表示体重(kg)我们假设Y 与X之间具有回归关系(1.12)在这里误差c表示除了身高X之外,所有影响 体重Y的其它因素,例遗传因素、饮食习惯、体育锻炼多少等,为了估计其中 的参数A0和月1,研究者测量了很多人的身高x和他们的体重y:i=1,…,n, 得到关系(113)从而应用统计方法可以估计出月和A1.一种研究结果是,若 用x-150作自变量则得0=50,1=0.6,也就是说我们有经验回归直线 Y=50+(X-150)×0.6 我们可以把它改写成如下形式 Y=-40+0.6X, (1.1.5) 这个经验回归方程在一定程度上描述了体重与身高的相关关系.给定X的一个 具体值xo,我们可以算出对应的Y值y=-40+06x0,例如某甲身高x0=160 (cm),代人(1.1.5)可以算出对应yo=56(kg).我们称56kg为身高是160cm的 §1,1线性回归模型3 人的体重的预测.这就是说,对于个身高160cm的人,我们预测他的体重大致 为56kg,但实际上,他的体重不可能恰为56kg.叮能比56kg多也可能比56kg 例1.12我们知道,一个公司的商品销售量与其广告费有密切关系,一般 说来在其它因素(如产品质量等)保持不变的情况下,它用在广告上的费用愈高, 它的商品销售量也就会愈多,但这也只是一种相关关系.某公司为了进步研究 这种关系.用X表示在某地区的年度广告费,Y表示年度商品销售量根据过去 段时间的销售记录(x1,y),2=1,…,,采用线性回归模型(1.1.3).假定计 算出A=1608.5,B1-20.1,于是得到经验回归直线 Y=1608.5+20.1X 1.1.6) 这个经验回归直线告诉我们,广告费X每增加灬个单位,该公司销售收人就增 加20.1个单位如果某地区人口增加得很快,那么很可能人口总数也是影响销 售量的一个重要因素若记X1为年度广告费,X2为某地区人口总数我们可以 考虑如下含两个自变量的线性回归模型 Y=R0+1x1+2X2+e 同样,根据记录的历史数据,应用适当统计方法可以估计出R:,i=0,1,2.假定 估计出的 o=320.3, 18,4 0.2 则我们得到经验回归方程 Y=320.3+184X1+0.2X2 (1.1.8) 从这个经验画归方程我们可以看出,当广告费X增加或人口总数X2增加时 商品销售量都增加,且当人口总数保持不变时,广告费每增加1个单位,销售悬 增加18.4个单位.而当广告费保持不变,而该地区人口总数每增加一个单位,该 公司销售量增加0.2个单位当然,在实际应用中,并不是每个经验回归方程都 能描述变量之间的客观存在的真正的关系.关于这一点,将在第四章详细讨论. 在实际问题中k响因变量的主要因素往往很多,这就需要考虑含多个自变 量的回归问题假设因变量Y和力-1个自变量x1,…,X-1之间有如下关系 Y=B0+91X1+w+ Be-1Xp-1+e 这是多元线性回归模型,其中A为常数项,月1,…,A-1为回归系数,e为随机 误差, 假设我们对Y,X1,…,Xp-1进行了n次观测得到n组观测值 i1 p-15y 2 它们满足关系式 4第一章引论 V2=Pr 这里e;对对应的随机误差引进矩阵记号 I1,+ J e T (1.1,10)就写为如下简洁形式: U=xi 这里y为nx1的观测向量.X为nXb已知矩阵,通常称为设计矩阵对于线性 归模埋,术语“设计矩阵”中的“设计”两字并不蕴含任何真正设计的含义,只是 习惯用法而已.近年来,有一些学者建议改用“模型矩阵”但就目前来讲,沿用 设计矩阵”者居多.阝为未知参数向量其中称为常数项,而A1,…,p-1为回 归系数而e为nX1随机误差向量,关于e最常用的假设是: (a)误差项均们为零,即E(e2)=0,=1,…,n (b)误差项兵有等方差,即 Var(e=g 1.1.12 (c)误差是彼此不相关的,即 ,iA3 通常称以上三条为 Gauss- Markov假设樸型(1.1.11)和假设(1.l.12)构成了 我们以后要讨论的最本的线性回归模型 在(auNs- Markov假设中,第一条表明误差项不包含任何系统的趋势,因而 观測值y,的值 F(y,)=8+x:1B p IPA 12 这就是说,观测值y大于或小于其均值E(y)的波动完全是一种随机性的,这 种臃机性来自误差项e,我们知道,个随机变量的方差刻画了该随机变量取值 散布程度的大小,因此假设(b要求e等方差,也就是要求不同次的观测y2在 共均值附近波动程度是一样的这个要求有时显得严厉-些.在一些情况下,我 们不得不放松为Var(e,}=a2,i=1,…,n,这种情况将在§7.2讨论第三条假 设等价于要求不同次的观测是不相关的在实际应用中这个假设比较容易满足. 但是在一些实际问题中,误差往往是相关的这时估计问题比较复杂,本书中不 少地方要讨论这种情形, 对于模型(1.1.10),假设β=(A,A1,…,。1)为B的一种估计,将它们代 人(1.1.9),并略去其中的误差项e,得到经验回归方程 §L1线性回归模型5 BIX 和单个回归自变量的情形-样,这个经验回归方程是否真正描述了因变量F2 自变量X1,…,Ⅹ》-!之间的关系,还需要适当的统计检验 上面我们讨论的都是线性国归模型.有一些模型虽然是非线性的,但经过适 当变换,可以化为线性模型 例113在经济学中著名的CO- Douglas生产函数为 LK (1.l.14 这里Q2,2和K分别为t年的产值、劳力投人量和资金投入量,a,b和c为参 数.在上式两边取然对数,得到 In( Q,)=Inc +bIn( L) 卜lnRz! 若令 y2=n(Q1),x=hn(l),x12=n(K) 则再加上误差项,便得到线性关系 y (1.1.15) 因此我们把丰线性模型(1.1.14化成了线性模型 例1.14多项式回归模型 假设因变量Y和自变最Ⅹ之间具有关系 B0+PIX+B2X2+B3 这是二次多项式叫归模型若令X1=X,K2=X2,X3=X3,则有 F FiX1+52X2+33x3+e 这就是…个线性模型.从这里我们看到,线性模型(1.1.9)的基本特征是:它关于 末知参数AB2,;…,,:是线性的 在结束这一节之前,我们解释下“同归”训的由来.“回归”英文为“rc gress0n”,是由英阀著名牛物学家兼统计学家高尔顿(alon)在研究人类遗传问 题时提出的为了研究父代与子代身高的关系,高尔顿收集了1078对父亲及片 →子的身高数据.用X表示父亲身高,Y表示儿子身高单位为英寸(1英寸为 2.54cm)将这1078对(za;y2)标在直角坐标纸上,他发现散点图大致呈直线 状.也就是说,总的趋势是父亲的身高X增加时,儿子的身高Y也倾向于增加 这与我们的常识是一致的但是,高尔顿对数据的深入分析,发现了一个很有趣 的现象——回归效应 因为这1078个x;值的算术平均值-68英寸,而1078个v;值的平均伯 为y=69英寸,这就是说,子代身髙平均增加了1英寸.人们自然会这样推想 若父亲身高为x,他几子的平均身高大致应为x+1,但高尔顿的仔细研究所得 【实例截图】
【核心代码】
标签:
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论