实例介绍
应用回归分析, 应用回归分析教程。常用回归模型与参数估计。
变量x就是一种非确定的关系,见图1.2 图12y与x非确定性关系图 2.粮食产量y与施肥量x之间有着蜜切的关系,在定的范围内,施肥量 越多,粮食产量就越高。但是,施肥量并不能完全确定粮食产量,因为粮食产量 还与其他因素的影响有关,如降雨量、田间管理水平等。因此粮食产量y与施 肥量x之问不存在确定的函数关系。 3.储蓄额与居民的收入密切相关,但是出居民收入并不能完全确定储蓄额。 因为影响储蓄颛的因素很多,如通货膨胀、股票价格指数、利率、消费观念、投 资意识等。因此尽管储蓄额与居民收入有密切的关系,但它们之间并不存在一种 确定性关系。 再如:广告费支出与商品销售额,保险利润与保费收入、工业产值与用电量 等。这方面的例子不胜枚举。 以上变量间关系的一个共同特征是它们之间有密切关系,但它们是种非确 定性关系。由于经济问题的复杂性,有许多因素因为我们的认识以及其他客观原 丙的局限,并没有包含在内。或者由于试验误差、测量误差以及其他种种偶然因 素的影响,使得另外一个或一些变量的取值带有一定的随机性因而当一个或 些变量取定值后,不能以确定值与之对应。 从图1.1看到确定性的函数关系,各对应点完全落在一条直线上。而由图 1.2看到.各对应点并不完全落在一条直线上,即有的点在直线上,有的点在直 线的两边。对于这种对应点不能分布在一条直线上的变量间的关系,也就是变量 x与y之间有一定的关系,但是又没有密切到可以通过x惟一确定y的鞋度,这 种关系正是统计学中研究的重要内容:在推断统计中,我们把上述变量间具有密 切关联而又不能由某一个或某一些变量惟一确定另外一个变量的关系,称为变量 间的统计关系或相关关系。这种统计关系规律性的研究是统计学中研究的主要对 象,现代统计学中关于统计关系的研究已形成两个重要的分支,它们叫相关分析 和回归分析。 回归分析利相关分析都是研究变量间关系的统计学课题。在应用中,两种分 析方法常相互结合和渗透,但它们研究的侧重点和应用面不同。它们的差别主 要有以下几点:一是在回归分析中,变量y称为因变量,处在被解释的特姝地 位在相关分祈中,变量y与变量x处于平等的地位,即研究变量y与变量 的密切程庋与研究变量与变量y的密切程度是一回事。二是相关分析中所涉及 的变量y与x全是随机变量。而画归分析中,因变量y是随机变量,自变量x 可以是随机变量,也叮以是非随机的确定变量。通常的回归馍型中,我们总是假 定x是非随机的确定变量。三是相关分析的研究主要是为刻画两类变量问线性 相关的密切程度。而画归分析不仅可以揭示变量x对变量y的影响大小,还可 以由同归方程进行预测和控制 h于归分析与相关分析的研究侧重不同,使得它们的研究方法也大不相 岡。同归分析已成为现代统计学中应用最广泛、研究最活跃的一个独立分支 12回归方程与回归名称的由来 回分析是处理变量x与y之间的关系的一种统计方法和技术。这里所研 究的变量之间的关系就是上述的统计关系。即当给定x的值,y的值不能确定, 只能通过一定的概率分布来描述。于是我们称给定x时y的条件数学期望 f(x)=e( 为随机变量y对x的归函数,或称为随机变量y对x的均值回归函数。(1.1) 式从平均意义上刻画了变量x与y之间的统计规律 在实际问题中,我们把x称为自变量,y称为丙变量。如果要出x预测y, 就是要利用x,y的观察值,即样本观测值 (x1,y1),(x2,y2),…,(xn,yn) 1.2) 来建立一个公式,当给定x值后,就代入此公式中算出个y值,这个值就称 为y的预测值。如何建立这个公式,这就要从样本观测值(x;,y)出发,观察 (x2,y)在平面直角坐标系上的分布情况,图1.2就是居民收人与商品销售额的 散点图。山这个图可看出样本点基本上分布在条直线的周面,因而要确定商品 箫售额y与居民收人x的关系,可考虑用一个线性函数来描述。图12中的直 线即为线性方程 x 厅程(13)式中的参数a,B尚不知道,这就需要由样本数据(1.2)式去进行 估计。具体如何去估计参数a,阝,我们在第章中将详细介绍 当我们由样本数据(12)式估计出a,B的值后,以估计值a,分别代替 (13)式中的a.B,得方程 y*C 1.4)式方程就称为回归方程。这里因为因变量y与自变量x的关系呈线性 关系,故我们称14)式为y对x的线性回归方程。又因(14)式的建立依赖于观 察或试验积累的数据(12)式,所以我们又称(14)式为经验回归方程。梧对这种 叫法,我们把(13式称为理论回归方程。理论回归方程是设想把所研究问题的总 体印每一个体的(x,y)值都测量了,利用其全部结果而建立的回归方程(13)式, 这在实际中是办不到的。理论回归方程中的a是方程(1.3)式所画出的直线在y 轴上的截距B为直线的斜率,它们分别称为回归常数和回归系数。而方程(1.4) 式中的多数a,B被称为经验回归常数和经验回归系数。 回归分析的基本思想和方法以及“回归”名称的由来归功于英国统计学家 E.高尔顿( F. Galton:1822~1911)高尔顿和他的学生、现代统计学的奠基者之 K.皮尔逊( K. Pearson:1856-1936)在研究父母身高与其子女身高的遗传问题 时,观察了1078对夫妇,以每对夫妇的平均身高作为x,而取他们的一个成年 儿子的身高作为y,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条 直线。计算出的回归直线方程为 y=33.73+0.516x (1.5) 这种趋势及回归方程总的表明父母平均身高x每增加一个单位时,其成年儿子 的身高y也平均增加0.516个单位。这个结果表明,虽然高个子父辈确有生高 个子儿子的趋势,但父辈身高增加一个单位,儿于身高仅增加半个单位左石反 之,矮个子父辈确有生矮个子儿子的趋勢,但父芈身高减少一个单位,儿子身高 仅减少半个单位左右。通俗地说,一群特高个子父辈(例如排球运动员)的儿子们 在同龄人中平均仅为高个子,一群高个子父辈的儿子们在同龄人中平均仅为略高 个子;一群特矮个子父辈的儿子们在同龄人中平均仅为矮个子,一群矮个子父辈 的几子们在同龄人中平均仅为略矮个子,即子代的平均高度向中心回归了。是 因为子代的身高有回到同龄人平均身高的这种趋势,才使人类的身高在一定时间 内相对稳定,没有出现父辈个子高其子女吏高,父辈个子矮其子女吏矮的两极分 化现象。这个例子生动地说明了生物学中“种”的概念的稳定性。正是为了描述 这种有趣的现象,高尔顿引进了“回归”这个名词来描述父辈身高x与子代身 高y的关系。尽管“回归”这个名称的由来具有其特定的含义,人们在研究大量 的问题中,其变量x与y之间的关系并不总是具有这种“回归”的含义,但借 用这种名词把研究变量x与y间统计关系的量化方法称为“回归”分析也算是 对高尔顿这个伟大的统计学家的纪念。 1.3回归分析的主要内容及其一般模型 回归分析研究的主要内容 回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在对客观 事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象 中的统计规律性的统计方法。回归分析方法是通过建立统计模型研究变量问相互 关系的密切程度、结构状态、模型预测的一种有效的工具。 回归分析方法在生产实践中的广泛应用是它发展和完善的根本动力,如果从 19世纪初(1809年}高斯(Gaus提出最小二乘法算起,回归分析的历史已有190 多年。从经典的回归分析方法到近代的回归分析方法,它们所研究的内容已非常 丰富。如果按研究的方法来划分,回归分析研究的范围大致如下 元线性回归 线性回归多元线性回归 多个因变量与多个自变量的回归 讨论如何从数据推断回归模型基本假设的合理性 归诊断当基木假设不成立时如何对数据进行修正 判定回归方程我合的效果 选择回归函数的形式 自变量选择的准则 回归分称回归变量的选择 逐步回归分析方法 岭回归 参数估计方法的改进主成分回归 (偏最小一乘法 一元非线性回归 非线性回归分段回归 多元非线性回归 含有定性变量的回归 自变量含定性变量的情况 因变量是定性变量的情况 、回归模型的一般形式 如果变量x1,x2,…,x2与随机变量y之间存在着相关关系,通常就意味 着每当x1,x2,…,x取定值后,y便有相应的概率分布与之对应。随机变量 y与相关变量x1,x,…,x之间的概率模型为 f(xl )+E 其中,随机变量y称为被解释变量(因变量);x1,x2,…,x称为解释变量 (自变量)。在计量经济学中,也称因变量为内生变量,自变量为外生变量; 八x1,x2,…,)为般变量x1,x2,…,x的确定性关系,为随机误差。正 是因为随机误差项∈的引人,才将变量之间的关系描述为一个随机方程,使得我 们可以借助随机数学方法研究y与x1,x2,…,x的关系。由于客观经济现象 是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概 括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。随 机误差项主要包括下列因素的影响: 1.由于人们认识的局限或时间、费用、数据质量等制约末引入回归模型但 又对回归被解释变量y有影响的因素; 2.样本数据的采集过程中变量观浏值的观测误差的影响; 3.理论模型设定误差的影响; 4.其他随机因素的影响。 模型(1.6)试式清楚地表达了变量x1,x2,…,x与随机变量y的相关关系, 它出两部分组成:一部分是确定性函数关系,由回归函数f(x1,x2,……,x)给出; 另一部分是随杋误差项ε。由此可见模型(1.6)式准确地表达了相关关系那种既 有联系又不确定的特点。 当概率模型(1.6)式中回归函数为线性函数时,即有 Fo+ Br 1.7 其中,用,R1,2,…,R为未知参数,常称它们为回归系数。线性回归模型 的“线性”是针对未知参数(i=0,1,2,…,p)而言的。对于回归解释变量的线 性是非本质的,因为解释变量是非线性时,常可以通过变量的替换把它转化成线 性的。 如果(xa,x2…,x;y),i=1,2,…,n是(17)式中变量(x1,x2,…,xp y)的一组观测值,则线性回归模型可表示为 y=内十月1x1+P + r (1.8) 为了估计模型参数的需要,古典线性回归模型通常应满足以下几个基本假设: 1.解释变量x1,x2,…,x是非随机变量,观测值x1,工x2,…,x是 常数。 2.等方差及不相关的假定条件为 E(5.)=0,=1 LUVLEI,Ej)= 这个条件称为高斯马尔柯夫( Gauss-Markov?)条件,简称GM条件。在此条 件下,便可以得到关于回归系数的最小二乘估计及误差项方差a2估计的一些重 要性质,如回归系数的最小二乘计是回归系数的最小方差线性无偏估计等。 3.正态分布的假定条件为 N(02a2) le1,e2,…,n相互独立 在此条件下便可得到关于国归系数的最小二乘估计及口2估计的进一步的结果, 如它们分别是回归系数及a2的最小方差无偏估计等,并且可以作回归的显著性 检验及区间估计。 4.通常为了便于数学上的处理,还要求n>p,即样本容量的个数要多于解 释变量的个数。在整个回归分析中,线性回归的统计模型最为重要。一方面是因 为线性回归的应用最广泛;一方面是只有在回归模型为线性的假定下,才能得到 比较深入和一般的结果;再就是有许多非线性的回归模型可以通过适当的转化变 为线性回归问题进行处理。因此线性回归模型的理论和应用是本书研充的重点。 对线性回归模型我们通常要研充的问题有: 1.如何根据样(x,x2,…,x;y),=1,2,…,n求出用,A1,2,…,及 方差a2的估计; 2.对回归方程及回归系数的种种假设进行检验; 3.如何根据回归方程进行预测和控制,以及如何进行实际问题的结构分析。 14建立实际问题回归模型的过程 在实际问题回归分析模型的建立和分析中有几个重要的阶段,为了给渎者 个整体印象,我们以经济模型的建立为例,先用逻辑框图表示回归模型的建模过 程。见图1.3。 下面我们按逻辑框图顺序叙述每个阶段要做的工作以及应注意的问趣。 具体(社会经济润题 设置指标变量 收集整理数据 构造理论模型 估计模型参数 模型 检验 修改 模型运用 经济因纛分析 经济变壓挫制 经济决策预测 图1.3回归建模步暴流程图 根据研究的目的,设置指标变量 回归分析模型主要是揭示事物间相关变量的数量联系。首先要根据所研究问 题的目的设置因变量y,然后再选取与y有统计关系的一些变量作为自变量。 通常情况下,我们希望因变量与自变量之间具有因果关系。尤其是在研究某 种经济活动或经济现象时,我们必须根据具体的经济现象的研究目的,利用经济 学理论,从定性角虔来确定某种经济问题中各因素之问的因果关系。当我们把某 经济变量作为“果”之后,接着更重要的是要正确选择作为“因”的变量。在 经济问题回归模型中,前者被称为“内生变量”或“被解释变量”,后者被称为 外生变曩”或“解释变量”。变量的正确选择关键在于能否正确把握所研究的经 济活动的经济学内涵。这就要求研究者对所研究的经济问题及其背景要有足够的 了解。例如,要研究中国通货膨胀问题,必须懂得一些金融理论。通常把全国零 售物价总指数作为衡量通货膨胀的重要指标,那么,全国零售物价总指数作为被 解释变量,影响全国零售物价指数的有关因素就作为解释变量。参考文献[9在 研究中国通货膨胀问颶时,曾把国民收入、居民存款、工农业总产值、全民所有 制单位固定资产投资、货币流通量、职工平均工资、杜会商品零售总额等18个 指标确定为解释变量。参考文献37]在研究中国储普波动机理中,曾把各项银行 存款作为被解释变量,把货币发行暨、全国笭售物价指数、般票价格指数、银行 利率、国债利率、居民收入等16个指标确定为解释变量。 对—个具体的经济问葱,当研究目的确定之后,被解释变量容易确定,被解 释变量一般直接表达、刻画研究的目的。就像参考文献9]、[37中根据研究的问 题,直接将全国零售物价总指数和银行存款分别作为通货膨胀问题和储蓄问题的 被解释变量。而对被解释变量有影响的解释变量的确定就不太容易。一是由于我 们的认识有局限,可能并不知道对被解释变量有重要影响的因素。二是为了模型 参数估计的有效性,设置的解释变量之间应该是不相关的。我们很难确定哪些变 量是相关的,哪些不是相关的,因为在经济问题中很难找到影响同一结果的一些 因素它们之间是独立的。这就看我们如何在多个变量中确定几个重要的、且不相 关的变量。三是我们从经济关系角度考虑非常重要的变量应该引进,但是在实际 中并没有这样的统计数据。这一点,在我国建立经济模型时经常会遇到。这时, 可以考虑用相近的变量代替,或者由其他几个指标复合成个新的指标 在选择变量时要注意与一些专门领域的专家合作。研究金融模型,就要与 些金融专家和具体业务人员合作;研究粮食生产问题,就要与农业部门的一些专 家合作。这样做可以帮助我们确定模型变量。 另外,不要认为一个回归模型所涉及到的解释变量越多越好。一个经济模 型,如果把一些主要变量漏掉肯定会影响模型的应用效果,但如果细枝末节一起 进入模型也未必就好。当引人的变量太多时,可能选择了…些与问题无关的变 量,还可能由于一些变量的相关性很强,它打所反映的信息有较严重的重叠,这 就出现共线性问题。当变量太多时,计算工作量太大,计算误差积累也人,估计 出的模型参数精度自然高 总之,回归变量的确定是一个非常重要的问题,是建立回归模型最基本的工 作。这个工作一般一次并不能完全确定,通常要经过反复试算,最终找出最适合 的一些变量。这在今天计算机的帮助下,已变得不太困难了 二、收集、整理统计数据 回归模型的建立是基于回归变量的样本统计数据。当确定好凹归模型的变量 之后,就要对这些变量收集、整理统计数据。数据的收集是建立经济问题回归模 型的重要一环,是一项基础性工作,样本数据的质量如何,对回归模型的水平有 至关重要的影响 常用的样本数据分为时间序列数据和横截面数据。 10 【实例截图】
【核心代码】
标签:
相关软件
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论