统计学复习知识总结

上传人:飞****9 文档编号:159140376 上传时间:2022-10-08 格式:DOCX 页数:17 大小:77.07KB
收藏 版权申诉 举报 下载
统计学复习知识总结_第1页
第1页 / 共17页
统计学复习知识总结_第2页
第2页 / 共17页
统计学复习知识总结_第3页
第3页 / 共17页
资源描述:

《统计学复习知识总结》由会员分享,可在线阅读,更多相关《统计学复习知识总结(17页珍藏版)》请在装配图网上搜索。

1、第1章统计和统计数据1统计学白定义:是收集、处理、分析、解释数据并从数据中得出结论的科学描述统计与推断统计的含义、内容、目的。描述统计:是研究数据收集,处理和描述的统计学方法.其内容包括如何取得研究所需要的数据 ,如何用图表形式 对数据进行处理和展示,如何通过对数据的综合,概括与分析,得出所关心的数据特征.推断统计:是研究如何利用样本数据来推断总体特征的统计学方法,内容包括两大类:参数估计:是利用样本信息推断所关心的总体特征 .假设体验:是利用样本信息判断对总体的某个假设是否成立.2、变量与数据:不同数据类型的含义,会判断已有数据的类型.变量:它们的特点是从一次观察到下一次观察会出现不同结果E

2、x:企业销售额,上涨股票的家数,生活费支出,投掷一枚骰子观察其出现的点数数据:把观察到的结果记录下来.总体:包含所研究白全部个体(数据)的集合样本:从总体中抽取的一部分元素的集合样本量:构成样本的元素的数目定量变量或数值变量:定量变量的观察结果称为定量数据或数值型数据.可以用阿拉伯数据来记录其观察结果如 企业销售额”、上涨股票的家数”、生活费支出”、投掷一枚骰子出现的点数”定性变量:分类变量和顺序变量统称为定性变量分类变量:表现为不同的类别.如“性别”、“企业所属的行业”、“学生所在的学院”等.分类变量的观察结果就是分类数据顺序变量或有序分类变量:具有一定顺序的类别变量 一如考试成绩按等级,一

3、个人对事物的态度顺序变量的观察结果就是顺序数据或有序分类数据离散型变量:只能取有限个值得随机变量连续型变量:可以取一个或多个区间中任何值得随机变量3、获得数据的概率抽样方法有哪些根据一个已知的概率来抽取样本单位,也称随机抽样-简单随机抽样:从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的 机会(概率)被抽中.抽取元素的具体方法有 重复抽样是抽取一个个体记录下数据后、再把这个个体放回到原来的总体中参加下一次抽选。不重复抽样抽中的个体不再放回,再从所剩下的个体中抽取第二个元素,直到抽取n个个为止。- 分层抽样或分类抽样:它是在抽样之前先将总体的元素划分为若干层(类

4、),然后从各个层中抽取一定数 量的元素组成一个样本。- 系统抽样或等距抽样:它是想将总体个元素按某个顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直至抽取n个元素组成一个样本。- 整群抽样:是先将总体划分成若干群,然后以群作为抽样单元从中抽取部分群组成一个样本,再对抽中的每 个群中包含的所有元素进行观察。第二章.用图表展示数据频数:落在各类别中的数据个数比例:某一类别数据个数占全部数据个数的比值百分比:将对比的基数作为100而计算的比值比率:不同类别数值个数的比值频数分布表:频数分布表中落在某一特定类别数据.频数分布包含了很多有用的信息,通过它可以观察不同类型数据的

5、分布状况.什么是条形图:是用宽度相同的条形来表示数据多少的图形用于观察不同类别数据的多少或分布状况.帕累托图:是按各类别数据出现的频数多少排序后绘制的条形图饼图:是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分道德数据占全部数据的比例,对于研究结构性问题十分有用.环形图:只能显示一个样本各部分所占的比例数据分组:是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别.1 .下限(lower limit) : 一个组的最小值2 .上限(upper limit) : 一个组的最大值3 .组距(class width) :上限与下限之差4 .组中值(c

6、lass midpoint) :下限与上限之间的中点值组中值=下限值+上限值/2直方图与条形图的区别。1 .条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距2 .由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列3. 条形图主要用于展示定性数据,而直方图则主要用于展示定量数据茎叶图 : 是反映原始数据分布的图形.它由茎和叶两部分构成,其图形是由数据组成的.通过茎叶图,可以看出数据的分布形状及数据的离散状况, 比如 :分布是否对称,数据是否集中 ,是否有离群点 .等等箱线图 : 是由一组数据的最大值, 最小值 , 中位数 , 两个四分位数.这

7、五个特征值绘制而成的 ,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较.雷达图 : 是显示多个变量的常用图示方法 .1. 从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样本围成多个区域,就是雷达图2. 可用于研究多个样本在多个变量上的相似程度3. 当多个变量的取值相差较大或量纲不同时,可进行变换处理后再做图。第三章 . 用统计量描述数据1 、水平的度量描述数据水平的统计两主要有: 平均数 , 中位数 , 分位数以及众数等.平均数。平均数的计算:1. 也称为均值,常用的统计量之一2. 消除了观测值的随机波动3. 易受极端值的影响4. 根

8、据总体数据计算的,称为平均数,记为 ;根据样本数据计算的,称为样本平均数,记为 x中位数:是一组数据排序后处于中间位置上数值,用Me表示.四分位数 : 也称四分位点 , 它是一组数据排序后处于 25% 和 75% 位置上的值众数、中位数和平均数的关系 *2 、差异的度量极差 :1. 一组数据的最大值与最小值之差2. 离散程度的最简单测度值3. 易受极端值影响4. 未考虑数据的分布5. 计算公式为: R = max( xi) - min( xi)四分位差1 .也称为内距或四分间距2 .上四分位数与下四分位数之差:Qd = Qu - Q l3 .反映了中间50%数据的离散程度4 .不受极端值的影响

9、5 .用于衡量中位数的代表性样本方差和标准差(会计算)1 .数据离散程度的最常用测度值2 .反映各变量值与均值的平均差异3 .根据总体数据计算的,称为总体方差(标准差),记为2();根据样本数据计算的,称为样本方差(标准差),记为s2(s)4 .样本方差假设修,如是一个样本,则样本方差的计算公式为:n-L3+4+4+5+4 4其中E (2是样本均值。例如,一样本取值为 3,4,4,5,4 ,则样本均值=5一,样本方差?(3 - 4)2 + (4-4)z+(4-4)2 + (5- 4)2 + (4-4)2S2=51 。样本方差是常用的统计量之一,是描述一组数据变异程度或分散程度大小的指标。样本标

10、准差S称为样本标准差。如在上例中,S=0.7071。称(S/ X) X 100%为样本变异系数。由于 S与X都是从同一个样本资料中求得,两者的单位相同,故变异系数为一纯数。当两种样本资料所用的单位不同时,只要计算出变异系数,就可以比较它们的变异程度。标准分数:可以计算一组数据中每个数值的标准分数,以测度每个数值在该组数据中的相对位置,并可以用它来判断一组数据是否有离群点离散系数(变异系数)是一组数据的标准差与其相应的平均数据之比,它消除了数据绝对值大小和计量单位对标准差大小的影响.分布形状的度量偏态:是指数据分布的不对称性。侧度数据分布不对称性的统计量称为(偏态系数)峰态:是指数据分布峰值的高

11、低。测度峰态的统计量是(峰态系数)弄清偏态系数的取值含义,会判断左偏、右偏和对称情形*弄清峰态系数的取值含义,会判断尖峰、扁平和正常情形*第四章 . 概率分布概率: 概率是对事件发生的可能性大小的度量随机变量: 是用数值来描述特定试验一切可能出现的结果,它的取值事先不能确定,具有随机性连续性随机变量: 只能取一个或多个区间中任何值得随机变量 离散型随机变量: 只能取有限个值得随机变量随机变量的概括性度量:期望值和方差的计算: 描述随机变量集中程度的统计量称为(期望值)离散型概率分布 :是用表格的形式表现出来,就是离散型随机变量的概率分布二项分布 : 二项分布是建立在伯努利试验基础上的。 N 重

12、伯努利1. 贝努里试验满足下列条件一次试验只有两个可能结果,即 “成功 ”和 “失败 ”“成功 ”是指我们感兴趣的某种特征一次试验“成功”的概率为 p ,失败的概率为 q =1- p ,且概率 p 对每次试验都是相同的试验是相互独立的,并可以重复进行n 次在 n 次试验中, “成功” 的次数对应一个离散型随机变量X泊松分布:2. 1837 年法国数学家泊松(D.Poisson , 1781 1840)首次提出3. 用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布4. 泊松分布的例子一定时间段内,某航空公司接到的订票电话数一定时间内,到车站等候公共汽车的人数一定路段

13、内,路面出现大损坏的次数一定时间段内,放射性物质放射的粒子数一匹布上发现的疵点个数 一定页数的书刊上出现的错别字个数超几何分布的应用背景1 .采用不重复抽样,各次试验并不独立,成功的概率也互不相等2 .总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何 概率分布3 .概率分布函数为连续型概率分布:概率密度:分布函数;f(x)=p(xX= r /wjjfJ-co特殊性质F(X)=PX=X =PXX (-ccK+oc) 连续型随机变量区间顶点的概率近似为0正态分布:1 .由C.F.高斯(Carl Friedrich Gauss , 17771855)作为描述误差

14、相对频数分布的模型而提出2 .描述连续型随机变量的最重要的分布3 .许多现象都可以由正态分布来描述4 .可用于近似离散型随机变量的分布例如:二项分布5 .经典统计推断的基础标准正态分布1 .随机变量具有均值为0,标准差为1的正态分布2 .任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布3 .标准正态分布的概率密度函数4 .标准正态分布的分布函数数据的正态性评估:Q-Q图和P-P图的应用1.对数据画出频数分布的直方图或茎叶图若数据近似服从正态分布,则图形的形状与上面给出的正态曲线应该相似3 .绘制正态概率图。有时也称为分位数一分位数图或称Q-Q图或称为P-P图用于考察观测数据是否符

15、合某一理论分布,如正态分布、指数分布、t分布等等P-P图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的Q-Q图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的4 .使用非参数检验中的 Kolmogorov-Smirnov 检验(K-S检验)由正态分布导出的几个重要分布:2分布、t分布、F分布的特点2分布:1 .由阿贝(Abbe)于1863年首先给出,后来由海尔墨特 (Hermert)和卡皮尔逊(K Pearson)分别于1875 年和1900年推导出来2 .设 XN( , 2) 则 z N(0,1)23 .令Y za,则y服从自由度为1的2分布,即

16、Y 2 (1)4 .对于n个正态随机变量y1,y2 , yn,则随机变量n25 .2yi:称为具有n个自由度的2分布,记为1 1性质和特点1 .分布的变量值始终为正2 .分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称3 .期望为:E(2)=n,方差为:D( 2)=2 n(n为自由度)4 .可加性:若U和V为两个独立的2分布随机变量,U 2(n。,V 2(n2),则U+V这一随机变量服从自 由度为m+n2的2分布t分布:1 .提出者是W川iam Gosset ,也被称为学生分布 (student s t)2 . t分布是类似正态分布的一种对称分布,通常要

17、比正态分布平坦和分散。一个特定的分布依赖于称之 为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布F分布:1 .为纪念统计学家费希尔()以其姓氏的第一个字母来命名则2 .设若U为服从自由度为n1的2分布,即U 2(m), V为服从自由度为n2的2分布,即V 2(n2),且U 和V相互独立,则F U 八1W n 2称F为服从自由度ni和n2的F分布,记为F F(n1,n2)统计量 :用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数一个总体参数推断时的统计量:样本均值(x)、样本标准差(s)、样本比例(p)等两个总体参数推断时的统计量: ( x1- x2) 、

18、 (p1-p2) 、 (s1/s2)样本统计量通常用小写英文字母来表示参数 :描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值一个总体的参数:总体均值( )、标准差 ( )、总体比例 ( ) ;两个总体参数: ( 1 - 2)、 ( 1- 2)、( 1/ 2)总体参数通常用希腊字母表示抽样分布的概念:1. 样本统计量的概率分布,是一种理论分布在重复选取容量为 n 的样本时,由该统计量的所有可能取值形成的相对频数分布2. 随机变量是样本统计量样本均值 , 样本比例,样本方差等3. 结果来自 容量相同 的 所有 可能样本4. 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,

19、也是抽样推断科学性的重要依据样本均值的抽样分布:1. 在重复选取容量为 n 的样本时,由样本均值的所有可能取值形成的相对频数分布2. 一种理论概率分布3. 推断总体均值 的理论基础中心极限定理: 从均值为 ,方差为 2 的一个任意总体中抽取容量为 n 的样本,当 n 充分大时,样本均值的抽样分布近似服从均值为a方差为o2/n的正态分布其他统计量的分布:1. 总体 (或样本 ) 中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品) 与全部产品总数之比2.总体比例可表示为样本比例的分布1 .在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布2.

20、一种理论概率分布3. 当样本容量很大时,样本比例的抽样分布可用正态分布近似,即样本方差的分布1 .在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布2 .对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n -1)的2分布统计量的标准误差1 .样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差2 .衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度3 .样本均值和样本比例的标准误差分别第五章.参数估计1、参数估计的基本原理参数估计:就是用样本统计量去估计总体的参数估计量:用于估计总体参数的统计量的名称如样本均值,样本比例,样本方差等例如

21、:样本均值就是总体均值 m的一个估计量估计值:估计参数时计算出来的统计量的具体值如果样本均值 x =80 ,则80就是 的估计值点估计1 .用样本的估计量的某个取值直接作为总体参数的估计值? 例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估 计2 .无法给出估计值接近总体参数程度的信息由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量区间估计:1. 在点估计的基础上,给出总体参数估计的一个估计区间,该区间由样本统计量加减估计误差而得到2. 根据

22、样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在7585之间,置信水平是95%置信度: 一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值得次数所占的比例称为 , 也称为 置信度 或 置信系数置信水平:1. 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例,也称置信度2. 表示为 (1 - a) %a 为是总体参数未在区间内的比例3. 常用的置信水平值有99%, 95%, 90%相应的 a 为 0.01 , 0.05 , 0.10置信区间1. 由样本估计量构造出的总体参数在一定置信水平下的估计区间2. 统计

23、学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间3. 如果用某种方法构造的所有区间中有95% 的区间包含总体参数的真值, 5% 的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为 95% 的置信区间。同样,其他置信水平的区间也可以用类似的方式进行表述4. 总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数5. 实际估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平( 比如 95%) 下的置信区间。我们只能希望这个区间是大量包含总体参数真值的区间中的

24、一个,但它也可能是少数几个不包含参数真值的区间中的一个6. 当抽取了一个具体的样本,用该样本所构造的区间是一个特定的常数区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值,因为它可能是包含总体均值的区间中的一个,也可能是未包含总体均值的那一个7. 一个特定的区间总是“包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题8. 置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所 抽取的这个样本所构建的区间而言的2、一个总体参数的区间估计1 .个总体均值区间估计的计算(两种情形)A.大样本的估计 1.定条件总体服从正态分布,且方差

25、(2)已知如果不是正态分布,可由正态分布来近似(n 3 30)未知)2 .用正态分布统计量z z 力l N (0,1) 、n3 .总体均值 在1-置信水平下的置信区间为x z :2或x% nB.小样本的估计1 .假定条件总体服从正态分布,但方差(2)未知小样本(n 30)s2 .使用t分布统计量 x tn3 .总体均值在1-置信水平下的置信区间为评价估计量女?坏的标准:对于同一个未知参数,不同的方法得到的彳计量可能不同 ”于是提出问题1 .应该选用哪一种估计量?2 .用什么标准来评价一个估计量的好坏?第六章.假设检验1、假设检验的基本原理原假设:1 .又称“0假设”,研究者想收集证据予以反对的

26、假设,用H0表示2 .所表达的含义总是指参数没有变化或变量之间没有关系3 .最初被假设是成立的,之后根据样本数据确定是否有足够的证据拒绝它4 .总是有符号=,或3H0 : m = 某一数值H0 : m 3 某一数值H0 : m 某一数值例如 , H0 : m = 10cm备择假设:1. 也称“研究假设”,研究者想收集证据予以支持的假设,用H1或Ha表示2. 所表达的含义是总体参数发生了变化或变量之间有某种关系3. 备择假设通常用于表达研究者自己倾向于支持的看法,然后就是想办法收集证据拒绝原假设,以支持备择假设4. 总是有符号1 , H1 : m 1 某一数值H1 : m 某一数值H1 : m

27、” 或“ ”的假设检验,称为单侧检验或单尾检验(onetailed test)备择假设的方向为“” ,称为右侧检验两类错误与显着性水平1 . 研究者总是希望能做出正确的决策,但由于决策是建立在样本信息的基础之上,而样本又是随机的,因而就有可能犯错误2 .原假设和备择假设不能同时成立,决策的结果要么拒绝 Ho,要么不拒绝H。决策时总是希望当原假设正确时没有拒绝它,当原假设不正确时拒绝它,但实际上很难保证不犯错误3 .第I类错误(a错误)原假设为正确时拒绝原假设 第I类错误的概率记为a,被称为显着性水平2.第n类错误(b错误)原假设为错误时未拒绝原假设第n类错误的概率记为 b (Beta)利用统计

28、量进行检验时的决策准则1 .根据样本观测结果计算出对原假设和备择假设做出决策某个样本统计量2 .对样本估计量的标准化结果原假设H0为真点估计雕一假设彳点微讲端的前僻标滩嚏ta 或 ta/2点估计量的抽样分布3 .标准化的检验统计量统计量决策规则1 .给定显着性水平a,查表得出相应的临界值 za或Za/22 .将检验统计量的值与 a水平的临界值进行比较3 .作出决策双侧检验:I统计量I 临界值,拒绝Ho左侧检验:统计量 临界值,拒绝Ho利用P值进行决策的准则1 .如果原假设为真,所得到的样本结果会像实际观测结果那么极端或更极端的概率? P值告诉我们:如果原假设是正确的话,我们得到得到目前这个样本

29、数据的可能性有多大,如 果这个可能性很小,就应该拒绝原假设2 .被称为观察到的(或实测的)显着性水平3 .决策规则:若p值a,拒绝Ho2、一个总体参数的假设检验一个总体均值双侧检验的计算(两种情形)1 .总体方差 已知或未知.在 已知的条件下,由抽样分布理论可知,样本统计量服从z分布;而在 未知的条件下,样本统计服从t分布。故当 已知时,可以使用z体验;当未知时,可以使用t体验。2 . n(n1,n2)较大或n较小。当样本量n1,n2都较大时,如果总体方差 _和_位置,可以用样本方差 _, _替代,这时,杨本统计 量近似服从z分布,采用z作为体验统计量也是可行的,但是当n或n1,n2部大时,如

30、果_,_未知,就应该采用t作为统计量。第八章.一元线性回归1、变量间的关系相关关系的含义,与函数关系的区别函数关系1 .是一一对应的确定关系2 .设有两个变量x和y ,变量y随变量x 一起变化,并完全依赖于 x ,当变量x取某个数值时,y依 确定的关系取相应的值,则称y是x的函数,记为y = f (x),其中x称为自变量,y称为因变量3 .各观测点落在一条线上相关系数1 . 一个变量的取值不能由另一个变量唯一确定2 .当变量x取某个值时,变量y的取值对应着一个分布3 .各观测点分布在直线周围相关关系的分类相关关系的描述及测度1 .度量变量之间线性关系强度的一个统计量若相关系数是根据总体全部数据

31、计算的,称为总体相关系数,记为若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r也称为 Pearson 相关系数 (Pearson s correlation coefficient)2 .样本相关系数的计算公式r . (x x)(y y)、(x x)2 (y y)22散点图:散点图可以判断两个变量之间有无相关关系,并对关系形态作出大致描述,但要准确度量变量间的 关系强度,则需要计算相关关系。简单相关系数的取值特点及相关含义:简单相关系数又称皮尔逊相关系数或皮尔逊积矩相关系数”,它一6. CXi-Xl * irj般用字母r表示。它是用来度量定量变量间的线性相关关系。计算公式为

32、:2、一元线性回归因变量:被预测或被解释的变量,用y表示自变量:用来预测因变量的一个或多个变量, 用x表示 回归模型各个部分的解释 参数:因变量y的取值是不同的,y取值的这种波动称为(变差)参数最小二乘估计的基本思想*1 .德国科学家 Karl Gauss(1777 1855)提出用最小化图中垂直方向的误差平方和来估计参数2 .使因变量的观察值与估计值之间的误差平方和达到最小来求得和 的方法。即nnn(yi ?)2 (yi ?o?iXi )2最小3 .用最小车乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小 (和?1的计算公式) 一 99nnnnnn X Xi yiii

33、1ii 1 i 11nm22nxixii 1ii 1根据最小二乘法,可 得求解-0和 4的公式如下判定Q数的不及计2A4y解释?x)2 o00ii 11.00回归平方和占串k差平方和的比例一2反映轲归直&的巡祺度%?1Xii)1ii 13 .取值范围在0 , 1 之间4 . R2 1 ,说明回归方程拟合的越好;R2 0,说明回归方程拟合的越差5 .决定系数平方根等于相关系数第十章.时间序列预测1、时间序列组成要素时间序列:是同一现象在不同时间上的相继观察值排列而成的序列 平稳序列:是基本上不存在趋势的序列非平稳序列:是包含趋势,季节性或周期性的序列,它可能只含有其中的一种成分,也可能是几种成分

34、 的组合。因此,非平稳序列又可以分为趋势的序列。趋势:是时间序列在长时期内呈现出来的持续向下的变动季节变动:是时间序列在一年内重复出现的周期性波动循环波变动:是时间序列呈现出的非固定长度的周期性波动 不规则波动:是时间序列中除去趋势,季节变动和周期性波动之后的随机波动2、时间序列预测的程序1 .确定时间序列所包含的成分2 .找出适合此类时间序列的预测方法,并对可能的预测方法进行评估,以确定最佳预测方案3 .利用最佳预测方案进行预测3、平滑法预测1 .适合于只含有随机成分平稳序列2 .通过对时间序列进行平滑以消除其随机波动,因而也称为平滑法%这些方法是(包括线性趋势和非3 .主要有移动平均法 (

35、moving average) 和指数平滑法(exponential smoothing) 等4 .平滑法既可用于短期预测,也可以用于对时间序列进行平滑以描述序列的趋势 线性趋势)?移动平均法和指数平滑法的适用条件移动平均法:1 .选择一定长度的移动间隔,对序列逐期移动求得平均数作为下一期的预测值2 .将最近k期数据平均作为下一期的预测值3 .设移动间隔为k (1 kt),则t+1期的移动平均预测值 为Y k1 Yk2Yt 1 YtFii)224 .预测误差用听课* (MSE)来衡量krn4、了解趋势预测和自回归模型预测MSE谈??乎ii力吸对幽n趋势预测:1 .根据时间序列变化的趋势选择适当

36、的模型进行预测2 .主要适合于含有趋势的序列3 .趋势序列的预测方法主要有线性趋势(linear trend) 预测、非线性趋势(non-linear trend)预测和自回归(autoregression) 模型预测等自回归模型预测:1. 序列包含多种成分自回归是解决自相关序列的有效预测方法之一2. 它是利用观测值与以前时期的观测值之间的关系来预测值的一种多元回归方法3. 因变量是观测值Yt,自变量是因变量的滞后值Yt-i,Yt-2,Yt-3,。看上去就像自己同自己回归,故名自回归5、多成分序列的预测:1. 序列包含多种成分2. 预测方法有季节多元回归模型预测季节自回归模型模型预测分解预测等? 分解预测是先将时间序列的各个成分依次分解出来,尔后再进行预测虚拟变量和季节指数1. 用虚拟变量表示季节的多元回归预测方法2. 若数据是按季度记录的,需要引入 3 个虚拟变量;按月记录的,则需要引入 11 个虚拟变量1 第一季度1 第二季度1 第三季度Q 1 3. 季度数据的季节性多元回归模型可表示为0其他季度Q220 其他季度Q30 其他季度

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!