统计学笔记

上传人:会飞的****609 文档编号:108147155 上传时间:2022-06-15 格式:DOCX 页数:22 大小:1.70MB
收藏 版权申诉 举报 下载
统计学笔记_第1页
第1页 / 共22页
统计学笔记_第2页
第2页 / 共22页
统计学笔记_第3页
第3页 / 共22页
资源描述:

《统计学笔记》由会员分享,可在线阅读,更多相关《统计学笔记(22页珍藏版)》请在装配图网上搜索。

1、第一章:统计学总论一、统计学是收集、分析和解释数据的科学1. 收集数据;2. 处理数据3. 分析数据4. 数据解释5. 得到结论。二、统计的方法1.描述统计:描述数据特征、找出数据的基本规律;2.推断统计:研究如何利用样本数据来推断总体特征,对总体特征做出推断。(参数估计、假设检验)三、统计数据的类型1.按计量层次:分类数据、顺序数据、数值型数据;2.按收集方法:观测数据和实验数据;3.按时间状况:截面数据和时间序列数据。三、统计的概念1.总体和样本(总体是全部的集合,样本是一部分元素的集合)2.参数和统计量(标志:是每个个体所共同具有的属性或特征,说明个体属性的具体名称;指标:反映总体数特征

2、的,由各个个体的标志值汇总而成)总体指标:简称参数,我们想要了解的总体的某个特征值;总体均值,标准差(音译:西格玛),总体比例:样本指标:简称统计量,是根据样本数据计量出来的一个量:样本均值,样本标准差(s),样本比例:。质量指标:反映生产效果或工作质量的总量指标。(劳动生产率、平均的概念)数量标志的标志表现。例如,成绩,100分,成绩是标志,100分是标志值3.变量:说明某种特征的概念,变量的具体取值成为变量值,也就是数据。有分类变量、顺序变量、数值型变量(离散型变量:取有限个值;连续变量:可以取无穷多个值);其他分类:随机变量,非随机变量,经验变量,理论变量)第二章:数据的收集一、数据来源

3、直接:原始数据(调查数据、实验数据)间接:二手数据(搜集容易、采集成本低、作用广泛,优先考虑。收集要考虑:可信度、目的、过程、时间。二、调查方法1.概率抽样:随机抽样,被抽中的概率是已知的;(1)简单随机抽样:总体N随机抽取n个单位作为样本,其他抽样的基础。(2)系统抽样又称机械抽样:按照一定顺序,取一个数字作为原始单位,后依次r+k,r+2k等单位(3)分层抽样:某种特征或规则划分为不同的层,从各个层里抽取(4)整群抽样:如:集装箱内抽取一整箱苹果,对这一小箱全部检查(5)多阶段抽样2.非概率抽样(1)方便抽样:方便的原则,自行确定入抽样本(2)判断抽样:有目的的选择一些单位作为样本(3)自

4、愿样本:问卷调查(4)滚雪球抽样:根据线索进行后面的调查(5)配额抽样:三、实验方法1.收集数据的基本方法:调查的数据(自填式、面访式、电话式、观察式),实验的数据:做就完事了四、数据的误差1.抽样误差:2.非抽样误差:3.误差的控制:第四章:数据的概括性度量一、集中趋势的度量1.是一组数据想其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值;2.集中趋势(平均指标)的种类:(1)位置平均数:众数和中位数(2)数值平均数:算数平均数:也称为均值;加权算数平均数几何平均数:也成对数平均数(n个变量乘积的n次方根),计算平均增长率;调和平均

5、数:记住买菜的例子。(3)四分位数:顺序数据的四分位数:位置计算过程Ql=(n+1)/4,Qn=(n+1)3/4数值型数据的四分位数:先位置,找出是处于前25%,还是后75%的二、离散程度的度量1.离散趋势:描述观测值偏离中心位置的趋势,反映了所有观测值偏离中心的分布情况;2.分类数据:异众比率(非众数组的频数占总频数的比例)计算公式=(总数-最大频数)/总数;3.极差(全距):一组数据最大值和最小值的差;4.顺序数据:四分位差=上四分位数-下四分位数(反映了中间50%数据的离散程度);5.平均差:各变量值与其平均数离差绝对值的平均数,能全面反应一组数据的离散程度;从某一个角度来看标准差就是平

6、均差;6.方差包含总体方差和样本方差,总体标准差和样本标准差,总体和样本之间差了一个自由度表示为n-1;7.为分组数据和组距分组数据;8.相对离散程度:离散系数(标准差与其相应的均值之比)9.标准分数的均值等于0,方差等于110.经验法则:平均数加减1个标准差68%,2个则有95%,3个则是99%;11.切比雪夫不等式: 偏态与峰态的度量1.偏态:是数据分布偏斜程度的测度;偏态系数=0为对称分布,0右偏分布,0右偏分布,众数、中位数、均值(收入高的占少数,收入低的占多数)0尖峰分布(低收入的家庭比重较大) 0扁平(平峰)分布, 第五章:概率与概率分布一、随机事件的几个基本概念1.实验:相同条件

7、下重复进行,每次实验结果可能不止一个,但所有的结果是知道的,但在实验结束之前,不能确定该次实验的确切结果。2.事件:随机实验的每一个可能的结果(任何样本点集合);随机事件:每次实验可能出现也可能不出现;必然事件:每次实验一次一定出现的事件;不可能事件:每次实验一定不出现的事件。3.基本事件:衣蛾不可能再分的随机事件;4.样本空间:一个实验中所有基本事件的集合,用表示二、事件的概率1.事件A的概率是对事件A在实验中出现的可能性大小的一种度量;表示事件A出现可能性大小的数值;对概率的定义有:古典定义,统计定义和主观概率定义。2.概率古典定义:一组随机实验结果有限,而且各个结果在每次实验中出现的可能

8、性相同;3.概率统计定义:在相同条件下进行n次随机实验,事件A发生出现m次,则m/n成为事件A发生的频率。随着n的增大,该频率围绕某一常数P上下摆动且波动的幅度逐渐减小,趋向于稳定,频率的稳定值纪委事件A的概率。记为:P(A)=m/n=P。4.主观概率定义:对一些无法重复的实验,确定其结果的概率只能根据以往的经验,人为确定。是决策者对某一个事件是否发生,根据个人掌握信息,对该事件发生的可能性的判断。三、离散型随机变量及其分布1.随机变量:一次实验的结果的数值性的描述,一般用XYZ表示(投掷两枚硬币出现正面的数量);根据取值情况的不同分为离散型随机变量和连续性随机变量。2.离散型:随机变量的X的

9、取值有限个,都可以列举出来:X1,X2,X3以确定的概率取这些不同的值。3.连续性随机变量:取值无限个,往往是在一个区间内的任何数值;4.离散型随机变量的概率分布:列出离散型随机变量X所有可能取值;列出随机变量取这些值的概率;用表格表示;概率分布之和=1;4.离散型随机变量的概率分布:(0-1分布):概率只有两种,之和=1;(均匀分布):一个离散型随机变量取各个值的概率相同,列出取值及其取值的概率;5.离散型随机变量的期望与方差期望:取值和其概率乘积之和,描述的是离散型随机变量取值的集中程度;方差:取值与期望之差的平方,描述的是离散型随机变量取值的分散程度;6.几种常见的离散型概率分布:(1)

10、二项实验(贝努利实验):实验包含了n个相同的实验,每次实验只有两种结果,即“成功”和“失败”,或者是出现或不出现;概率分别为p,q且p+q=1;实验是相互独立的,实验成功和失败可以计数;(2)二项分布:进行n次重复实验,出现成功的次数的概率成为二项分布;设X为n次重复实验中的时间A出现的次数,X取x的概率为:(3)当n=1时,变成了0-1分布了;(4)数学期望=np,方差=npq7.泊松分布:(1)用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一件事件出现次数的分布,例如:一个城市一个月内发生的交通事故次数;消费者协会一个月内受到消费者投诉的次数;人寿保险公司每天收到的死亡声明的人

11、数;(2)数学期望=,方差= ,期望就是平均值。注:当实验次数n很大,成功的概率p很小,可用泊松分布来近似地计算二项分布的概率(当p20,np=0,-+f(x)dx=1,概率是这个函数定义域内的面积;(3)分布函数:连续型随机变量的概率也可以用分布函数F(x)来表示。密度函数曲线下的面积等于1;分布函数是曲线下小于x0的面积。(4)连续性随机变量的数学期望和方差为9.正太分布(1)可用于近似离散型随机变量的分布(如二项分布),是经典统计推断的基础。(2)正太分布函数的性质:f(x)0概率密度函数在x轴的正上方,正太曲线的最高点咋均值u,他也是分布的中位数和众数,正太分布是一个分布族,每一特定正

12、太分布通过均值u和标准差来区分,u决定了图形的中心位置,决定了曲线的平缓程度,即宽度。永远不会和x和y轴相交。正太曲线下的总面积等于1。随机变量的概率由曲线下的面积给出。(3)标准正太分布:标准正态分布又称为u分布,是以u=0为均数、以=1为标准差的正态分布,记为N(0,1)。任何一个一般的正太分布,可通过下面的线性变换转化为标准正太分布。Z=X-u/N(0,1)计算概率时,查标准正太概率分布表,对于负的x,可由-x=1-x;对于标准的正太分布,X-N(1,0)有P(/X/=30时样本均值的抽样分布逐渐趋于正太分布。第七章:参数估计一、参数估计的一般问题;1.估计量是用于估计总体参数的随机变量

13、,参数用,估计量用表示;估计值估计参数时计算出来的统计量的具体值,一般用样本均值代替;2.点估计:用样本估计量的某个取值直接作为总体参数的估计值;区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差得到;根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量,比如:某班级平均分数在75-85之间,置信水平是95%(1)将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平,表示为(1-)%,是总体参数未在区间内的比例,常用的置信水平值有99%,95%,90%相应的为0.01,0.05,0.1;(3)评价估

14、计量的标准:无偏性:估计量抽样分布的数学期望等于被估计的总体参数;有效性:对同一总体参数的两个无偏估计点量,有更小的标准差的估计;一致性:随着样本量的增大,估计量的值越来越接近被估计的总体。二、一个总体参数的区间估计;1.(1)总体参数:有均值,比例,方差2,样本统计量:有均值x吧,比例p,方差s2(2)总体服从正太分布,且方差已知,如果不是正太分布可以用正太分布近似表示(n=30),使用正太分布统计量z,2.总体均值的区间估计(1)小样本:当总体服从正太分布,但方差不知,小样本n=0.8是高度相关,0.5-0.8是中度相关;0.3时视为低度相关,可视为不相关。上述的解释必须建立在相对关系的显

15、著性进行检验的基础之上。3.相关系数的显著性检验这个是显著性检验:检验两个变量之间是否存在线性相关关系,等价于对回归系数1的检验。采用t检验,也有一般步骤,(先提出假设:H0: =0; H1: 0)计算统计量t公示在书本上。二、一元线性回归1.一元线性回归模型;(1)回归分析:从一组样本数据出发,确定变量之间的数学关系式;对这些关系的可信程度进行各种统计检验,并从影响某一特定的变量的诸多变量中找出哪些变量的影响显著,哪些不显著;利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定的变量的取值,并给出这种预测或控制的精确程度。(2)回归模型分类:一元回归,多元回归;包含了线性的回归和

16、非线性回归,(3)一元线性回归:涉及到一个自变量的回归,因变量和自变量之间的关系用一个线性方程来表示;(4)回归模型:y=0+1x+是线性函数部分加上误差项,假定误差项是一个服从正太分布的随机变量,且相互独立的,-N(0,2)(5)估计的回归方程:0+1x2.参数估计最小二乘估计;(1)是用最小化图中垂直方向的误差平方和来估计参数;使因变量的观察值与估计值之间的误差平方和达到最小来求得0,1;用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。(2)因变量y的取值是不同的,y的取值的这种波动称为变差。变差来源于两个方面,一是自变量x的取值不同造成的,除x以外的其他因

17、素(如x对y的非线性影响、测量误差等),对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示。3.回归直线的拟合优度;(1)总平方和sst,回归平方和ssr,残差平方和sse,sst=ssr+sse,R的平方=SSR/SST,反映了回归直线的拟合程度。取值范围在【0,1】之间。越趋近于1说明回归方程拟合程度越好,越趋近于0说明方程拟合程度越差。判定系数R的平方=相关系数r的平方。(2)估计标准误差:实际观察值与回归估计误差平方和的均方根MSE4.显著性检验;(1)线性关系的检验:将回归均方MSR(ssr除以相应的自由度,自变量的个数k)与残差均方MSE(sse除以相应的自由

18、度,自变量的个数n-k-1)加以比较,应用F检验来分析二者之间的差别是否显著。(2)检验的步骤:提出假设:H0:1=0线性关系不显著;计算检验统计量F=MSR/MSE;确定显著水平,并根据分子自由度1和分母自由度n-2找出临界值Fa;做出决策,拒绝或不拒绝。(3)回归系数的检验:检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著。理论基础是回归系数1的抽样分布,等价于线性关系的显著性检验;采用t检验。三、利用线性回归返程进行估计和预测四、残差分析第十三章时间序列分析和预测1.时间序列及其分解(1)同一现象在不同时间上的相继观察值排列而成的数列(2)形式上由现象所属的时

19、间和现象在不同时间上的观察值两部分组成(3)排列的时间可以是年份、季度、月份或其他任何时间形式(4)时间序列的分类:平稳序列、非平稳序列有有趋势序列和复合型序列(5)时间序列的成分:趋势、季节性、周期性、随机性2.时间序列的描述性分析(1)图形描述(2)增长率分析:增长率也称增长速度,是报告期观察值与基期观察值之比减1,用百分比表示;由于对比的基期不同,增长率可以分为环比增长率:报告期水平与前一期水平之比减1和定基增长率:报告期水平与某一固定时期水平之比减1;根据计算方法的不同,有一般增长率、平均增长率序列中逐期环比值(也称环比发展速度)的几何平均数减1后的结果,通常用几何平均法求得、年度增长率3.时间序列的预测程序4.平稳序列的预测5.趋势型序列的预测6.复合型序列的分解预测

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!