《统计数的分布》PPT课件.ppt

上传人:sh****n 文档编号:14178284 上传时间:2020-07-09 格式:PPT 页数:40 大小:1.26MB
收藏 版权申诉 举报 下载
《统计数的分布》PPT课件.ppt_第1页
第1页 / 共40页
《统计数的分布》PPT课件.ppt_第2页
第2页 / 共40页
《统计数的分布》PPT课件.ppt_第3页
第3页 / 共40页
资源描述:

《《统计数的分布》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《统计数的分布》PPT课件.ppt(40页珍藏版)》请在装配图网上搜索。

1、第四章 统计数的分布(抽样分布),研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可从两方面着手, 一是从总体到样本,这就是研究抽样分布(sampling distribution)的问题; 二是从样本到总体,这就是统计推断(statistical inference)问题。,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量也将随样本的不同而有所不同。因而样本统计量也是随机变量,也有其概率分布,我们把统计量的概率分布称为抽样分布。,一、抽样试验与无偏估计,抽样试验 由总体随机抽样(random sampling)的方法可分为有返置抽样和不返置抽样两

2、种。对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。,100份样本的均数和标准差,将这100份样本的均数看成新变量值,按第二章的频数分布方法,得到这100个样本均数得直方图见图4-1。,随机抽样所得100个样本均数的分布,100个样本均数的抽样分布特点: 100个样本均数中,各样本均数间存在差异,但各样本均数在总体均数周围波动。 样本均数的分布曲线为中间高,两边低,左右对称,近似服从正态分布。,无偏估计,在统计学上,如果所有可能样本的某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值。,设有一N=

3、3的近似正态总体,具有变量3,4,5;求得=4,2=0.6667, =0.8165 现以n=2作独立的有回放抽样,总共得Nn=32=9个样本。 抽样结果列入下表:,N=3 n=2时抽样的平均数 方差 标准差,从上表的资料可以求出: 样本平均数的平均数x=4 样本方差的平均数S2=0.6667=2 样本标准差的平均数S=0.62850.8165= 所以,惟有样本标准差s的平均数不是总体标准差的无偏差估计值。其余两个参数为无偏差估计值。,二、样本平均数抽样分布,设有一个总体 ,总体平均数为,方差为2,总体中各变数为x,将 此总体称为原总体。现从这个总体中随机抽取含量为n的样本,样本平均数记为 。可

4、以设想,从原总体中可抽出很多甚至无穷多个含量为n的样本。,由这些样本算得的平均数与原总体平均数相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽样误差(sampling error)。显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。 由样本平均数构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为 和 。,是样本平均数抽样总体的标准差,简称标准误(standard error),它表示平均数抽样误差的大小。统计学上已证明总体的两个参数与x 总体的两个参数有如下关系:,即样本均数的标准差,可用于衡量抽样误差的大小。 因通常未知,计算标准误采用下式:,标

5、准误(standard error, SE),通过增加样本含量n来降低抽样误差。,设有一个N=4的有限总体,变数为2,3,3,4。根据=xN和2=(x-)2N求得该总体的、2、为: =3,2=12,=(1/2)1/2=0.707,从有限总体作返置随机抽样,所有可能的样本数为Nn其中n为样本含量 。以上述总体而论,如果从中抽取n=2的样本,共可得 42=16 个样本;如果样本含量n为4,则一共可抽得44=256个样本。分别求这些样本的平均数 ,其次数分布如下表所示。 在n=2的试验中,样本平均数抽样总体的平均数、方差与标准差分别为:,因是返置式抽样,因此抽样4个个体组成一个样本,这个样本可能都为

6、A或B或这4个个体和任意组合。,=4/16=1/4=(1/2)/2= 2/n,表 N=4, n=2和n=4时的次数分布,同理,可得n=4时: 验证了 的正确性。 也可以将表中两个样本平均数的抽样总体作次数分布图。,由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,即使样本含量很小,样本平均数的分布却趋向于正态分布形式。随着样本含量 n 的增大,样本平均数的分布愈来愈从不连续趋向于连续的正态分布。当n30时, 的分布就近似正态分布了。X变量与 变量概率分布间的关系可由下列两个定理说明:,1. 若随机变量x服从正态分布N(,2);x1、x2、xn,是由x 总体得来的随机样本,

7、则统计量 =xn的概率分布也是正态分布,且有 , 即服从正态分布N(,2n)。 2. 若随机变量x服从平均数是,方差是2的分布(不是正态分布); x1、x2、xn,是由此总体得来的随机样本,则统计量 =xn的概率分布,当n相当大时逼近正态分布N(,2n)。这就是中心极限定理。,中心极限定理告诉我们:不论x变量是连续型还是离散型,也无论x服从何种分布,一般只要n30,就可认为 的分布是正态分布。若x的分布不很偏倚,在n20时 , 的分布就近似于正态分布了。,注意:样本标准差与样本标准误是既有联系又有区别的两个统计量。 二者的区别是样本标准差S是反映样本中各观测值的变异程度,它的大小说明了 对该样

8、本代表性的强弱。 样本标准误是样本平均数 的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小及抽样精确性的高低。,对于大样本资料,常将样本标准差S与样本平均数 配合使用,记为 S,用以说明所考察性状或指标的优良性与稳定性。 对于小样本资料,常将样本标准误 与样本平均数 配合使用,记为 ,用以表示所考察性状或指标的优良性与抽样误差的大小。,三、t 分布,由样本平均数抽样分布的性质知道: 若x-N(, 2), 则 -N(, 2/n)。 将随机变量 标准化得: ,则u-N(0,1)。 当总体标准差未知时, 以样本标准差S代替所得到的统计量 记为t。在计算 时,由于采用S来代替,使得t

9、变量不再服从标准正态分布,而是服从t分布(tdistribution)。它的概率分布密度函数如下:,式中,t的取值范围是(-,+); df=n-1为自由度。 t 分布的平均数和标准差为: t0 (df1), t 分布密度曲线,其特点是:,T 分布密度曲线,t 分布,t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布。,1t 分布受自由度的制约,每一个自由度都有一条t分布密度曲线。 2、t分布密度曲线以纵轴为对称轴,左右对称,且在t0时,分布密度函数取得最大值。 3、与标准正态分布曲线相比,t分布曲线

10、顶部略低,两尾部稍高而平。df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布。,t分布的概率分布函数为: 因而t在区间(t1,+)取值的概率(右尾概率)为1-F t (df)。由于t分布左右对称,t在区间(-,-t1)取值的概率也为1-F t (df)。于是t分布曲线下由-到- t 1和由t 1到+两个相等的概率之和(两尾概率)为2(1-F t (df)。对于不同自由度下t分布的两尾概率及其对应的临界t值已编制成附表4,即t分布表。,当df=15时,查附表4得两尾概率等于0.05的临界t值为 =2.131,其意义是: P(-t-2.131)=P(2.131t+) =0.025 P(-

11、t-2.131)+ (2.131t+)=0.05 由附表4可知,当df一定时,概率P越大,临界t值越小;概率P越小,临界t值越大。当概率P一定时,随着df的增加,临界t值在减小,当df=时,临界t值与标准正态分布的临界u值相等。,四、x2 分布,假设从正态总体中抽取k个独立样本u12 、u22 、u32 、uk2 ,则定义它们的和为x2 ,(u为标准正态离差) x2具有自由度df=n-1的连续型变量的分布,不同的自由度的x2分布曲线不同。 附表4列出了各种自由度下的x2分布的一尾(右尾)概率。例x0.052=5.99,x0.012=9.21。,x2分布的特征:,1x2分布于区间0,+); 2x

12、2分布的偏斜度随自由度降低而增大,df=1时,曲线以纵轴为渐进线; 3随自由度增大x2分布曲线趋于左右对称,当df=30时,x2分布接近正态分布。 附表6为上侧临界值表。,x2 分布,总体方差的区间估计(图示),对上侧临界值表而言,五、F 分布,设从一正态总体N(,2)中随机抽取样本容量为n1和 n2的两个独立样本,其样本方差为s12和s22,则定义s12和s22比值为F。即 F = s12/s22 此F值具有s12的自由度df1=n1-1和s22的自由度df2=n2-1 。如果对一个正态总体特定的df1和df2进行 一系列随机抽样,则可能的F值构成一个F分布。,F 分布的特征:,1、F分布平均数F=1,F的取值区间0,); 2F分布曲线仅决定于df1和df2 。df1=1或2时,曲线为反J型;当df13时,转为左偏型曲线。 F分布概率查附表7(上侧),如df1=4 ,df2=10时,F0.05=3.48, F0.01=5.99,为所有F值大于3.48的概率为0.05,大于5.99的概率为0.01 。,F 分布,小 结,二项分布、泊松分布、正态分布:总体的参数(个体概率)分布,可用来估计样本有关情况出现的机率; t分布、卡方分布、F分布:样本的统计数的分布,可用来推断总体参数。,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!