1.1总体和样本

上传人:仙*** 文档编号:231243108 上传时间:2023-08-30 格式:PPT 页数:73 大小:2.24MB
收藏 版权申诉 举报 下载
1.1总体和样本_第1页
第1页 / 共73页
1.1总体和样本_第2页
第2页 / 共73页
1.1总体和样本_第3页
第3页 / 共73页
资源描述:

《1.1总体和样本》由会员分享,可在线阅读,更多相关《1.1总体和样本(73页珍藏版)》请在装配图网上搜索。

1、1.1.总体和样本总体和样本一、总体和样本一、总体和样本例 某钢铁厂某天生产某钢铁厂某天生产10000根钢筋,规定强根钢筋,规定强度小于度小于52kg/mm2的算作次品,如何来求这的算作次品,如何来求这批钢筋的次品率?是否需要测量每根钢筋的批钢筋的次品率?是否需要测量每根钢筋的强度呢?强度呢?一般来说是不需要的一般来说是不需要的.只要从这只要从这10000根根钢筋中抽取一部分,比如钢筋中抽取一部分,比如100根,测量这根,测量这100根钢筋的强度,就可以推断出整批钢筋根钢筋的强度,就可以推断出整批钢筋的次品率了,这就是抽样检验的次品率了,这就是抽样检验.事事实上,全面检验是有困难的实上,全面检

2、验是有困难的(1)有些检验是有破坏性的,如使用寿命有些检验是有破坏性的,如使用寿命;(2)产品数量大,或检验成本太高,人力、物力、产品数量大,或检验成本太高,人力、物力、时间不允许等时间不允许等例如:有一批棉花,需要检查纤维的长度,我们例如:有一批棉花,需要检查纤维的长度,我们当然不可能去测量每一根棉花纤维的长度。当然不可能去测量每一根棉花纤维的长度。数理统计提供了一整套方法,保证可以通数理统计提供了一整套方法,保证可以通抽样检验做出可靠的科学结论。抽样检验做出可靠的科学结论。直观地说,直观地说,被观察对象的全体称作总体;总体被观察对象的全体称作总体;总体的每一基本单元称作个体或样品;从总的每

3、一基本单元称作个体或样品;从总体中抽出的一部分个体组成一个样本,体中抽出的一部分个体组成一个样本,样本中所含个体的个数称作样本的容量样本中所含个体的个数称作样本的容量或大小。或大小。如前例所说,如前例所说,10000根钢筋的强度是根钢筋的强度是总体,每一根钢筋的强度是一个个体,总体,每一根钢筋的强度是一个个体,抽查的抽查的100根钢筋的强度是一个样本,它根钢筋的强度是一个样本,它的容量是的容量是100。更确切的说,对这批钢筋,我们关心的更确切的说,对这批钢筋,我们关心的是它的强度的分布,如强度低于是它的强度的分布,如强度低于52kg/mm2的比例是多少的比例是多少.设设 X表示表示“任一根钢筋

4、的强度任一根钢筋的强度”,X是是一个随机变量一个随机变量.它的概率分布就反映了这批它的概率分布就反映了这批钢筋的强度的分布,即把总体看做一个随机钢筋的强度的分布,即把总体看做一个随机变量。变量。从总体中抽取一个个体就是做一次随从总体中抽取一个个体就是做一次随机试验,而机试验,而“任取任取n根钢筋,测其强度根钢筋,测其强度”就是做就是做n次随机试验,得到容量为次随机试验,得到容量为n的样的样本本.因为抽取是随机的,故可以样本看做因为抽取是随机的,故可以样本看做n个随机变量个随机变量。当试验是同重复独立试验时,当试验是同重复独立试验时,与总体与总体有相的分布,这样的样本称作有相的分布,这样的样本称

5、作简单随机样本。简单随机样本。一般,对有限总体,放回抽样所得到的样本为简单随机样本,但使用不方便,常用不放回抽样代替.而代替的条件是(1)与总体与总体X有相同的分布有相同的分布(2)相互独立相互独立简单随机样本简单随机样本N/n 10.总体中个体总数总体中个体总数 样本容量样本容量 由定义由定义,若总体若总体是离散型随机变量,其分是离散型随机变量,其分布律为布律为则样本则样本的联合分布为的联合分布为若若是连续型随机变量,其分布密度为是连续型随机变量,其分布密度为则样本则样本的联合分布密度是的联合分布密度是 二、频率分布表与直方图二、频率分布表与直方图一、频率分布表 设总体 是离散型随机变量,是

6、一组样本值,取到的值为 ,并且取到 的个数分别为 ,则样本容量 ,我们称 为 出现的频数,而 出现的频率为 显然,例1 对对100块焊接完的电路板进行检查,每块板块焊接完的电路板进行检查,每块板上焊点不光滑的个数的频数分布表和频率分布表如上焊点不光滑的个数的频数分布表和频率分布表如下图所示下图所示 (不光(不光滑点的个数)滑点的个数)1 2 3 4 5 6 7 8 9 10 11 12合计合计(频数频数)4 4 5 10 9 15 15 14 9 7 5 3100 (=/100)1从上表可大体知道这批电路板的不光滑情况,可近似地从上表可大体知道这批电路板的不光滑情况,可近似地作为作为“每块板上

7、不光滑点个数每块板上不光滑点个数”X的分布律的分布律.二、直方图 当总体是连续型随机变量时,可采用直方图当总体是连续型随机变量时,可采用直方图来处理数据来处理数据(样本值样本值).设设为给定的一为给定的一组样本值,处理步骤如下:组样本值,处理步骤如下:1)简化数据,令)简化数据,令由于数据总在某个某个数值由于数据总在某个某个数值上下波动,可以选上下波动,可以选取适当的常数取适当的常数,把样本值化为位数较少的整数,把样本值化为位数较少的整数,为方面起见,化简后的数值为方面起见,化简后的数值仍记为仍记为.2)求求中的最大最小值中的最大最小值.记记3)分组分组.a)确定组数和组距确定组数和组距.选定

8、组数选定组数,取组距,取组距一般情况下,一般情况下,应取数据的最小单位的整数倍应取数据的最小单位的整数倍.b)确定各组的上下界确定各组的上下界.取第一组的下界取第一组的下界应略小于应略小于,使得,使得落入第落入第一组内,即一组内,即然后令然后令为了使每个数据都落入组内,应使分点为了使每个数据都落入组内,应使分点比样本值多一位比样本值多一位小数小数.4)计算频率,记计算频率,记为落入第为落入第个区间的频数,则频个区间的频数,则频率为率为5)画直方图画直方图.以以为底,为底,为高画小长方形为高画小长方形.显然,所有小长方形面积之和等于显然,所有小长方形面积之和等于1:样本直方图与密度函数样本直方图

9、与密度函数的关系?的关系?根据大数定律,根据大数定律,近似等于随机变量近似等于随机变量落入区间落入区间内内的概率,即的概率,即设设的密度函数为的密度函数为,则,则如果如果在区间在区间内连续内连续 下面举例说明画直方图的全过程及注意事项下面举例说明画直方图的全过程及注意事项例例2某食品厂为加强质量管理,在某天生产的一大某食品厂为加强质量管理,在某天生产的一大批罐头中抽查了批罐头中抽查了100个,测得内装食品的净重数据个,测得内装食品的净重数据如下(单位:如下(单位:g):):342341348 346343342346341344348346346341 34434234434534034434

10、4343344342 343345339350337345342349336348 344345332342341350343347340344 353341340353346345346341339342 352342350348344350335340338345 345349336342338343343341347341 347344339347358343347346344345 350341338343339343346342339343 350341346341345344342解解1)简化数据简化数据.取取c=340,d=1.令令.简化后的数据如下图简化后的数据如下图21863

11、261486614245044342235-110-3 59-4845-82110 3704131036561-12122108410-50-2559-42-23317174-171837645101-23-1362-13101615422)求最大值和最小值求最大值和最小值.由上表知,最小值为由上表知,最小值为-8,最大值为,最大值为18.3)分组分组a)确定组数和组距确定组数和组距.考虑到样本容量考虑到样本容量n=100,取组数取组数m=10.由于由于(18+8)/10=2.6,取组距取组距.b)确定各组的上、下界确定各组的上、下界.取取,依次得依次得-5.5,-2.5,0.5,3.5,6.

12、5,9.5,12.5,15.5,18.5.4)计算频率计算频率5)画直方图画直方图.注意注意.序号k 组 频数频率1(-8.5,-5.510.012(-5.5,-2.540.043(-2.5,0.5120.124(0.5,3.5320.325(3.5,6.5300.306(6.5,9.5120.127(9.5,12.570.078(12.5,15.510.019(15.5,18.510.01三、经验分布函数 对给定的一组样本值,将它们按从小到大的顺序排列:对给定的一组样本值,将它们按从小到大的顺序排列:对任意实数对任意实数,定义,定义称称为为经验分布函数经验分布函数.例如例如,给定样本值,给定

13、样本值5,3,7,5,4.将它们从小到大将它们从小到大重新排列重新排列:3,4,5,5,7.经验分布函数为经验分布函数为记记,发生的概率发生的概率.根据贝努利根据贝努利大数定律大数定律,对任意的对任意的,有有事实上,可以证明下述更强的结论:事实上,可以证明下述更强的结论:根据经验分布根据经验分布函数的定义,函数的定义,中不大于中不大于x的个数)的个数)定理定理(格列汶科格列汶科)设总体设总体的分布函数为的分布函数为,当当,经验分布函数,经验分布函数以概率以概率1关于关于一致一致地收敛于地收敛于,即即注:上述定理表明,当样本容量注:上述定理表明,当样本容量充分大时充分大时,样本取值的分布相当准确

14、的反映总体的分布样本取值的分布相当准确的反映总体的分布.总体(理论分布)总体(理论分布)?样本样本样本值样本值统计是从手中已有的资料统计是从手中已有的资料-样本值,去推断样本值,去推断总体的情况总体的情况-总体分布总体分布F(x)的性质的性质.总体分布决定了样本取值的概率规律,也就是总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断样本取到样本值的规律,因而可以由样本值去推断总体总体.样本是联系二者的桥梁样本是联系二者的桥梁由由样样本本值值去去推推断断总总体体情情况况,需需要要对对样样本本值值进进行行“加加工工”,这这就就要要构构造造一一些些样样本本的的函函数

15、数,它它把把样样本中所含的(某一方面)的信息集中起来本中所含的(某一方面)的信息集中起来.四、统计量和抽样分布四、统计量和抽样分布1.统计量统计量这种这种不含任何未知参数的样本的函数称为统计不含任何未知参数的样本的函数称为统计量量.它是完全由样本决定的量它是完全由样本决定的量.几个常见统计量几个常见统计量样本均值样本均值样本方差样本方差它反映了总体均值它反映了总体均值的信息的信息它反映了总体方差它反映了总体方差的信息的信息样本样本k阶原点矩阶原点矩样本样本k阶中心矩阶中心矩k=1,2,它反映了总体它反映了总体k 阶矩阶矩的信息的信息它反映了总体它反映了总体k 阶阶中心矩的信息中心矩的信息2.顺

16、序统计量顺序统计量定义定义:设设为取自总体为取自总体X的样本,的样本,将其按大小顺序排序将其按大小顺序排序则称则称X(k)为第为第k个次序统计量个次序统计量(No.kOrderStatistic)特别地,称特别地,称为最小顺序统计量为最小顺序统计量(MinimumorderStatistic)称称为最大顺序统计量为最大顺序统计量(MaximumorderStatistic)。称称 为偶数为偶数 为奇数为奇数为样本中位数为样本中位数.称称为样本极差,反映了样本的离散为样本极差,反映了样本的离散程度,也反映了总体的离散程度程度,也反映了总体的离散程度.3.抽样分布抽样分布统计量既然是依赖于样本的,

17、而统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随后者又是随机变量,故统计量也是随机变量,因而就有一定的分布,这个机变量,因而就有一定的分布,这个分布叫做分布叫做统计量的统计量的“抽样分布抽样分布”.抽样分布就是通常的随机变量函数的分布抽样分布就是通常的随机变量函数的分布.只是强调这一分布是由一个统计量所产生的只是强调这一分布是由一个统计量所产生的.研研究统计量的性质和评价一个统计推断的优良性,究统计量的性质和评价一个统计推断的优良性,完全取决于其抽样分布的性质完全取决于其抽样分布的性质.抽样分布抽样分布精确抽样分布精确抽样分布渐近分布渐近分布(小样本问题中使用)(小样本问题中使用

18、)(大样本问题中使用(大样本问题中使用)五五.统计三大分布统计三大分布记为记为分布分布1、定义定义:设设相互独立相互独立,都服从正态都服从正态分布分布N(0,1),则称随机变量:则称随机变量:所服从的分布为自由度为所服从的分布为自由度为 n的的 分布分布.分布是由正态分布派生出来的一种分布分布是由正态分布派生出来的一种分布.分布的密度函数为分布的密度函数为来定义来定义.其中伽玛函数其中伽玛函数通过积分通过积分请看演示请看演示 2 2 分布分布由由分布的定义,不难得到:分布的定义,不难得到:1.设设相互独立相互独立,都服从正态分布都服从正态分布则则2.设设且且X1,X2相互相互独立,则独立,则这

19、个性质叫这个性质叫分布的可加性分布的可加性.应用中心极限定理可得,若应用中心极限定理可得,若,则当,则当n充分大时,充分大时,若若的分布近似正态分布的分布近似正态分布N(0,1).则则可以求得,可以求得,E(X)=n,D(X)=2n若若定理(柯赫伦定理)设定理(柯赫伦定理)设相互独立相互独立,都服从正态分布都服从正态分布N(0,1),其中其中是是的秩为的秩为的二次型。则的二次型。则相互独立且相互独立且的充要条件是的充要条件是T的密度函数为:的密度函数为:记为记为Tt(n).所服从的分布为自由度为所服从的分布为自由度为n的的t 分布分布.定定义义:设设XN(0,1),Y,且且X与与Y相相互独立,

20、则称变量互独立,则称变量2、t 分布分布当当n充分大时,其图形类似于标准正态分充分大时,其图形类似于标准正态分布密度函数的图形布密度函数的图形.具有自由度为具有自由度为n的的t分布的随机变量分布的随机变量T的数的数学期望和方差为学期望和方差为:E(T)=0;D(T)=n/(n-2),对对n2t分布的密度函数关于分布的密度函数关于x=0对称,且对称,且由定义可见,由定义可见,3、F分布分布定义定义:设设X与与Y相互相互独立,则称统计量独立,则称统计量服从自由度为服从自由度为n1及及n2的的F分布,分布,n1称为第称为第一自由度,一自由度,n2称为第二自由度,记作称为第二自由度,记作FF(n1,n

21、2).F(n2,n1)即它的数学期望并不依赖于第一自由度即它的数学期望并不依赖于第一自由度n1.X的数学期望为的数学期望为:若若n22若若XF(n1,n2),X的概率密度为的概率密度为请看演示请看演示F分布分布t分布与分布与F分布的关系分布的关系由由t分布的定义,设分布的定义,设其中其中且且X,Y独立独立故故当总体为当总体为正态分布正态分布时,教材上给出了时,教材上给出了几个重要的抽样分布定理几个重要的抽样分布定理.这里我们不加这里我们不加证明地叙述证明地叙述.除定理除定理2外,其它几个定理外,其它几个定理的证明都可以在教材上找到的证明都可以在教材上找到.六、几个重要的抽样分布定理六、几个重要

22、的抽样分布定理定理定理1(样本均值的分布样本均值的分布)设设X1,X2,Xn是取自正态总体是取自正态总体的样本,则有的样本,则有定理定理2(样本方差的分布样本方差的分布)设设X1,X2,Xn是取自正态总体是取自正态总体的样本的样本,分别为样本均值和样本方差分别为样本均值和样本方差,则有则有定理定理3设设X1,X2,Xn是取自正态总体是取自正态总体的样本的样本,分别为样本均值和样本方差分别为样本均值和样本方差,则有则有与相互独立定理定理4(两总体两总体样本样本均值差的分布均值差的分布)分别是这两个样本的分别是这两个样本的且且X与与Y独立独立,X1,X2,是取自是取自X的样本的样本,取自取自Y的样

23、本的样本,分别是这两个样本的样本方差分别是这两个样本的样本方差,均值均值,则有则有Y1,Y2,是是样本样本与相互独立定理定理5(两总体两总体样本样本方差比的分布方差比的分布)分别是这两个样本的分别是这两个样本的且且X与与Y独立独立,X1,X2,是取自是取自X的样本的样本,取自取自Y的样本的样本,分别是这两个样本的样本方差分别是这两个样本的样本方差,均值,均值,则有则有Y1,Y2,是是样本样本若则例例1 1 从正态总体中,抽取了 n=20的样本(1)求(2)求例例2 2 设r.v.X 与Y 相互独立,X N(0,16),Y N(0,9),X1,X2,X9 与Y1,Y2,Y16 分别是取自 X 与

24、 Y 的简单随机样本,求 的分布.例例3 3 设总体为总体 X 试确定常数c,使cY 服从分布.3.单个次序统计量的分布单个次序统计量的分布定理定理1:设总体:设总体X的密度函数为的密度函数为 f(x),分布函数为,分布函数为F(x),为样本,则第为样本,则第k个次序个次序统计量的密度函数为统计量的密度函数为推论推论1:最大次序统计量:最大次序统计量的概率密度函数为的概率密度函数为推论推论2:最小次序统计量:最小次序统计量的概率密度函数为的概率密度函数为xx+xn-kk-11图图5-8x(k)的取值示意图的取值示意图样本的每一分量小于等于样本的每一分量小于等于x 的概率为的概率为F(x),落入

25、落入区间区间(x,x+x概率为概率为F(x+x)-F(x),落入区间落入区间(x+x,b的概率为的概率为1-F(x+x),而将,而将n个分量分成个分量分成这样的三组,总的分法有这样的三组,总的分法有种,于是,若以种,于是,若以Fk(x)记记 的分布函数,则由多的分布函数,则由多项分布可得项分布可得两边同除以两边同除以 x,并令并令 x0,即有即有定理定理2:设总体:设总体X的密度函数为的密度函数为f(x),分布函数为,分布函数为F(x),为样本,则第为样本,则第k个次序统计个次序统计量量和和第第r个次序统计量个次序统计量的联合概率密度函数为的联合概率密度函数为上述上述5个抽样分布定理很重要,个

26、抽样分布定理很重要,要牢固掌握要牢固掌握.七、下侧分位数七、下侧分位数(一)总体分位数(一)总体分位数定义定义1.5.4:设总体设总体X的分布函数为的分布函数为F(x),满足,满足的的x称称为为X的的-下侧下侧分位数分位数,如下,如下图图所示。所示。例如,例如,=0.975,而而所以,所以,Z0.975=1.96.对标准正态分布变量对标准正态分布变量Z,对给定的对给定的(0 1)所确定的点所确定的点即为标准正态分布的即为标准正态分布的-下侧分位下侧分位数数(x)xOZ x oyx使使PXx=,定义定义对总体对总体X和给定的和给定的(0 1),若存在,若存在x,则称则称x 为为X分布的分布的上侧

27、上侧 分位数。分位数。PXx=七、上侧分位数七、上侧分位数PUu=(x)xOu 例如,例如,=0.05,而而PU1.645=0.05所以,所以,u0.05=1.645.对标准正态分布变量对标准正态分布变量U,记分布函数记分布函数为为(x)即即PUu=1-确定的点确定的点u.(u)=位数都在书后附表中可以查到。位数都在书后附表中可以查到。几种常用分布几种常用分布的分的分f(y)xO f(t)tOt(n f(y)xO F(n1,n2)这里要注意到如下几个有用的事实。这里要注意到如下几个有用的事实。,由密度函数的对称性可知由密度函数的对称性可知1)若若2)对于)对于T t(n),同样地,由密度函数的

28、对称性,同样地,由密度函数的对称性可知可知即得即得3)对于)对于F分布分布由于由于所以所以即即的点的点u/2称称为标准正态分布的为标准正态分布的双侧双侧 分位数。分位数。u/2可由可由PUu/2=/2对标准正态分布变量对标准正态分布变量UN(0,1)和给定和给定 的,的,满足满足P|U|u/2=即即(u/2)=1-/2反查标准正态分布表得到,反查标准正态分布表得到,PU1.96=0.05/2例如,求例如,求u0.05/2,得得u0.05/2=1.96(x)Ou/2 /2-u/2 /2x双侧分位数双侧分位数标准正态分布的分位数标准正态分布的分位数 在实际问题中,在实际问题中,常取常取0.1、0.

29、05、0.01.常用到下面几个临界值:常用到下面几个临界值:u0.05=1.645,u0.01=2.326u0.05/2=1.96,u0.01/2=2.575 2 2分布的双侧分布的双侧 分位数分位数 xOf(x)把满足把满足的数的数称为称为 2分布的分布的双侧双侧 分位数分位数.t t分布的双侧分布的双侧 分位数分位数f(t)tOt/2(n)/2 /2-t/2(n)由于由于t 分布的对称性,称满足条件分布的对称性,称满足条件的数的数t/2(n)为为t分布的分布的双侧双侧 分位数或双侧临界值分位数或双侧临界值,F F 分布的双侧分布的双侧 分位数分位数称满足条件称满足条件为为F分布的分布的双侧双侧 分位数分位数的的f(y)xO /2 /2(二)样本分位数(二)样本分位数定义定义:设:设为取自总体为取自总体X的的为样本为样本p分位数分位数。(。(SamplepQuantile)特别地,当特别地,当p=时,称时,称mp为为样本中位数样本中位数。次序统计量,称次序统计量,称mp

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!