试验设计与分析(园艺)第二章理论分布与抽样分布

上传人:仙*** 文档编号:34399419 上传时间:2021-10-21 格式:PPT 页数:88 大小:2.21MB
收藏 版权申诉 举报 下载
试验设计与分析(园艺)第二章理论分布与抽样分布_第1页
第1页 / 共88页
试验设计与分析(园艺)第二章理论分布与抽样分布_第2页
第2页 / 共88页
试验设计与分析(园艺)第二章理论分布与抽样分布_第3页
第3页 / 共88页
资源描述:

《试验设计与分析(园艺)第二章理论分布与抽样分布》由会员分享,可在线阅读,更多相关《试验设计与分析(园艺)第二章理论分布与抽样分布(88页珍藏版)》请在装配图网上搜索。

1、第二章 理论分布与抽样分布 n第一节第一节 试验数据资料的整理与描述试验数据资料的整理与描述 n第二节第二节 二项分布二项分布 n第三节第三节 正态分布正态分布 n第四节第四节 抽样分布抽样分布 第一节第一节 试验数据资料的整理与描述试验数据资料的整理与描述一、相关统计学术语一、相关统计学术语二、试验数据资料的性质二、试验数据资料的性质 三、次数分布表与分布图三、次数分布表与分布图 四、数量资料的特征数四、数量资料的特征数一、相关统计学术语一、相关统计学术语1 数据与变量数据与变量数据:组成样本的每种性状的观察值的集合,也称资料数据:组成样本的每种性状的观察值的集合,也称资料变量:构成数据的每

2、一个观察值变量:构成数据的每一个观察值2 参数与统计数参数与统计数参数:由总体的全部变量计算所得到的总体某一特征数,参数:由总体的全部变量计算所得到的总体某一特征数,用希腊字母表示,用希腊字母表示,如如表示总体平均数,表示总体平均数,表示总体标准差表示总体标准差 统计数:由样本的全部变量计算所得到的样本某一特征数,统计数:由样本的全部变量计算所得到的样本某一特征数,用拉丁字母表示,用拉丁字母表示,如如 表示样本平均数,表示样本平均数,s 表示样本标准差表示样本标准差 x二、试验数据资料的性质二、试验数据资料的性质 1 数量性状资料(数量性状资料(quantitative trait) 指可以通

3、过一定的度量方式而用数字描述的性状,指可以通过一定的度量方式而用数字描述的性状,其度量有计数和量测两种方式,其所得的变量不同其度量有计数和量测两种方式,其所得的变量不同 (1)不连续性或间断性变量)不连续性或间断性变量:指用计数方法获得的资料,:指用计数方法获得的资料,如出苗数、叶片数等,其各个观察值必须以整数表示,如出苗数、叶片数等,其各个观察值必须以整数表示,不允许有带小数点的数值存在。不允许有带小数点的数值存在。 (2)连续性变量)连续性变量:指用称量、度量或测量方法得到:指用称量、度量或测量方法得到的数据,如千粒重等,其各个观察值并不限于整数,的数据,如千粒重等,其各个观察值并不限于整

4、数,小数位数的多少,因称量的精度而异小数位数的多少,因称量的精度而异 二、试验数据资料的性质二、试验数据资料的性质 2 质量性状资料(质量性状资料(qualitative trait) 指只能观察叙述而不能测量的性状,即属性性状指只能观察叙述而不能测量的性状,即属性性状如果实的色泽、叶色、叶片上毛茸的有无等如果实的色泽、叶色、叶片上毛茸的有无等 要获得这些性状的数量资料,可采用下列要获得这些性状的数量资料,可采用下列 3 种方法种方法 三、次数分布表与分布图三、次数分布表与分布图 1 不连续性数量性状变量资料的整理不连续性数量性状变量资料的整理 采用单项式分组法进行整理采用单项式分组法进行整理

5、特点:用样本变量自然值进行分组,每组均用一个或特点:用样本变量自然值进行分组,每组均用一个或几个观察值来表示。分组时,可将数据资料中每个观几个观察值来表示。分组时,可将数据资料中每个观察值分别归入相应的组内,然后制成次数分布表。察值分别归入相应的组内,然后制成次数分布表。 (1)如果观察值个数较少,或变异幅度较小,)如果观察值个数较少,或变异幅度较小, 就以每一个变量为一组进行整理。就以每一个变量为一组进行整理。(2)如果观察值个数较多,或变异幅度较大,)如果观察值个数较多,或变异幅度较大, 就以相邻的几个变量为一组进行整理。就以相邻的几个变量为一组进行整理。三、次数分布表与分布图三、次数分布

6、表与分布图第第11页,页, 例例1-2-1,100个麦穗的每穗小穗数个麦穗的每穗小穗数18151719161520181917171817161820191716181716171918181717171818151618181817201918171915171717161718181719191719171816181717191616171717151716181918181919201716191817182019161819171615161817181717161917三、次数分布表与分布图三、次数分布表与分布图每穗小穗数每穗小穗数( y )次数次数( f )频次(频次(f/y)1

7、560.0616150.1517320.3218250.2519170.172050.05合计合计1001100个麦穗每穗小穗数的次数分布表(图)个麦穗每穗小穗数的次数分布表(图) 频率频率小穗数小穗数三、次数分布表与分布图三、次数分布表与分布图2 连续性数量性状变量资料的整理连续性数量性状变量资料的整理 类似于不连续性变量资料的第类似于不连续性变量资料的第2种情况(第种情况(第12页例页例1-2-2)1.831.771.811.811.801.791.821.821.811.811.871.781.801.811.871.811.771.781.771.781.771.771.711.951

8、.781.811.791.801.771.761.821.801.821.791.901.821.791.821.791.861.761.781.831.751.781.731.831.811.811.831.891.811.861.821.821.841.841.841.811.811.741.781.781.801.741.781.791.851.751.711.711.881.821.761.851.731.781.791.771.781.871.871.831.651.641.781.751.821.801.771.811.831.831.901.801.851.811.771.781

9、.841.851.841.851.851.841.821.851.841.781.78120个黄瓜叶片中叶绿素个黄瓜叶片中叶绿素a含量的测定值含量的测定值三、次数分布表与分布图三、次数分布表与分布图2 连续性数量性状变量资料的整理连续性数量性状变量资料的整理 (1)求极差)求极差极差:所有数据中最大观察值与最小观察值的差值,极差:所有数据中最大观察值与最小观察值的差值,也称全距。表示整个样本的变异幅度。用也称全距。表示整个样本的变异幅度。用R表示。表示。 R= (1.95-1.64) mg/g鲜重鲜重=0.31 mg/g鲜重鲜重(2)确定组数)确定组数组数要根据样本的容量、组数要根据样本的容量

10、、全距、便于计算、能反映全距、便于计算、能反映资料的真实面貌等因素来资料的真实面貌等因素来确定。确定。 样本容量样本容量分组数分组数30-605-860-1007-10100-2009-15200-50012-18500以上以上15-30三、次数分布表与分布图三、次数分布表与分布图2 连续性连续性数量性状数量性状变量资料的整理变量资料的整理 (3)计算组距)计算组距组距:每组内的上下限范围。组距:每组内的上下限范围。分组时要求各组的距离相同,即各组是等组距的分组时要求各组的距离相同,即各组是等组距的 。 组距组距=极差极差/组数组数 = 0.31/15 mg/g鲜重鲜重0.02mg/g鲜重鲜重

11、三、次数分布表与分布图三、次数分布表与分布图2 连续性数量性状变量资料的整理连续性数量性状变量资料的整理 (4)确定组限与组中值)确定组限与组中值组限:每组观察值的界限。包括上限和下限。组限:每组观察值的界限。包括上限和下限。 组限要明确,最好比原始资料的数字多一位小数,这样可使组限要明确,最好比原始资料的数字多一位小数,这样可使观察值归组时不至于含糊不清。观察值归组时不至于含糊不清。 为了把资料中最小和最大的观察值包括在内,为了把资料中最小和最大的观察值包括在内,最小一组的下限必须小于最小观察值,最小一组的下限必须小于最小观察值,最大一组的上限必须大于最大观察值。最大一组的上限必须大于最大观

12、察值。 组中值:每组下限和上限的中间值。组中值:每组下限和上限的中间值。为了避免第一组中观察值数过多,一般第一组的组中值最好接为了避免第一组中观察值数过多,一般第一组的组中值最好接近或等于资料中的最小值。近或等于资料中的最小值。组中值组中值=(下限(下限+上限)上限)/2=下限下限+1/2组距组距=上限上限-1/2组距组距 三、次数分布表与分布图三、次数分布表与分布图 2 连续性变量资料的整理连续性变量资料的整理 频率频率叶绿素叶绿素a含量(含量(mg/g鲜重)鲜重)三、次数分布表与分布图三、次数分布表与分布图属性分组属性分组次次 数数频率频率有色非糯有色非糯4910.6608有色糯性有色糯性

13、760.1023无色非糯无色非糯900.1211无色糯性无色糯性860.1158合合 计计74313 质量性状变量资料的整理质量性状变量资料的整理 整理前,把资料按各种质量性状进行分类,分类数等于组数,整理前,把资料按各种质量性状进行分类,分类数等于组数,根据各个观察值在质量属性上的具体表现,归入相应的组内,根据各个观察值在质量属性上的具体表现,归入相应的组内,即可得到属性分布的规律性认识。即可得到属性分布的规律性认识。 第第14页页 例例1-2-3,水稻杂种,水稻杂种F2代植株米粒性状的分离情况代植株米粒性状的分离情况 四、数量资料的特征数四、数量资料的特征数120个黄瓜叶片中个黄瓜叶片中叶

14、绿素叶绿素a含量的含量的次数分布图次数分布图 集中性集中性离散性离散性变异数变异数平均数平均数(一)平均数(一)平均数1.平均数的意义平均数的意义l数据资料的数据资料的代表值代表值,表示全部观察值的中心位置,代表该组,表示全部观察值的中心位置,代表该组数据与其他数据进行比较数据与其他数据进行比较2.平均数的种类平均数的种类 nxnxnxxxxxniin1321l 算术平均数:算术平均数:nnnnxxxxxxxxG1321321l 几何平均数:几何平均数:l 中位数:中位数:大小居中的观察值(大小居中的观察值(Md )l 众数:众数:次数最多的观察值(次数最多的观察值(M0)(一)平均数(一)平

15、均数3.算术平均数的性质算术平均数的性质l离均差之和为零离均差之和为零,即各观察值与其平均数之差的总和,即各观察值与其平均数之差的总和等于零等于零 )(xx0 xxnxnxxx0)(xxxnx(一)平均数(一)平均数3.算术平均数的性质算术平均数的性质l离均差平方和最小离均差平方和最小,即各观察值与其,即各观察值与其平均数平均数的差数的平方的的差数的平方的总和,小于各观察值与总和,小于各观察值与任何一个数值任何一个数值的差数的平方的总和的差数的平方的总和 22)()(axxx xa)0(2)(ax2)(xx)(2)(22xxxx2)(xx22)(2)(nxxxx0222)()(xxax0)(x

16、x22)(2)(xxxx(二)变异数(二)变异数1.引入变异数的意义引入变异数的意义l平均数作为数据资料的代表,其代表性的强弱由平均数作为数据资料的代表,其代表性的强弱由各观察值变异程各观察值变异程度的大小决定度的大小决定 A组组 10;8;10 ;11;11B组组 2;18;8;15;7 10 x10 xl使用平均数描述数据资料是不够的使用平均数描述数据资料是不够的,还需要引进一个还需要引进一个表示变异程度的统计数,即表示变异程度的统计数,即变异数变异数l常用的有常用的有极差极差、方差方差、标准差标准差和和变异系数变异系数(二)变异数(二)变异数2.极差极差l定义:定义:又称全距(又称全距(

17、R),最大和最小观察值的差值最大和最小观察值的差值 l缺点:由观察值中两个极端值决定,不能反映全部观缺点:由观察值中两个极端值决定,不能反映全部观察值的信息,而且容易受资料中不正常极端值的影响察值的信息,而且容易受资料中不正常极端值的影响l优点:快速简单优点:快速简单A组组 10;8;10 ;11;11 R=3B组组 2;18;15;8;7 R=16C组组 2;18;10;10;10 R=1610 x10 x10 x(二)变异数(二)变异数3.方差方差l离均差离均差:可以反映全部观察值的变异情况,但:可以反映全部观察值的变异情况,但 0)(xx2)(xxSSA组组 8;8;12;12B组组 8

18、;1210 x10 x8SS16SSl平方和平方和:各个离均差的平方的总和:各个离均差的平方的总和(二)变异数(二)变异数3.方差方差l方差方差:用观察值数目来除平方和用观察值数目来除平方和 1)(22nxxsNx22)(为什么用为什么用n-1,而不用而不用n?l总体方差总体方差:l样本方差样本方差:(二)变异数(二)变异数 22)()(xxx估计估计xln-1-1称为称为自由度自由度(df)xl多数情况下:多数情况下:l这样,用这样,用样本样本SS代替总体代替总体SS就会使就会使2值偏小,为了值偏小,为了校正,分母使用较小的校正,分母使用较小的n-1-1而不是而不是nl当当n30时,分母必须

19、使用时,分母必须使用n-1-1,当,当n30时,时,n和和n-1-1差异不大,分母可使用差异不大,分母可使用n估计估计1)(22nxxsNx22)((二)变异数(二)变异数4.标准差标准差l方差的缺点方差的缺点度量单位也平方度量单位也平方平方使数值的量增大,与实际变异度有差距平方使数值的量增大,与实际变异度有差距 1)(2nxxsl标准差标准差:方差的平方根:方差的平方根l标准差的优点:保留方差的优点;度量单位上与平标准差的优点:保留方差的优点;度量单位上与平均数一致;在数量水平上也比较客观均数一致;在数量水平上也比较客观sx l数量资料的表示方法:数量资料的表示方法:(二)变异数(二)变异数

20、5.变异系数变异系数l标准差的缺点标准差的缺点:比较两个样本的变异程度时,两个样本比较两个样本的变异程度时,两个样本的单位、平均数和性质必须相同的单位、平均数和性质必须相同 %100 xsCVl如果不同,需要引入表示相对变异程度的变异数,如果不同,需要引入表示相对变异程度的变异数,即变异系数(即变异系数(CV)l变异系数在田间试验中有重要用途,如在空白试验时,可作为变异系数在田间试验中有重要用途,如在空白试验时,可作为土壤差异的指标。但变异系数同时受标准差和平均数的影响,土壤差异的指标。但变异系数同时受标准差和平均数的影响,因此,在使用变异系数时,要同时列举平均数和标准差,否则因此,在使用变异

21、系数时,要同时列举平均数和标准差,否则可能会引起误解。可能会引起误解。(二)变异数(二)变异数5.变异系数变异系数l例:小麦例:小麦A品种的株高为品种的株高为959.02(cm),B品种为品种为758.50(cm),问哪个品种株高,问哪个品种株高整齐度整齐度好?好? %5 . 9%1009502. 9ACV%3 .11%1007550. 8BCV直接用标准差比较:直接用标准差比较:9.028.50(cm),B品种较整齐品种较整齐但二者平均数不相同,需用变异系数比较:但二者平均数不相同,需用变异系数比较:9.511.3(%),),A品种较整齐品种较整齐(三)自由度的含义(三)自由度的含义自由度自

22、由度l样本内独立而能自由变动的离均差个数样本内独立而能自由变动的离均差个数 如一个样本为(如一个样本为(3,4,5,6,7),平均数为),平均数为5,前面,前面4个数的离个数的离均差分别为均差分别为2,1,0,1,那么第,那么第5个数的离均差必须为个数的离均差必须为2,才,才能满足各观察值的离均差之和为零这个特性。能满足各观察值的离均差之和为零这个特性。一般来说,样本自由度等于观察值的个数(一般来说,样本自由度等于观察值的个数(n)减受条件约束的个)减受条件约束的个数(数(k),即),即df= nk在应用上,小样本一定要用自由度来估计标准差,大样本的在应用上,小样本一定要用自由度来估计标准差,

23、大样本的n和和n1相差不大,也可不用自由度,而直接用相差不大,也可不用自由度,而直接用n作除数。但大样本与小样作除数。但大样本与小样本之间没有明确的界限和统一的规定,所以一般样本在估计标准差本之间没有明确的界限和统一的规定,所以一般样本在估计标准差时,都用自由度。时,都用自由度。(四)标准差的计算(四)标准差的计算1、直接计算、直接计算 在直接计算标准差时,先求出在直接计算标准差时,先求出 ,再求,再求 ,最后再,最后再计算计算s。这样比较麻烦,而且当。这样比较麻烦,而且当 由四舍五入而来时,容易引起计由四舍五入而来时,容易引起计算误差。所以将算误差。所以将 作如下变形:作如下变形:2、利用矫

24、正数、利用矫正数xx2xxx矫正数,矫正数,Cn120个黄瓜叶片中叶绿素个黄瓜叶片中叶绿素a含量的平均数与标准差含量的平均数与标准差80. 112037.198nxx25. 0112012037.1989731.3571222nnxxsmg/g鲜重鲜重mg/g鲜重鲜重(四)标准差的计算(四)标准差的计算3、减去常数法、减去常数法 如果观察值较大或较小,可将各观察值都减去(或加上)一个常数,如果观察值较大或较小,可将各观察值都减去(或加上)一个常数,所得的所得的s值不变。值不变。第二节第二节 二项式分布二项式分布一、二项总体一、二项总体二、二项式分布二、二项式分布三、二项式分布的概率计算方法三、

25、二项式分布的概率计算方法四、二项式分布的形状四、二项式分布的形状五、二项式分布的参数五、二项式分布的参数六、多项式分布六、多项式分布七、泊松分布七、泊松分布一、二项总体一、二项总体n二项总体:由非此即彼的两项(对立事件)构成的总体二项总体:由非此即彼的两项(对立事件)构成的总体n黄瓜种子发芽和不发芽黄瓜种子发芽和不发芽n桃果实的有毛和无毛桃果实的有毛和无毛n豌豆的黄色与绿色、圆粒与皱粒等豌豆的黄色与绿色、圆粒与皱粒等n“此此”事件以变量事件以变量“1”表示,具概率表示,具概率p; “彼彼”事件以事件以变量变量“0”表示,具概率表示,具概率q。因而二项总体又称为。因而二项总体又称为0- -1总体

26、,总体,其概率则显然有:其概率则显然有:p + q=1或或q=1p二、二项式分布二、二项式分布n二项式分布:如果从二项总体进行二项式分布:如果从二项总体进行n次重复抽次重复抽样,设出现样,设出现“1”的次数为的次数为k,那么,那么k的取值可能的取值可能为为0、1、2、n,共有,共有n+1种可能取值,这种可能取值,这n+1种取值各有其概率,因而由变量种取值各有其概率,因而由变量k及其概率及其概率就构成了一个分布,这个分布叫做二项式概率就构成了一个分布,这个分布叫做二项式概率分布,简称二项式分布或二项分布分布,简称二项式分布或二项分布三、二项式分布的概率计算方法三、二项式分布的概率计算方法n例:在

27、两个班例:在两个班6363名学生中,有名学生中,有3030名女学名女学生(生(1 1),),3333名男学生(名男学生(0 0)。如果从全)。如果从全体学生中抽取体学生中抽取3 3人次参加志愿者,那么女人次参加志愿者,那么女学生被抽到学生被抽到2 2次的概率是多少?次的概率是多少?第第1次抽取次抽取第第2次抽取次抽取第第3次抽取次抽取事件概率事件概率性别性别 概率概率 性别性别 概率概率性别性别概率概率130/63130/63130/63(30/63)3033/63(30/63)2(33/63)033/63130/63(30/63)2(33/63)033/63(30/63) (33/63)20

28、33/63130/63130/63(30/63)2(33/63)033/63(30/63) (33/63)2033/63130/63(30/63) (33/63)2033/63(33/63)3n3个个“1”的概率:的概率: (30/63)3=27000/250047n2个个“1”、1个个“0”的概率:的概率:n 3*(30/63)2 (33/63)=89100/250047n1个个“1”、2个个“0”的概率:的概率:n3*(30/63) (33/63) 2 =98010/250047n3个个“0”的概率:的概率: (33/63)3 =35937/250047n总概率:总概率:(27000+89

29、100+98010+35937)/250047=1 n女学生被抽到女学生被抽到2次的概率次的概率n3*(30/63)2 (33/63)=89100/250047n每一个复合事件的概率必等于该事件出现的组每一个复合事件的概率必等于该事件出现的组合数目乘以单个事件的概率合数目乘以单个事件的概率n这一复合事件的可能组合数目则相当于从这一复合事件的可能组合数目则相当于从n个个物体中任取物体中任取k个物体的组合数个物体的组合数 n二项分布的概率计算公式二项分布的概率计算公式)!( !knknCkn knkknqpCkxP )()()(应用举例(应用举例(P19:例:例1-3-1)n一批玉米种子的出苗率为

30、一批玉米种子的出苗率为0.8,现每穴播,现每穴播5粒,问粒,问每穴出每穴出3棵苗的概率是多少?棵苗的概率是多少? 2048. 02 . 08 . 0! 2 ! 3! 5)2 . 0()8 . 0()3(232335CxPn问每穴至少出问每穴至少出2棵苗的概率是多少?棵苗的概率是多少?应用举例(应用举例(P19:例:例1-3-1) 99328.02 .08 .0! 3 !2! 52 .08 .0!2 ! 3! 52 .08 .0! 1 !4! 52 .08 .0!0 ! 5! 5)2 .0()8 .0()2 .0()8 .0()2 .0()8 .0()2 .0()8 .0()2()3()4()5

31、()2(322314053225233514450555CCCCxPxPxPxPxP 99328. 02 . 08 . 0! 4 ! 1! 52 . 08 . 0! 5 ! 0! 51)2 . 0() 8 . 0()2 . 0() 8 . 0(1) 1()0(1)2(415041155005CCxPxPxP四、二项式分布的形状四、二项式分布的形状n左图为上述抽取男女学生的概率分布图左图为上述抽取男女学生的概率分布图n右图为学生总数为右图为学生总数为64名,男女学生各为名,男女学生各为32名的概率分布图名的概率分布图n如果如果p=q,二项式分布呈对称形状,如果,二项式分布呈对称形状,如果pq,则

32、表现偏斜,则表现偏斜形状。如果形状。如果n足够大,即使足够大,即使pq,图形也对称。,图形也对称。当当 n时,就变为二项分布的极限分布,即正态分布时,就变为二项分布的极限分布,即正态分布五、二项式分布的参数五、二项式分布的参数n平均数平均数和方差和方差2(或标准差(或标准差)是描述总体分布)是描述总体分布的两个重要参数的两个重要参数n二项式分布的二项式分布的=np、2 =npq、n如抽取学生参加志愿者的实验中,女学生被抽中如抽取学生参加志愿者的实验中,女学生被抽中的平均人次数为的平均人次数为 =np=3*(30/63)=1.43人次人次npq 人次人次865. 0(33/63) (30/63)

33、*3 npq 六、多项式分布六、多项式分布n多项总体:如果总体内包含多项总体:如果总体内包含2种以上的特性或分类种以上的特性或分类标志,可以将总体中的个体分为几类,这样的总体标志,可以将总体中的个体分为几类,这样的总体称为多项总体。称为多项总体。n如:给某一人群使用一种新药,可能有的疗效好,如:给某一人群使用一种新药,可能有的疗效好,有的无疗效,而有的会产生副作用。有的无疗效,而有的会产生副作用。n多项式分布:研究多项总体随机变量的概率分布。多项式分布:研究多项总体随机变量的概率分布。 四、泊松分布四、泊松分布 n如果在二项分布中,如果在二项分布中,p或或q很小而很小而n很大时,它描述的是很大

34、时,它描述的是大量试验中的随机稀疏现象,这样的分布为二项分布大量试验中的随机稀疏现象,这样的分布为二项分布的极限分布,称为泊松概率分布,简称的极限分布,称为泊松概率分布,简称泊松分布泊松分布。n某种昆虫在一定面积上的分布等某种昆虫在一定面积上的分布等n泊松分布的概率函数为泊松分布的概率函数为n其中,其中,=np;k=0,1,2,; e=2.71828为为自然对数的底数自然对数的底数!)(kekxPk n泊松分布的泊松分布的=;2=。n泊松分布的形状由泊松分布的形状由的大的大小决定。小决定。n当当值小时分布呈很偏斜值小时分布呈很偏斜形状,形状,增大后则逐渐对增大后则逐渐对称,趋近于下面要讲的称,

35、趋近于下面要讲的正态分布。正态分布。n实例:实例:P20例例1-3-2。 第三节第三节 正态分布正态分布一、研究正态分布的意义一、研究正态分布的意义 二、正态分布的定义二、正态分布的定义三、正态分布曲线的特征三、正态分布曲线的特征四、正态分布的标准化四、正态分布的标准化五、正态分布的概率计算五、正态分布的概率计算六、两尾概率和一尾概率六、两尾概率和一尾概率 一、研究正态分布的意义一、研究正态分布的意义n什么是正态?什么是正态?n试验中许多数量指标总是在正常范围内有差试验中许多数量指标总是在正常范围内有差异,偏离正常,表现过高或过低的情况总是异,偏离正常,表现过高或过低的情况总是比较少,而且越不

36、正常的可能性越少,这就比较少,而且越不正常的可能性越少,这就是所谓的常态或称为是所谓的常态或称为“正态正态”。n正态分布是连续性变数的理论分布。正态分布是连续性变数的理论分布。 n研究正态分布的意义:研究正态分布的意义:n客观世界中有许多现象的数据服从正态分布;客观世界中有许多现象的数据服从正态分布;n适当条件下可以用来做二项分布和其它间断性适当条件下可以用来做二项分布和其它间断性或连续性分布的近似分布;或连续性分布的近似分布;n虽然有些总体并不服从正态分布,但从总体中虽然有些总体并不服从正态分布,但从总体中抽出的样本平均数和其它一些统计数的分布,抽出的样本平均数和其它一些统计数的分布,在样本

37、容量大时仍然趋近正态分布。在样本容量大时仍然趋近正态分布。二、正态分布的定义二、正态分布的定义n如果连续性随机变量如果连续性随机变量x的概率分布密度函数为的概率分布密度函数为n则称随机变量则称随机变量x服从服从正态分布正态分布,记为,记为xN(,2)。)。n其中,其中,为平均数,为平均数,2为方差,为方差,N专指正态曲线专指正态曲线n其概率分布函数为其概率分布函数为exNxf222)(2)( 1dxxFxxe 222)(2)( 1三、正态分布曲线的特征三、正态分布曲线的特征(1)正态分布曲线是)正态分布曲线是以以x=为对称轴的对为对称轴的对称曲线,且当称曲线,且当x=时时有最大值有最大值f()

38、。其)。其算术平均数、中数和算术平均数、中数和众数均为众数均为。 )(yfN(2)正态分布曲线是以参数)正态分布曲线是以参数和和的不同而表现为的不同而表现为一系列曲线,一系列曲线,确定它在横轴上的位置,而确定它在横轴上的位置,而确定确定它的宽窄。它的宽窄。 (3)正态分布资料的次)正态分布资料的次数分布表现为多数次数数分布表现为多数次数集中于算术平均数集中于算术平均数附附近,且在近,且在x-左右左右相等范围内具有相等次相等范围内具有相等次数;在数;在x- 3以上以上次数极少。次数极少。0.00.10.20.30.4 68.27%95.45%)(yfN22(4)正态曲线在正态曲线在x- = 1处

39、有处有“拐点拐点”。曲线曲线两尾向左右伸展,永不接触横轴,所以当两尾向左右伸展,永不接触横轴,所以当y,分布曲线以分布曲线以x轴为渐近线,曲线全距为(轴为渐近线,曲线全距为(,+)。)。(5) 正态曲线与横轴之间的总面积等于正态曲线与横轴之间的总面积等于1,因此在,因此在曲线下横轴的任何定值,例如从曲线下横轴的任何定值,例如从x=x1到到x=x2之间的之间的面积,等于介于这两个定值间面积占总面积的成面积,等于介于这两个定值间面积占总面积的成数,或者说等于数,或者说等于x落于这个区间内的概率。落于这个区间内的概率。n正态曲线的任意正态曲线的任意x1到到x2之间的面积或概率之间的面积或概率乃完全以

40、曲线的乃完全以曲线的和和确定的。确定的。区间区间1231.962.58面积或概率面积或概率 0.68270.95450.99730.95000.9900应用举例n水稻水稻140行产量资料的样本分布表现出接近行产量资料的样本分布表现出接近正态分布,其正态分布,其 =157.9g,s=36.4gxks数值数值(g)区间区间(g)区间内包括的次数区间内包括的次数次数次数%1s157.9 36.4121.5194.5 99 70.712s157.9 72.8 85.1230.7134 95.713s157.9109.2 48.7267.1140100.00 xxxxn=3n逐渐增大逐渐增大n四、正态分

41、布的标准化四、正态分布的标准化n正态分布的参数为正态分布的参数为n=0、2=1时的正态时的正态分布称为标准正态分布称为标准正态分布分布n记作记作uN(0,1) dxxxfN)( 22dxxfxN)()( 0.00.10.20.30.4fN(u)u 68.27%95.45% -3 -2 -1 0 1 2 3exNxf222)(2)( 1dxxFxxe 222)(2)( 12221)(ueu uudueu2221)( 概率密度函数概率密度函数 概率分布函数概率分布函数 /psai/ /fai/ n标准化变换:标准化变换:nu称为标准正态变量或标准正态离差称为标准正态变量或标准正态离差n附表附表2为

42、正态分布表,从中可以查到为正态分布表,从中可以查到u在某在某一个区间内取值的概率一个区间内取值的概率 xu五、正态分布的概率计算五、正态分布的概率计算(1)标准正态分布的概率计算)标准正态分布的概率计算nu在在u1,u2内取值的概率为:内取值的概率为: P(u2)(u1)n(u2)和和(u1)可由附表可由附表2查得。查得。u1 u2P(u1uu2) fN(u)un其它计算:其它计算:nP(0uu1)(u1) 0.5nP(uu1) 1(u1)nP(|u| u1) 21(u1) 1P(u1uu1) nP (|u| u1) 21(u1)n熟记以下几种概率熟记以下几种概率nP(1u1 ) 0.6826

43、nP(2u2 ) =0.9545nP(3u3 ) =0.9973nP(1.96u1.96 ) =0.95nP(2.58u2.58 ) =0.99(2)一般正态分布的概率)一般正态分布的概率计算计算n将区间的上下限作标准将区间的上下限作标准化变换,查附表化变换,查附表2计算。计算。n如:设如:设x服从服从30.26,25.102的正态分布,的正态分布,求求P(21.64x32.98)。)。n令令n则则 P(21.64x32.98) P(-1.69u0.53) =0.65643 xu69. 110. 526.3064.211 u53. 010. 526.3098.322 u六、两尾概率和一尾概率六

44、、两尾概率和一尾概率n两尾概率:随机变量两尾概率:随机变量x落在落在k区间之外的概区间之外的概率。率。n一尾概率:随机变量一尾概率:随机变量x小于小于k或大于或大于k的概率。的概率。n利用附表利用附表3可查得已知两尾概率时的可查得已知两尾概率时的u值。值。应用举例应用举例n如从附表如从附表3可查得可查得 P=0.01时时u=2.5758,即表示:,即表示: P(|u|2.5758)=0.01 P=0.05时时u=1.9599,即表示:,即表示: P(|u|1.9599)=0.05 n如果仅计算一尾,则为两尾概率值的如果仅计算一尾,则为两尾概率值的1/2。例如计算。例如计算 P(u1.6448)

45、=1/2*P(|u|1.6448) =1/2* (0.1)=0.05第四节第四节 抽样分布抽样分布 一、引言一、引言二、样本平均数的抽样分布二、样本平均数的抽样分布三、样本总和数的抽样分布三、样本总和数的抽样分布四、两个独立随机样本平均数差数的抽样分布四、两个独立随机样本平均数差数的抽样分布五、正态总体抽样的分布规律五、正态总体抽样的分布规律 六、二项成数分布六、二项成数分布 七、二项次数分布七、二项次数分布一、引言一、引言n统计学主要任务:统计学主要任务:总体总体和和样本样本的关系的关系n研究方向研究方向n总体总体样本(样本(抽样分布抽样分布)n样本样本总体(总体(统计推断统计推断)n抽样分

46、布:从总体中随机抽取若干样本,样本抽样分布:从总体中随机抽取若干样本,样本观察值的统计数分布。观察值的统计数分布。 n抽样分布是统计推断的基础抽样分布是统计推断的基础 总体总体1 2 3 无穷无穷随机样本随机样本二、样本平均数的抽样分布二、样本平均数的抽样分布n从容量为从容量为N N的有限总体中抽样,若每次抽取容量为的有限总体中抽样,若每次抽取容量为n n的样的样本,那么一共可以得到本,那么一共可以得到N Nn n个样本。个样本。n每个样本可以计算一个平均数,所有可能的样本的平均每个样本可以计算一个平均数,所有可能的样本的平均数集合起来便构成一个新总体。数集合起来便构成一个新总体。n每个样本平

47、均数构成新总体的一个随机变量,其概率分每个样本平均数构成新总体的一个随机变量,其概率分布称为布称为样本平均数抽样分布样本平均数抽样分布。n样本平均数与原总体平均数相比往往表现出不同程度的样本平均数与原总体平均数相比往往表现出不同程度的差异,这种差异是由随机抽样造成的,称为差异,这种差异是由随机抽样造成的,称为抽样误差抽样误差。n样本平均数抽样总体的标准差称为样本平均数抽样总体的标准差称为标准误标准误。 n样本平均数抽样总体与原总体特征参数的关系样本平均数抽样总体与原总体特征参数的关系 x nnxx 22实例验证n设有一个包含设有一个包含4个个体个个体的有限总体(的有限总体(N4),),变量为变

48、量为2、3、4、5。从。从该总体中抽取样本容量该总体中抽取样本容量n2的复置随机抽样,的复置随机抽样,计算样本平均数总体的计算样本平均数总体的平均数与标准差。平均数与标准差。 第第1次抽样次抽样第第2次抽样次抽样平均数平均数22232.54353.5322.53343.55442333.54454.5523.53444.555n样本平均数抽样总体样本平均数抽样总体n原总体原总体5 . 31655 . 4*24*35 . 3*43*35 . 2*22 x 625. 016)5 . 35()5 . 35 . 4(*2)5 . 34(*316)5 . 35 . 3(*4)5 . 33(*3)5 .

49、35 . 2(*2)5 . 32(22222222 x 5 . 345432 25. 144)5432()5432(222222 625. 0225. 122 n总体变量总体变量x与样本平均数变量与样本平均数变量 概率分布间的关系:概率分布间的关系: (1)若总体随机变量)若总体随机变量x服从正态分布,则从此总体服从正态分布,则从此总体中抽取的随机样本的统计数也是正态分布。中抽取的随机样本的统计数也是正态分布。 (2)若随机变量)若随机变量x不服从正态分布,则从此总体中不服从正态分布,则从此总体中抽取的随机样本的统计数的概率分布,当抽取的随机样本的统计数的概率分布,当n很大时逼很大时逼近正态分

50、布。这就是近正态分布。这就是中心极限定理中心极限定理。x三、样本总和数的抽样分布三、样本总和数的抽样分布n样本总和数的抽样分布参数与母总体的关系:样本总和数的抽样分布参数与母总体的关系: (1)该抽样分布的平均数与母总体的平均数之)该抽样分布的平均数与母总体的平均数之间的关系为:间的关系为: 。 (2)该抽样分布的方差与母总体方差的关系)该抽样分布的方差与母总体方差的关系为:为: 。 nx 22 nx 四、两个独立随机样本四、两个独立随机样本 平均数差数的抽样分布平均数差数的抽样分布n如果从一个总体中随机地抽取一个样本容量为如果从一个总体中随机地抽取一个样本容量为n1的样本,同时随机独立地从另

51、外一个总体中的样本,同时随机独立地从另外一个总体中抽取一个样本容量为抽取一个样本容量为n2的样本,那么可以得到的样本,那么可以得到分别属于两个总体的样本,其平均数分别用分别属于两个总体的样本,其平均数分别用 和和 表示,方差分别用表示,方差分别用 和和 表示。表示。n设这两个样本所来自的两个总体的平均数分别设这两个样本所来自的两个总体的平均数分别为为 和和 ,方差分别为,方差分别为 和和 。 21x 1x2x22x 22 21 1 2 n这两个独立随机抽取的样本平均数间差数这两个独立随机抽取的样本平均数间差数( )的抽样分布参数与两个原总体间的关系:的抽样分布参数与两个原总体间的关系:21xx

52、 2121 xx2221212222121nnxxxx 实例验证实例验证n第一个总体包含第一个总体包含3个观察值,个观察值,2、4、6(N13),抽取的样本容量为),抽取的样本容量为2(n12)。所有的)。所有的样本数为样本数为Nn32=9。n第二个总体包含第二个总体包含2个观察值,个观察值,3、6(N22),),抽取的样本容量为抽取的样本容量为3(n23)。所有的样本数)。所有的样本数为为Nn23=8。n计算两个独立样本差数分布的参数。计算两个独立样本差数分布的参数。 第第1次抽取次抽取 第第2次抽取次抽取222436442344656244566第第1次次抽取抽取第第2次次抽取抽取第第3次

53、次抽取抽取33336463465633465635661x2xf f f21243261843124852105061636936156f f f3139431248531575616368361681x1x49361 x 21x3421 x 5 . 48362 x 4322 x 2x2x22xff2(1)3(1)- -115(2)3224(3)- -234165(3)- -335066(1)- -416- -123(2)3026(1)3314- -164235- -265136- -326014(3)3134095- -196- -231x2x21xx 1x2x21xx fff- -41-

54、-41616- -35- -15945- -212- -24448- -118- -181180180001121211425104203139972- -3616821xx 221)(xx )(21xx 221)(xx 5 . 072362121 nxxfxx 5 . 05 . 4421 12257272361682221221221 nnxxfxxfxx 122543342221212221 nnxx 五、正态总体抽样的分布规律五、正态总体抽样的分布规律n从正态总体抽取的样本,无论样本容量大或从正态总体抽取的样本,无论样本容量大或小,其样本平均数小,其样本平均数 和两个独立样本平均数和两个

55、独立样本平均数差数差数 的抽样分布必然服从正态分布。的抽样分布必然服从正态分布。n平均数的标准化平均数的标准化n平均数差数的标准化平均数差数的标准化21xx xnxxux )()( nnxxu2221212121)()( 六、二项成数分布六、二项成数分布n二项分布观察值中有二项分布观察值中有“0”和和“1”两种数据,将样本观两种数据,将样本观察值总加起来后除以样本容量(察值总加起来后除以样本容量(n),得到的平均数实),得到的平均数实际上就是际上就是“1”所占的比例,即成数或百分数。所占的比例,即成数或百分数。 n从二项总体进行抽样得到样本,样本平均数(成数)从二项总体进行抽样得到样本,样本平均数(成数)的分布也为二项分布,叫二项成数分布,也叫二项百的分布也为二项分布,叫二项成数分布,也叫二项百分数分布。分数分布。 px npqx 2 nppnpqx)1( 七、二项次数分布七、二项次数分布n从二项总体进行抽样得到的样本的总和实际上就从二项总体进行抽样得到的样本的总和实际上就是是“1”出现的次数。出现的次数。n从二项总体进行抽样得到样本,样本总和数(次从二项总体进行抽样得到样本,样本总和数(次数)的分布也为二项分布,叫二项次数分布。数)的分布也为二项分布,叫二项次数分布。 npx )(1pnpnpqx 2 )(1pnpnpqx

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!