王静龙《非参数统计分析》(1_6章)教(学)案

上传人：ET****1 文档编号：43556098 上传时间：2021-12-02 格式：DOC 页数：78 大小：3.92MB

收藏版权申诉举报下载

第1页 / 共78页

第2页 / 共78页

第3页 / 共78页

下载文档到电脑，查找使用更方便

118 积分

下载资源

资源描述：

《王静龙《非参数统计分析》(1_6章)教(学)案》由会员分享，可在线阅读，更多相关《王静龙《非参数统计分析》(1_6章)教(学)案（78页珍藏版）》请在装配图网上搜索。

1、.专业整理 .引言一般统计分析分为参数分析与非参数分析，参数分析是指，知道总体分布，但其中几个参数的值未知，用统计量来估计参数值，但大部分情况，总体是未知的，这时候就不能用参数分析，如果强行用可能会出现错误的结果。例如：分析下面的供应商的产品是否合格？合格产品的标准长度为（8.50.1 ），随即抽取 n=100 件零件，数据如下：表 1.18.503 8.508 8.498 8.347 8.494 8.500 8.498 8.500 8.502 8.501 8.491 8.5048.502 8.503 8.501 8.505 8.492 8.497 8.150 8.496 8.501 8.48

2、9 8.506 8.4978.505 8.501 8.500 8.499 8.490 8.493 8.501 8.497 8.501 8.498 8.503 8.5058.510 8.499 8.489 8.496 8.500 8.503 8.497 8.504 8.503 8.506 8.497 8.5078.346 8.310 8.489 8.499 8.492 8.497 8.506 8.502 8.505 8.489 8.503 8.4928.501 8.499 8.804 8.505 8.504 8.499 8.506 8.499 8.493 8.494 8.490 8.5058.5

3、11 8.502 8.505 8.503 8.782 8.502 8.509 8.499 8.498 8.493 8.897 8.5048.493 8.494 7.780 8.509 8.499 8.503 8.494 8.511 8.501 8.497 8.493 8.5018.495 8.461 8.504 8.691经计算，平均长度为 x8.4958cm ，非常接近中心位置8.5cm，样本标准差n2n 10.1047cm.一般产品的质量服从正态分布， X N ( , 2 ) 。为 sxixi 1P(8.4X8.6)(8.6)(8.4)(8.68.49580.1047)(8.4 8.495

4、80.1047)66%这说明产品有接近三分之一不合格，三分之二合格，所以需要更换供应厂商，而用非参数分析却是另外一个结果。以下是 100 个零件长度的分布表：.学习帮手 .专业整理 .长度（ cm）频率（ %）8.4058.408.4608.468.4818.488.50458.508.52458.528.6008.604合计100这说明有 90%的零件长度在 (8.5 0.2) cm之间，有 9%的零件不合格，所以工厂不需要换供应商。例 2 哪一个企业职工的工资高？表 1.3 两个企业职工的工资企业1企业23456789103050显然，企业 1 职工的工资高，倘若假设企业1 与企业 2 的

5、职工工资分别服从正态分布( ,2 ),( ,2 )，则这两个企业职工的工资比较问题就可以转化为一个参N aN b数的假设检验问题，原假设为H 0 : a b ，备择假设为 H 0 : a b则 x y N (a b, ( 11) 2)mn若 H 0为真，则tx y t (mn 2)t(20)1 1 Sw m n.学习帮手 .专业整理 .1mn其中 Sw2( xi x)2( yi y) 2 mn2i 1i 1拒绝域为： tt0.90 (20) t 1.325检测值为： t1.282故不能拒绝原假设，认为两企业的工资水平无差异。也可以用 P值检验由于 P(t(20)1.282)0.1073故不能

6、拒绝原假设，认为两企业的工资水平无差异。这里我们采用的显著性水平为0.1.但这个统计结论与实际数据不相符合。主要是因为假设工资服从正态分布，这个假设是错误的，用错误的假设结合参数分析自然得出的结论不可靠。这时候有两种方法处理，一种更换其他分布的假设，二是用非参数数据的方法的分析。非参数统计如同光谱抗生素，应用围十分广泛。参数统计与非参数统计针对不同的情况提出的统计方法，它们各有优缺点，互为补充。.学习帮手 .专业整理 .第二章描述性统计 2.1 表格法和图形法表格法主要有列频数分布表和频率分布表例 2.1 某公司测试新灯丝的寿命，列表如下：107 73 68 97 76 79 94 59 98

7、 57 73 81 54 65 71 80 8479 98 63 65 66 79 86 68 74 61 82 65 98 63 71 62 11664 79 78 79 77 86 89 76 74 85 73 80 68 78 89 72 5892 78 88 77 103 88 63 68 88 81 64 73 75 90 62 89 7174 70 85 61 65 61 75 62 94 71 85 84 83 63 92 68 81（ 1）找到最小值 43，最大值 116;（ 2）将组数分为 520 组，组距（最大值 - 最小值）组数，分 16 组，组距为 5.学习帮手

8、 .专业整理 .表 2.2灯丝寿命的频率分布表灯丝寿命（小时）个数频率（ %）40-4410.545-4910.550-5421.055-5984.060-642412.065-692814.070-743015.075-793417.080-842311.585-892211.090-94147.095-9984.0100-10431.5105-10910.5110-11400.0115-11910.5总和200100.学习帮手 .专业整理 .对应的直方图为： 2.2 表格法和图形法数值方法主要是用数值来表示数据的中心位置（或者平均大小）和离散程度等。135331323244.学习帮手 .

9、专业整理 .列 1平均2.833333标准误差0.34451中位数3众数3标准差1.193416方差1.424242峰度-0.20317偏度-0.00713区域4最小值1最大值5求和34观测数12它的平均数，中位数，众数差不多大。但大部分情况不是这样的，例如：表 2.3 某保险公司赔款样本数据频率分布表赔款数赔款次数0-4002400-80032800-1200241200-1600191600-2000102000-240062400-280032800-320023200-360013600-40001合计100.学习帮手 .专业整理 .平均数，中位数，众数分别为：1224,1000,60

10、0 ，这三者相差较大。左峰的时候：众数中位数平均数，右峰的时候：平均数中位数众数。平均数容易受到异常值的影响，故不能很好地代表中心位。例如某地农户收入增长了 2.9%，但减收的农户却是 60%，为了更好地反映中心位，所以很多情况采用 % 的切尾平均数。人们熟知的去掉最大值与最小值的平均数也是切尾平均数。2.4经济专业毕业生的月收入数据毕业生月收入毕业生月收入118507189021950821303205091940418801023405175011192061700121880去掉最大值 2340，最小值 1700, 的切尾平均数比总体平均数要小，它为1924，而总体平均数为 1940.

11、但中位数都一样，均为 1905，中位数表现了稳定性。因此我们不仅用平均数表示中心位置，有时候也用中位数描述数据的中心位置。另外，众数也能用来描述数据的中心位置，尤其是定性数据的中心位置，例如：.学习帮手 .专业整理 .2.5 有缺陷的小巧克力不合格品问题的频数频率分布表代码问题频数频率（ %）1外层不够48652.832两个粘在一起434.673被压扁29532.074外层太多849.135破裂121.30这种情况下计算平均数和中位数没有多大意义，相反众数为1，众数值得关注。一般情况，平均数，中位数，众数应该综合考量，这三个数目，使得我们可以从不同角度表达数据的中心位置，给评估对象一个全面的评

12、价，例如：某企业的职工收入的平均数为5700, 元，中位数为 3000 元，众数为 2000 元，这说明收入 2000 元的人最多，有一半职工低于 3000 元，有一半职工高于 3000 元，平均数 5700 大于中位数，说明有些员工工资特别高。平均数与中位数为何可以表示数据的中心位置呢？主要是因为：n2n2( xix)min(xia)（2.1 ）i 1a1innxmeminxa（2.2 ）iaii 1i 1这说明用不同的距离标准衡量，平均数与中位数到各点的距离最近。另外平均数的物理意义还有重心的意义，在重心位置，系统可以平衡，在图 2.8 处，平均数为 4，中位数为 3，就意味着把树木集中在

13、3 这点，所走.学习帮手 .专业整理 .的路最短。*123456789中位数平均数表示离散程度的数值表示离散程度的数值一般有方差，四分位数，而四分位数又分上四分位数与下四分位数。为表示数据的离散程度，我们一般用五个数概括，即最小值，下四分位数，中位数，上四分位数，最大值，分别记为 Q0 , Q1,Q2 , Q3 , Q4 .例如：将 12 名经济专业毕业生月收入数据处理结果如下：（用Minitab ）数据容量 N12平均数 Mean1940中位数 Median1905切尾平均数 TrMean1924标准差 StDev170.6标准误 SEMean49.3最小值 Minimum1700最大值 M

14、aximum2340下四分位数 Q11857.5上四分位数 Q32025.学习帮手 .专业整理 .用统计软件 Minitab画箱线图（见图2.9 ）图 2.9.学习帮手 .专业整理 .四分位数的计算分位数是将总体的全部数据按大小顺序排列后 , 处于各等分位置的变量值 . 如果将全部数据分成相等的两部分 , 它就是中位数；如果分成四等分 , 就是四分位数；八等分就是八分位数等 . 四分位数也称为四分位点 , 它是将全部数据分成相等的四部分 , 其中每部分包括 25%的数据 , 处在各分位点的数值就是四分位数 . 四分位数有三个 , 第一个四分位数就是通常所说的四分位数 , 称为下四分位数 , 第

15、二个四分位数就是中位数 , 第三个四分位数称为上四分位数 , 分别用 Q1、Q2、Q3 表示 . 四分位数作为分位数的一种形式 , 在统计中有着十分重要的作用和意义, 现就四分位数的计算做一详细阐述.一、资料未分组四分位数计算第一步：确定四分位数的位置.Qi 所在的位置 =i （n+1） /4,其中 i=1,2,3.n表示资料项数.第二步：根据第一步四分位数的位置,计算相应四分位数.例 1：某数学补习小组 11 人年龄（岁）为：17,19,22,24,25,28,34,35,36,37,38. 则三个四分位数的位置分别为：Q1所在的位置 =（ 11+1）/4=3,Q2

16、所在的位置 =2（11+1）/4=6,Q3 所在的位置 =3（11+1） /4=9.变量中的第三个、第六个和第九个人的岁数分别为下四分位数、中位数和上四分位数 ,即：Q1=22 （岁）、 Q2=28（岁）、Q3=36 （岁）我们不难发现 , 在上例中（n+1）恰好是 4 的整数倍 , 但在很多实际工作中不一定都是整数倍 . 这样四分位数的位置就带有小数, 需要进一步研究 . 带有小数的位置与位置前后标志值有一定的关系：四分位数是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置的远近, 距离越近 , 权数越大 , 距离越远 , 权数越小 , 权数之和应等于1.例

17、 2 ：设有一组经过排序的数据为 12,15,17,19,20,23,25,28,30,33,34,35,36,37,则三个四分位数的位置分别为：Q1 所在的位置 =（14+1）/4=3.75,Q2 所在的位置 =2（14+1）/4=7.5,Q3 所在的位置 =3（14+1）/4=11.25.变量中的第 3.75项、第 7.5 项和第 11.25 项分别为下四分位数、中位数和上四分位数 ,即：Q1=0.25 第三项+0.75 第四项 =0.25 17+0.75 19=18.5；Q2=0.5 第七项+0.5 第八项 =0.5 25+0.5 28=26.5

18、；Q3=0.75 第十一项 +0.25 第十二项 =0.75 34+0.25 35=34.25.二、资料已整理分组的组距式数列四分位数计算第一步：向上或向下累计次数（因篇幅限制 , 以下均采取向上累计次数方式计算）；第二步：根据累计次数确定四分位数的位置：Q1 的位置 = （ f+1 ）/4,Q2 的位置 = 2 （ f +1 ）/4,Q3 的位置 = 3 （ f +1 ）/4式中：f表示资料的总次数；第三步：根据四分位数的位置计算各四分位数（向上累计次数 , 按照下限公式计算四分位数）：Qi=Li+fidi式中：Li Qi 所在组的下限 ,fi Qi 所在组的次数 ,di Qi

19、所在组的组距； Qi-1 Qi所在组以前一组的累积次数, f 总次数 .例3：某企业工人日产量的分组资料如下：.学习帮手 .专业整理 .根据上述资料确定四分位数步骤如下：（1）向上累计方式获得四分位数位置：Q1的位置=（f+1）/4=（164+1）/4=41.25Q2的位置=2（f+1）/4=2（164+1）/4=82.5Q3的位置=3（f+1）/4=3（164+1）/4=123.75（2）可知 Q1,Q2,Q3分别位于向上累计工人数的第三组、第四组和第五组 , 日产量四分位数具体为：Q1=L1+d1=70+10=72.49（千克）Q2=L2+d2=80+10=80.83（千克）Q3=L3

20、+ d3=90+ 10=90.96（千克）shitouwa4320 2014-10-23 标准误假设产生数据的总体的均值为，方差为2 。它们的估计分别为样本平均值 x ，样本方差 S2 和样本标准差 S ，由于平均数 x 的标准差为n ，所以它的估计取为 Sn ， Sn 称为标准误。xx t(n1)由n N (0,1) 得Sn在显著性水平0.95 的条件下，得置信区间的端点xt0.975 (n1)Sn即得xSt 0.975 (n1) .nt0.975 (11)2.2010用 Mintab 计算得到 :Variable N N* Mean SE Mean StDev Minimum Q1 Med

21、ian Q3 MaximumC1120 1940.049.3 170.61700.0 1857.5 1905.0 2025.02340.0算得到所求置信区间为：194049.32.20986273 1940 108.5086233用 Excel 计算得到：.学习帮手 .专业整理 .平均1940标准误差49.25198中位数1905众数1880标准差170.6139方差29109.09峰度1.874516偏度1.102987区域640最小值1700最大值2340求和23280观测数12置信度 (95.0%)108.4029所求置信区间为：194049.251980422.209862731940

22、108.4029328两款软件计算结果相差不大。2.2.4 偏度偏度（ Skewness）反应单峰分布的对诚性，总体偏度用s 表示E X33s3样本偏见度用 bs 表示，国家标准的计算公式为：m3bs3m22n xijxj2,3.其中 mj,i 1n在 Excel 中的计算公式为：bsnm3(n1)( n2) S3.学习帮手 .专业整理 .一般 bs0 数据的分布是右偏的，bs0 数据的分布是左偏的， bs0我们倾向于认为总体的分布是对称的。峰度峰度（ Kurtosis ）反映峰的尖峭程度，总体峰度用k 表示，总体的峰度的定义为（国家标准）X44k E4样本峰度用 bk ，国家标准的计算公式

23、为m4bk2m2由于正态分布的峰度系数为3，当 bk3时为尖峰分布，当 bk3 时为扁平分布。第三章符号检验法符号检验是一种较为简单的非参数检验，中位数检验是符号检验的一个重要应用。例 3.1 某市劳动和社会保障部门的资料说明， 1998 年高级技师的年收入的中位数为 21700 元，该市某个行业有一个由 50 名高级技师组成的样本，数据如下：23072 24370 20327 24296 22256 19140 25669 22404 26744 2674423406 20439 24890 24815 24556 18472 24514 22516 25112 2348026552 240

24、74 64 22590原假设与备择假设为：H 0 : me21700H 1 : me2170.学习帮手 .专业整理 .选择统计量 S# xi: xime00,i 1,2, , n ，S 即为大于中位数 me0 的xi 的个数， # 表示计数， S 也可表示为：n1xime00Sui , ui0其他i 1若 H 0 : me2170为真，则 S b(n, 1)2而 n 50, 检测值 S325050150计算 P值 P(X32)0.032454 0.05i 32i2即检测值 S32 落入拒绝域。故拒绝原假设，接受备择假设H1 : me2170在 excel 中如何使用 BINOMDIST函数返回

25、一元二项式分布的概率值BINOMDIST函数用于返回一元二项式分布的概率值。函数语法语法形式 BINOMDIST(number_s,trials,probability_s,cumulative)number_s: 表示实验成功的次救。trials:表示独立实验的次数。probability_s:表示一次实验中成功的概率。cumulative:表示一逻辑值，决定函数的形式，如果cumulative为 TRUE,函数 BINOMDIST返回积累分布函数，即至多 number_s 次成功的概率 ; 如果为 FALSE，返回概率密度函数，即 number_s 次成功的概率。例如，抛硬币正反面的概

26、率是 0.5 若要计算出抛 10 次硬币 6 次是正面的概率。可以使用BINOMDIST函数来实现。Step01 选中 C4单元格，在公式编辑栏中输入公式: =BINOMDIST(A2,B2.C2,TRUE).学习帮手 .专业整理 .按 Enter 键即可计算出积累分布函数，即至多6 次成功概率，如图8-73 所示。Step02 选中 C5单元格，在公式编辑栏中输入公式按 Enter 键即可计算出概率密度函数，即6 次成功的概率，如图8-74 所示。 3.2 符号检验在定性数据分析中的应用有的时候，观察值是一些定性数据，如果定性数据仅取两个值，就可以使用符号检验对它进行统计分析。例 3.2

27、某项调查询问了 2000 名年轻人。问题是：你认为我们的生活环境是比过去更好，更差，还是没有变化？有 800 人觉得”越来越好”，有 720 人感觉一天不如一天，有400 人表示没有变化，还有80 人说不知道，根据调查结果，你是否相信，在总体认为我们的生活比过去更好的人，比认为我们的生活比过去差的人多？解：原假设与备择假设为H01H1: p1: p22选择统计量S# 认为生活变好的人数， S 也可表示为：n1认为生活变好Sui , ui0其他i 11则 S b(1520, ) 2由于 n 很大，所以可以近似认为S N(760,380)其中np 760,npq 380.学习帮手 .专业整理 .

28、P S8000.020086868利用正态分布的计算结果760799PS 800 PS 7990.022714571380修正后760799.5PS 8000.021366586380由于 P 值较小，所以我们认为我们的生活环境变好了。3.3 成对数据的比较问题由于同一块田的生长环境相同，不同的地生长环境各不相同，所以将这批数据写成成对的形式。x11,x12,x1n .x21x22x2 nd ix1ix2ii ,i1,2, n,12 ,i1i2i，为品种差，i 为随机差。i 关于原点对称的分布。由于1i 和 2i 都服从关于原点对称的分布，1i2i2i1i （同分布）则P i cP( 1i2

29、ic)P(P(1i2ic)P(2i1ic)i c)所以i 关于原点对称。.学习帮手 .专业整理 .其它分位点的检验茆诗松老师教材P414，例以往的资料表明，某种圆钢的90%的产品的硬度不小于103（ kg / mm2 ）, 为了检验这个结论是否属实，现在随机挑选20 根圆钢进行硬度实验，测得其硬度分别是：14213411998131102154122931378611916114415816581117128113问这批钢材是否达标？解：原假设与备择假设为：H 0 : x0.10103H 1 : x0.10103ui1xi1030其他选取统计量 Snui, 若原假设成立，则 S b(20,09

30、)i 1检测值 S15 ，检验的 P 值为p P(S15)15200.0430.0509i 0.120ii 0i即检测值落入拒绝域，故拒绝原假设，接受备择假设 H 1 : x0.10 103 即产品不达标。例工厂有两个化验室，每天同时从工厂的冷却水中取样，测量水中的含氯量（ 10 6 ）一次，记录如下：.学习帮手 .专业整理 .ixi ( 实验室 A)yi ( 实验室 B)差 xi yi11.0310.0321.851.89-0.0430.740.9-0.1641.821.810.0151.141.2-0.0661.651.7-0.0571.921.94-0.0281.011.11-0.191

31、.121.23-0.11100.90.97-0.07111.41.52-0.12问两个化验室测定的结果之间有无显著性差异？解：设A,B 实验室的测量误差分别为：, . 并设, . 的分布函数分别为F ( x), G( x) 。由于 xiii ,yiii .选取统计量zixiyiii原假设与备择假设为：H 0 : F ( x)G( x)H 1 : F ( x)G( x) .若 H 0 为真，则在 Z 的分布关于原点对称ui1zi 00其他11选取统计量 Suii 1.学习帮手 .专业整理 .即 S 表示 z1, z2 , z11 中正数的个数。检验值 S2 ，检验的 P 值为：p 2min P(

32、S2), P(S2)2110.06540.0520.511i 0i在显著性水平为0.05 ，检测值未落入拒绝域，故接受原假设，认为两个化验室的检测结果之间无显著性差异。例在某保险类中，一次 2008 年索赔数额的随机抽样为（按照升序排列）：4632472850525064548469727596948014760150121872021240228365278867200已知 2007 年索赔数额的中位数为5063 元，问 2008 年索赔的中位数较上一年是否有所变化？解：这是一个双侧检验问题：原假设与备择假设为：H 0 : x0.55063H1 : x0.5 5063ui1 xi506

33、30其他n选取统计量Suii 1显著性水平0.05, n 15。计算得：.学习帮手 .专业整理 .1515C15k 0.5k 0.515 k0.01760.025C15k 0.5k 0.515 k0.0592k 12k1134C15k 0.5k 0.515 k0.01760.025C15k 0.5k 0.515 k0.0592k 0k0所以双侧拒绝域为： W S3或 S 12而检测值 S12 ，落入拒绝域W .故拒绝原假设，接受备择假设，即可以认为2008 年索赔的中位数较上一年有所变化。方法二：也可采用 P 值检验检验的 P 值为： p 2P(S 12) 0.03520.05故检测值落入拒绝

34、域，所以拒绝原假设，接受备择假设，即可以认为 2008 年索赔的中位数较上一年有所变化。例年一些国家每平方公里可开发的水资源数据如下表所示（万度 / 年）.学习帮手 .专业整理 .国家每平方可开发水资源国家每平方可开发水资源苏联4.9印度8.5巴西4.1哥伦比亚26.3美国7.5日本34.9加拿大5.4阿根廷6.9扎伊尔28.1印度尼西亚7.9墨西哥4.9瑞士78.0瑞典22.3罗马利亚10.1意大利16.8西德8.8奥地利58.6英国1.7南斯拉夫24.8法国11.5挪威37.4西班牙13.4而当年中国的该项指标为20 万度 / 年。请用符号检验方法检验：这22 个国家每平方公里可开发的水资

35、源的中位数不高于中国，求检验的P 值，并写出结论。解：原假设与备择假设为：H 0 : x0.520H 1 : x0.5 20ui1xi200其他22选取统计量 Sui , 若原假设成立，则 S b( 22,0.5)i1显著性水平0.05, n22 ，查表得：2222C22k 0.5k0.522k0.0262 0.05C22k 0.5k0.522 k0.0669,k 16k15.学习帮手 .专业整理 .右侧拒绝域为 : W S16又检测值S8W或者检测的 P 值为 p P(S8) 0.93310.05故接受 H0，拒绝 H1。即可认为这 22 个国家可开发的水资源的中位数不高于中国。例下面是亚洲

36、十个国家 1996 年的每 1000 个新生儿中的死亡数（按从小到大的次序排列）日本以色列韩国斯里兰卡中国叙利亚伊朗印度孟加拉巴基斯坦46915233136657788以 M表示 1996 年 1000 个新生儿中死亡数的中位数，试检验：H 0 : M34H1 : M34 ，求检验的 P值，并写完出结论。解：原假设与备择假设为：H0 :M34H1:M34ui1xi340其他10选取统计量 Sui , 若原假设成立，则 S b(10,0.5)i1显著性水平0.05, n10 ，查表得：2C10k 0.5k 0.510k3C10k 0.5k 0.510 k0.0107 0.050

37、.0547,k 0k0左侧拒绝域为 : W S2又检测值S4W或者检测的 P 值为 p P(S4) 0.37700.05.学习帮手 .专业整理 .故接受 H0，拒绝 H1。即可认为 1996 年 1000 个新生儿中死亡数的中位数不低于34。例某烟厂称其生产的每支香烟的尼古丁含量在 12mg以下，实验室测定的该烟厂的 12 支香烟的尼古丁含量（单位 :mg）分别为 :16.7 17.7 14.1 11.4 13.4 10.513.6 11.6 12.0 12.6 11.7 13.7问是否该厂所说的尼古丁含量比实际要少？求检验的P值，并写出结论。由于对于非正态总体，小样本场合不能用样本均值检验，

38、所以下面采用中位数检验。解：原假设与备择假设为：H 0 : x0.512H 1 : x0.5 12ui1xi120其他12选取统计量 Sui , 若原假设成立，则 S b(12,0.5)i1显著性水平0.05, n 12 ，查表得：1212C12k 0.5k 0.512k0.01930.05C12k 0.5k 0.512 k0.0730,k 10k9右侧拒绝域为 : W S10又检测值 S8 W或者检测的P 值为 pP(S8) 0.19380.05故接受 H0，拒绝 H1。即可认为该厂的尼古丁含量比实际含量要少。.学习帮手 .专业整理 .第四章符号秩和检验法 4.1 对称中心为原点的检验问题设

39、对称中心为，则原假设与备择假设分别为：H 0:0H1 :0H 0:0H1 :0H 0:0H1 :0引入符号检验统计量为：n1xi0Sui ,ui0其它i 1将 x1 , x2 ,xn 排序。设 xi 的秩为 Ri , i1,2, , n. 引入符号秩和检验统计n量为： Wui Rii 1表 4.1 10 个观察值和它们的符号，绝对值和绝对值的秩观察值-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.5符号绝对值7.65.54.32.74.82.11.26.63.38.5绝对值97536218410的秩S3 ,W53 2下面讨论符号秩和检验的检验方法，原假设与备择假设

40、为：H0:0H1:0.学习帮手 .专业整理 .如果0，则 P(X 0) P(X )1 , P(X 0) P(X)122对于任意的正数a，P( Xa)P( X(a)P( X(a)P( Xa2 )P( Xa)即 P( Xa)P(Xa),a0aa此时 W 较大， C 为检验的临界值为*原假设与备择假设为：H0:0H1:0此时 P( Xa)P( Xa),a0此时 W 较小， d 为检验的临界值为*原假设与备择假设为：H0:0H1:0.学习帮手 .专业整理 .我们在 W较大或者较小的时候拒绝原假设，检验的临界值c ， d 为cinf c* : P(Wc* ).2dsupd* : P(Wd* ).24.2

41、符号秩和检验统计量 W的性质n性质 4.1令 Siui ，则在总体的分布关于原点0 对称时， W 与 S 同分布：i 1dW S表 4.1 10 个观察值和它们的符号，绝对值和绝对值的秩观察值符号绝对值绝对值的秩-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.57.65.54.32.74.82.11.26.63.38.597536218410nWui Ri53210i 1表 4.3 10 个观察值和它们的符号，绝对值和绝对值的秩观察值符号绝对值绝对值的秩-1.22.12.7-3.34.3-4.8-5.5-6.6-7.6-8.51.22.12.73.34.34.85.56.67.68.597536218410.学习帮手 .专业整理 .nnSiui23510 , Wui Rii1i 1这样就初步说明了性质4.1W 的概率分布，在总体 X 关于原点 0 分布时， u1 , u2 , , un 相互独立，同分布，1 , in且 P(ui 0)P(ui1)1,2, n.所以 Siui是离散的分布，它的取值2i 1围是 0,1,2, n( n1)2, ，且

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

王静龙《非参数统计分析》(1_6章)教(学)案

最新文档

相关资源

相关搜索