非全参数统计(R软件)参考问题详解

上传人：无*** 文档编号：83497919 上传时间：2022-05-01 格式：DOC 页数：18 大小：493KB

收藏版权申诉举报下载

第1页 / 共18页

第2页 / 共18页

第3页 / 共18页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《非全参数统计(R软件)参考问题详解》由会员分享，可在线阅读，更多相关《非全参数统计(R软件)参考问题详解（18页珍藏版）》请在装配图网上搜索。

1、word内容：A.3 上机实践：将MASS数据包用命令library(MASS)加载到R中，调用自带“老忠实喷泉数据集geyer，它有两个变量：等待时间waiting和喷涌时间duration，其中(1) 将等待时间70min以下的数据挑选出来;(2) 将等待时间70min以下,且等待时间不等于57min的数据挑选出来;(3) 将等待时间70min以下喷泉的喷涌时间挑选出来;(4) 将喷涌时间大于70min喷泉的等待时间挑选出来。解:读取数据的R命令：library(MASS);#加载MASS包data(geyser);#加载数据集geyserattach(geyser);#将数据集geyse

2、r的变量置为内存变量(1) 依题意编定R程序如下：sub1geyser=geyserwhich(waiting70),1;#提取满足条件waiting70的数据,which()，读取下标sub1geyser1:5;#显示子数据集sub1geyser的前5行1 57 60 56 50 54(2) 依题意编定R程序如下：Sub2geyser=geyserwhich(waiting70)&(waiting!=57),1;#提取满足条件waiting70& (waiting!=57)的数据.Sub2geyser1:5;#显示子数据集sub1geyser的前5行1 60 56 50 54 60原数据集的

3、第1列为waiting喷涌时间，所以用which(waiting70),2(3) Sub3geyser=geyserwhich(waiting70),2;#提取满足条件waiting70的数据,which()，读取下标Sub3geyser1:5;#显示子数据集sub1geyser的前5行1 4.000000 4.383333 4.833333 5.450000 4.866667原数据集的第2列为喷涌时间，所以用which(waiting70),1;#提取满足条件waiting70的数据,which()，读取下标Sub4geyser1:5;#显示子数据集sub1geyser的前5行1 80 71

4、 80 75 77.如光盘文件student.txt中的数据，一个班有30名学生，每名学生有5门课程的成绩，编写函数实现下述要求：(1) 以data.frame的格式保存上述数据；(2) 计算每个学生各科平均分，并将该数据参加(1)数据集的最后一列；(3) 找出各科平均分的最高分所对应的学生和他所修课程的成绩；(4) 找出至少两门课程不与格的学生，输出他们的全部成绩和平均成绩；(5) 比拟具有(4)特点学生的各科平均分与其余学生平均分之间是否存在差异。先将数据集读入R系统student=read.table(,header=T)class(student):#显示数据集student的类型，1

5、 data.frame#student是数据框names(student);#显示数据框student的变量1 name math physics chem literat english mean#输出显示，数据框student有7个变量,第7个变量是平均值mean。(1)write.table(student,F:gzmu非参数统计data2014各章数据附录Ax.txt,col.names=T)name math physics chem literat english1 Katty 65 61 72 84 792 Leo 77 77 76 64 55(2) 依题意，要为原始数据集添加一

6、个变量，即添加一列在最后。?,6=?me=rep(0,30);for(i in 1:30)x=as.numeric(studenti,2:6); mei=mean(x);student$mean=me;#上面程序的最后一行也可以如此:student,7=menames(student);1 name math physics chem literat english mean #如上显示，程序运行后数据框student添加了第7列mean.(3) 依题意，在(2)的程序运行后做，要用到which(mean=max(mean)，如同A.3。attach(student);maxme=studen

7、twhich(mean=max(mean),;#找出最高平均分的记录，并赋予maxme;maxme; name math physics chem literat english mean(4) 依题意，要用到二重的for和if. 由原数据框geyser给data1赋值时要用到数据转换：#x=as.numeric(studenti,2:6);#读取student第i行2:6列的数据，#data1k,=x;#将x赋给data4#的第k行。sum(x60)是不与格门数。Data1=student1,;#赋初值k=0;for(i in 1:30)x=as.numeric(studenti,2:6);

8、 if (sum(x1)k=k+1;data1k,=studenti,;data1 name math physics chem literat english mean(5) 依题意，要创造两个子集data4和data2, 用两样本的比拟方法比拟他们的平均成绩是否有显著差异。类似创造data1的方法，创造data2。并设x=data1$mean,y=data2$mean,比拟二样本x,y是否有显著差异，由于还没有学非参数检验，试用t检验检验之(R的t检验函数为t.test(x,y)，原假设H0是两样本的均值相等，备择假设H1是两样本不等)。如果P值p-value0.05,如此拒绝原假设。da

9、ta2=student1,;k=0;for(i in 1:30)x=as.numeric(studenti,2:6); if (sum(x60)2)k=k+1;data2k,=studenti,;下面做t检验x=data1$mean;y=data2$mean;t.test(x,y) Welch Two Sample t-testdata: x and yalternative hypothesis: true difference in means is not equal to 0sample estimates:mean of x mean of y ：结论：1.645, 如此将会拒绝H0

10、：，而且按照Neyman-Pearson引理，该检验是最优的。=0的零假设，承受=1000的备择假设，你觉得有问题吗？问题在哪里？如何解决？答：有问题。假设检验在原假设条件成立下，得到拒绝域，意思是拒绝，承受。而只是其中的一种情况，故不能承受。改良方法：可直接提出假设“均值为1000进展检验。即检验(2) 有两组学生的成绩，第一组为11名，成绩为x:100,99,99,100,100,100,100,99, 100, 99, 99; 第二组为2名，成绩为y: 50, 0. 我们对这两组数据作同样水平= 0.05的t检验假设总体的均值为，。对第二组数据的检验结果为：df=10, t= -2.8

11、868,mean(x)=, 单边检验(100, less)的P值为。所以拒绝原假设，认为100。对第二组数据检验的结果为：df=1, t值为-3，单边(100, less)的P值为，不拒绝原假设=100。但是mean(y)=25.解：两个结论都不是合理的，t检验是针对正态数据做的，第一组数据事实上是两点分布，x的取值域为99，100，所以t检验的根本假设不满足，所以第一个检验是不合理的；第二组数据的t检验也是不合理的，样本量太少，不具有代表性。(3)写出上面所用的t检验统计量，与p值的定义，解释水平=0.05的意义注意，这里是一般情况，不要联系(2)中的具体数据例子，如果没有给定水平，如何用p

12、值来做出结论？解：设样本 iid , 对于三种假设双边假设，两个单边假设都用同一个t统计量，p值p_value=(双边检验，alternative=)，p_value=(右边检验, alternative=greater)，p_value=(左边检验alternative=less)，其中。p_value小于检验水平时拒绝原假设，承受H1 。如此有I. 双边假设检验，拒绝原假设H0p_value=II. 右尾假设检验,拒绝原假设H0p_value=III. 左尾假设检验,拒绝原假设H0p_value=10);sl=sum(x10);n1=sg+sl;k=min(sg,sl);binom.tes

13、t(k,n1,0.5);结果输出： Exact binomial test图2.1.1 数据分布直方图data: k and n1number of successes = 6, number of trials = 12, p-value = 1p-value = 1，不拒绝原假设H0(2) Wilcoxon符号秩检验，假设如果(1)： Wilcoxon signed rank test with continuity correctiondata: x - 10alternative hypothesis: true location is not equal to 0,没有充分理由拒绝原

14、假设。注：虽然两个检验的结论一样，但我们认为(1)可靠。因为数据的分布不是对称，而后者是基于对称分布的。而此题的数据分布直方图如下，显然是不对称的，所针对此题数据，wilcox.test不可靠。考查某疾病的患者共计350名，男性150人，女性200人，问该疾病得病的男女性别比是否为1:1，即其男女比例是否各为1/2？提示：用中心极限定理，正态近似检验，即Demoive-Laplace中心极限定理:p=0.5,n=350,Xb(350,0.5),E(X)=175, Var(X)=npq=n/4=350/4。标准化X近似于标准正态。解：根据题意，设男性患者的比例为p,如此检验的假设为设男性患者数为

15、X，如此Xb(350,0.5),E(X)=175, Var(X)=npq=n/4=350/4。标准化X近似于标准正态。，p-value=2*min(pnorm(z,0,1),1- pnorm(z,0,1)=, 拒绝原假设p=0.5，认为患者中男性比率不是0.5, 男女比例不是1:1. 注：究其实，男性患者的比率显著地0);sl=sum(z0);n1=sg+sl;k=min(sg,sl)binom.test(k,n1,0.5) Exact binomial testdata: k and n1number of successes = 3, number of trials = 10, P值,不

16、拒绝原假设，认为两个联赛的三分球得分次数没有显著差异。(2)wilcox.test(z) Wilcoxon signed rank testdata: zalternative hypothesis: true location is not equal to 0图2.4.1 z的直方图检验的P值,在alpha=0.05下，不拒绝原假设。与符号检验的结论一样，但P值小了很多。(3) 在如上的检验中，由于数据的分布不存在显著不对称的迹象，wilcox.test是可靠的，因而wilcox.test理好。事实wilcox.test的P值小了很多，更能区分差异。在检验可靠的情形下，P值越小越好。2.1

17、2 在白令海所捕捉的12岁的某种鱼的长度(单位：cm)样本为长度/cm64 65 66 67 68 69 70 71 72 73 74 75 77 78 79 数目1 2 1 1 4 3 4 5 3 3 0 1 6 1 1您能否同意所声称的12岁的这种鱼的长度的中位数总是在6972cm之间？解：这是求置信区间的问题，设=0.05. x=c(64,65,65,66,67,68,68,68,68,69,69,69,70,70,70,70,71,71,71,71,71,72,72,72,73,73,73,75,77,77,77,77,77,77,78,83);数据探索：正态Q-Q图和密度函数图如下两

18、者显示数据x近似于对称分布，ks正态性检验的P值为，也没有拒绝正态性假设，因此可以认为数据分布不拒绝对称性假设。因此可以做Walsh中位数置信区间，基于Bootstrap方差估计的中位数正态置信区间、枢轴量置信区间、分位数置区间，下面求walsh置信区间。(1) walsh中位数置信区间walsh=NULL;n=length(x);for(i in 1:n)for (j in i:n)w=(xi+xj)/2; walsh=c(walsh,w);list(med=median(walsh), nwalsh=length(walsh);# median(walsh)=71, length(wals

19、h)=666#编程求walsh中位数的(1-)*100%=95%的置信区间walsh.conf=function(x,alpha)walsh=NULL;n=length(x);for(i in 1:n)for (j in i:n)w=(xi+xj)/2; walsh=c(walsh,w); nw=length(walsh);#walsh的长度walsh.sort=sort(walsh);#搜索walsh中位数的置信区间，对称地砍掉左尾和右尾for(k in seq(1,(nw/2),1)F=pbinom(nw-k,nw,0.5)- pbinom(k,nw,0.5);if (F(1-alpha)

20、lk=k-1;breaklci=walsh.sortlk;uci=walsh.sortnw-lk+1;list(lci=lci,uci=uci,lk=lk,uk=nw-lk)#调用函数walsh.conf(x,0.05)$lci= 71, $uci=7结论：12岁的这种鱼的长度的中位数的95%的walsh置信区间是71, 71.5(cm).(2) 其它置信区间，基于Bootstrap方差的枢轴区间是最好的，它是69，73，还是没有Walsh区间好，因为数据分布是对称的。依walsh平均，可以说12岁的这种鱼的长度在6972之间置信水平95%。2.14 社会学家欲了解抑郁症的发病率是否在一年时间

21、随季节的不而不同，他使用了来年一所大医院的病人数据，按一个4个季节,依次记录过去5年中第一次被确诊为患抑郁症的病人数，数据如下表(单位：人)季节春季夏季秋季冬季合计人数495 503 491 581 2070请问：发病率是否与季节有关？解：这是一个假设问题。也称为独立性检验问题。如果两者独立，即无关，如此发病人数在4个季节是均匀发病率为1/4，否如此两者是相关的。Pearson检验过程如下：H0；p1=p2=p3=p4=1/4；H1；p1，p2，p3，p4不全等；V=c(495,503,491,581);p=1/4;n=sum(V);df=4-1;chi2=sum(V-n*p)2/(n

22、*p)pvalue=1-pchisq(chi2,df);pvalue;#请思考：为什么用右尾概率？1结论：在=0.05时拒绝原假设，认为发病率与季节有关。具体地说，冬天的发病率高p3=。当然，为了要得到科学的结论，应该要规X抽样，使得样本有代表性，毕竟一个医院的数据其代表性是值得商榷的。内容P106: 3.1; 3.4; 3.5.在一项研究毒品对增强人体攻击性影响的实验中，组A使用安慰剂，组B使用毒品，试验后进展攻击性测试，测量得分显示在如下表中(得分越高表示攻击性越强)组A10,8,12,16,5,9,7,11,6组B12,15,20,18,13,14,9,16(1)给出这个实验的零假设.(

23、2)画出表现这些数据的曲线图.(3)分析这些数据用哪种检验方法最适宜.(4)用您选择的检验对数据进展分析.(5)是否有足够的证据拒绝零假设？如何解释数据？解：(1)这个实验的目的是要检验毒品是否具有显著的攻击性。根据假设检验的原如此，其零假设其位置参数均值或中位数是无显著差异，即检验假设为：.(2)A=c(10,8,12,16,5,9,7,11,6);B=c(12,15,20,18,13,14,9,16);min=min(c(A,B);max=max(c(A,B);plot(A,type=b,pch=A,xlim=c(0,9),ylim=c(min,max);lines(B,type=b,pc

24、h=B);title(数据A,B折线图);折线图如图3.1.1.group=factor(rep(c(A,B),c(9,8)plot(c(A,B)group)图3.1.1 数据A、B折线性图图3.1.2 数据A、B箱线图从图看，药品B的攻击性是乎强一些，有否显著地强，有待于检验。(3)如果两样本都呈正态分布，可以进展二样本t检验，如果两样本分布相似，可进展Wilcoxon秩和检验。二样本正态性检验的程序和结果如下：ks.test(A,pnorm,mean(A),sd(A) One-sample Kolmogorov-Smirnov testdata: Aalternative hypothe

25、sis: two-sided因为检验的P值为0.9997,没有充分的理由拒绝A的正态性假设。ks.test(B,pnorm,mean(B),sd(B) One-sample Kolmogorov-Smirnov testdata: BD = 0.0991, p-value = 1alternative hypothesis: two-sided.因为检验的P值为1,没有充分的理由拒绝B的正态性假设。所以可以进展t检验t.test(A,B,alternative=less,var.eaqual=FALSE) Welch Two Sample t-testdata: A and Balternat

26、ive hypothesis: true difference in means is less than 0再做两样本分布相似检验ks.test(A-median(A),B-median(B) Two-sample Kolmogorov-Smirnov testdata: A - median(A) and B - median(B)alternative hypothesis: two-sidedwilcox.test(A,B,alternative=less) Wilcoxon rank sum test with continuity correctiondata: A and Bal

27、ternative hypothesis: true location shift is less than 0因为t检验的P值为0.0032,而Wilcoxon秩和检验的P值为0.00609,在=0.01时，两者均有充分的理由拒绝零假设，认为毒品B具有显著的攻击性。(4) (5)因为t检验的P值为0.0032,而Wilcoxon秩和检验的P值为0.00609,在=0.01时，两者均有充分的理由拒绝零假设，认为毒品B具有显著的攻击性。两个不同学院教师一年的课时量分别为单位：学时A学院：321,266,256,386,330,329,303,334,299,221,365,250,258,34

28、2,243,298,238,317B学院：488,593,507,428,807,342,512,350,672,589,665,549,451,492,514,391,366,469根据这两个样本，两个学院教师讲课的课时是否存在显著差异？估计这些差异。从两个学院教师讲课的课时来看，教师完成讲课任务的情况是否类似？给出检验和判断。提示：先检验“教师完成讲课任务的情况是否类似，再选择检验方法，推断是否存在显著差异。解：A=c(321,266,256,386,330,329,303,334,299,221,365,250,258,342,243,298,238,317);B=c(488,593,5

29、07,428,807,342,512,350,672,589,665,549,451,492,514,391,366,469);(1) 检验“教师完成讲课任务的情况是否类似方法ks.test检验：。ks.test(A-median(A),B-median(B)检验结果： Two-sample Kolmogorov-Smirnov testdata: A - median(A) and B - median(B)D = 0.2778, alternative hypothesis: two-sided因为检验的P值为0.5026,不拒绝零假设，即不拒绝两样本分布类似的假设。注：如果分别用正态性检

30、验，如此在不拒绝正态性假设的根底上，还要检验两样本方差齐性。思考一下为什么？(2)在(1)的检验中，两样本分布相似，所以可以用Wilcoxon秩和检验检验两样本中位数是否有显著差异：wilcox.test(A,B)检验结果： Wilcoxon rank sum test with continuity correctiondata: A and Balternative hypothesis: true location shift is not equal to 0因为检验的P值为0.01,所以拒绝零假设，两样本的中位数有显著差异。两学院教师的教学任务有显著差异。(3)可以在(2)的根底上进

31、一步检验，两样本A与B不但分布相似，而且相似于正态分布两者均呈正态分布，所以可以用二样本t检验：t.test(A,B)检验结果： Welch Two Sample t-testdata: A and Bt = -6.8841, df = 21.916, alternative hypothesis: true difference in means is not equal to 0sample estimates:mean of x mean of y 因为检验的P值为0.01,所以拒绝零假设，两样本的均值存在显著差异。即两学院教师的平均教学课时有显著差异。两学院教师平均教学课时分别为，B学

32、院教师的平均课时显著地高于A学院。(4)两样本位置(均值、中位数)差的各种估计，置信区间讨论：(5)两样本密度估计，非参数密度估计：您有什么想法？将这些方法实施于理学院本科学生成绩分析，教师教学任务的统计分析？您愿意做这些平凡的实际工作？如果您展开充分的思考，提升到社会学乃至心理学，我看是可以做学位论文的。精彩的统计分析工作还可以在以后章节遇到。世界上怕就怕您高不成低不就啊！3.5 对A和B两块土壤有机质含量抽检结果如下，试用Mood和Moses两种方法检验两组数据的方差是否存在显著差异。AB解：A=c();B=c();(1) Mood方差检验是数据中心化后，用混合样本的秩代替离差平方和公式中

33、的原始数据。即设样本，检验的假设为。再设X在混合样本c(X,Y)中的秩为R=(R1,R2,Rm)，当H0成立时，混合样本c(X,Y)= (;) iid 而秩统计量应该不大(在平均值(m+n+1)/2附近波动),而当X的方差大于Y的方差时，会在远离平均值(m+n+1)/2的地方出现，因而当M超大时，拒绝零假设。检验可以编程计算，也可以调用R的现成函数mood.test()。此题数据运行mood.test(A,B) Mood two-sample test of scaledata: A and B由于P值为0.526，没有充分理由拒绝原假设。(2) Moses的方法是将两样本分组，用各组的离差平

34、方和反映方差。分组要注意到每组中至少有3个样本。此题中样本容量分别为12，15，所以分别分为4组，5组。SSA=NULL;for (i in 1:4)group=A(i-1)*3+1):(3*i);SSA=c(SSA,2*var(group)SSA=()SSB=NULL;for (j in 1:5)group=B(i-1)*3+1):(3*i);SSB=c(SSB,2*var(group)SSB=();wilcox.test(SSA,SSB) Wilcoxon rank sum test with continuity correctiondata: SSA and SSBalternativ

35、e hypothesis: true location shift is not equal to 0结论：两组数据的方差有显著差异，由median(SSA)=,median(SSB)=,所B数据方差显著大于A组数据的方差。Moses的缺点是，分组后样本量缩小了，很不好。用Bootstrap方法，直接比拟Bootstrap样本的方差，思想方法简单：重抽样B次，各得方差的B个大样本，由大样本理论比拟两样本方差。(3) Bootstrap方法x=c(8.8,8.2,5.6,4.9,8.9,4.2,3.6,7.1,5.5,8.6,6.3,3.9);y=c(13.0,14.5,16.5,22.6,20

36、.7,19.6,18.4,21.3, 24.2,19.6,11.7,18.9,14.6,19.8,14.5);VBx=NULL;VBy=NULL;nx=length(x);ny=length(y);B=1000;for (i in 1:B)xb=sample(x,nx,T);Vbx=var(xb); VBx=c(VBx,Vbx); yb=sample(y,ny,T);Vby=var(yb); VBy=c(VBy,Vby); MVx=mean(VBx);MVy=mean(VBy); Varxy=var(VBx)+var(VBy); Z=(MVx-MVy)/sqrt(Varxy);#计算Z值，大样

37、本就是要用Z值，要用中心极限定理。 p1=pnorm(Z);p2=1-pnorm(Z); pvalue=2*min(p1,p2);pvalue; 此结果与2一样。内容：P143 4.1；P144-4.4; P144-4.5;对A,B,C三个灯泡厂生产的灯泡进展寿命测试，每种品牌随机试验不等量灯泡，结果得到如如下寿命数据(单位：天)，试比拟三品牌灯泡寿命是否一样。A83 64 67 62 70B85 81 80 78C88 89 79 90 95解：1三个样本A、B、C均为独立随机样本，非区组试验数据，样本量不同，只能用Kruskal秩方差分析方法。检验的假设三样本的中位数一样 VS 三样本的中

38、位数不全一样因为样本少，免做样本数据分布相似检验，直接做kruskal.test,程序如下：A=c(83,64,67,62,70);B=c(85,81,80,78);C=c(88,89,79,90,95);n1=length(A); n2=length(B); n3=length(C);x=c(A,B,C);group=factor(rep(1:3,c(n1,n2,n3);kruskal.test(xgroup)结果： Kruskal-Wallis rank sum testdata: x by group即检验的P值为，拒绝原假设，即A,B,C三个灯泡厂生产的灯泡的寿命的中位数有显著差异。2

39、进一步分析差异出自何处，请看箱线盒须图：plot(xgroup)图4.1-1 三个厂的灯泡寿命图4.1-1显示，至少处理C与处理A有显著差异，由于灯泡寿命是望大的，所以C厂生产的灯泡寿命最长,最优。3两两比拟的程序和结果如下A=c(83,64,67,62,70);B=c(85,81,80,78);C=c(88,89,79,90,95);n1=length(A); n2=length(B); n3=length(C);k=3;n=c(n1,n2,n3);alpha=0.05; alphas=alpha/(k*(k-1);Z=qnorm(alphas,0,1);N=sum(n);MST=N*(N+

40、1)/12;x=c(A,B,C);R=rank(x);Rbar=rep(0,k);group=factor(rep(1:3,c(n1,n2,n3);for(i in 1:k)Rbari=median(Rgroup=i)d=NULL;for(i in 1:(k-1)for (j in (i+1):k)SE=sqrt(MST*(1/ni+1/nj);d=c(d,abs(Rbari-Rbarj)/SE)nd=length(d);dsig=rep(0,nd)for (i in 1:nd)if (di=Z)dsigi=1dsig;#dsig=0,两者有显著差异。length(dsig)=k*(k-1)/

41、2dsig 1-2 1-3 2-31 0 0 0说明多重比拟中，两两均有显著差异。4.4 下表是美国三大汽车公司(A,B,C三种处理)的五种不同的车型某年产品的油耗，试分析不同公司的油耗是否存在差异。12345ABC解：1事实上，这X表的实验数据是双因素(公司，车型)试验数据表，A、B、C的样本数据独立但不同分布，所以要检验不同公司的车的油耗，即检验A、B、C的差异，要剔除区组之影响，不能用kruskal.test,而只能用Friedman.test,检验程序如下：A=c(,);B=c(,);C=c(,);n1=length(A); n2=length(B); n3=length(C);x=c

42、(A,B,C);M=matrix(x,3,5,byrow=T);friedman.test(t(M);#这里要小心啊，该检验以区组为列检验结果： Friedman rank sum testdata: t(M)即检验的P值为，拒绝原假设，即A,B,C三个公司汽车的油耗有显著差异。2进一步分析差异出自何处，请看箱线盒须图：plot(xgroup)图4.4-1 三个公司汽车的油耗图4.4-1显示，至少处理C与处理A有显著差异，由于汽车油耗是望小的，所以公司A汽车油耗是最少的，是最优的。如果从只从油耗考虑，买汽车应该买A公司的汽车。3两两比拟的程序与结果如下A=c(,);B=c(,);C=c(,);

43、n1=length(A); n2=length(B); n3=length(C);k=3;n=c(n1,n2,n3);alpha=0.05; alphas=alpha/(k*(k-1);Z=qnorm(alphas,0,1);N=sum(n);MST=N*(N+1)/12;x=c(A,B,C);R=rank(x);Rbar=rep(0,k);group=factor(rep(1:3,c(n1,n2,n3);for(i in 1:k)Rbari=median(Rgroup=i)d=NULL;for(i in 1:(k-1)for (j in (i+1):k)SE=sqrt(MST*(1/ni+1

44、/nj);d=c(d,abs(Rbari-Rbarj)/SE)nd=length(d);dsig=rep(0,nd)for (i in 1:nd)if (di=Z)dsigi=1dsig;#dsig=0,两者有显著差异。length(dsig)=k*(k-1)/2#dsig 1-2 1-3 2-31 0 0 0说明多重比拟中，两两均有显著差异。在一项健康试验中，有三种生活方式，它们的减肥效果如下表生活方式123一个朋后减少的质量(单位：500g)ni554人们想知道的是从这些数据能否得出它们的减肥效果(位置参数)是一样的，如果效果不等，试根据上面这些数据选择方法检验哪一各效果最好，哪一种最差

45、。解：1根据试验设计和数据，这不是区组试验，但也不是简单随机样本(因为存在人体这个“混杂因素)，只能勉强用Kruskal秩方差分析。检验程序和结果如下：x1=c(3.7,3.7,3.0,3.9,2.7);x2=c(7.3,5.2,5.3,5.7,6.5);x3=c(9.0,4.9,7.1,8.7);n1=length(x1); n2=length(x2); n3=length(x3);x=c(x1,x2,x3);group=factor(rep(1:3,c(n1,n2,n3);kruskal.test(xgroup)结果输出： Kruskal-Wallis rank sum testdata:

46、 x by group即检验的P值为，拒绝原假设，即三种生活方式的减肥效果有显著差异。2进一步分析差异出自何处，请看箱线盒须图：plot(xgroup)图4.5-1 三种生活方式的减肥效果图4.5-1显示，至少第1种生活方式与第3种生活方式的中位数有显著差异，由于减肥效果是望大的，所以第3种减肥效果是最优的。3两两比拟的程序与结果如下A=c(3.7,3.7,3.0,3.9,2.7);B=c(7.3,5.2,5.3,5.7,6.5);C=c(9.0,4.9,7.1,8.7);n1=length(A); n2=length(B); n3=length(C);k=3;n=c(n1,n2,n3);al

47、pha=0.05; alphas=alpha/(k*(k-1);Z=qnorm(alphas,0,1);N=sum(n);MST=N*(N+1)/12;x=c(A,B,C);R=rank(x);Rbar=rep(0,k);group=factor(rep(1:3,c(n1,n2,n3);for(i in 1:k)Rbari=median(Rgroup=i)d=NULL;for(i in 1:(k-1)for (j in (i+1):k)SE=sqrt(MST*(1/ni+1/nj);d=c(d,abs(Rbari-Rbarj)/SE)nd=length(d);dsig=rep(0,nd)for (i in 1:nd)if (di=Z)dsigi=1dsig;#dsig=0,两者有显著差异。length(dsig)=k*(k-1)/2#dsig 1-2 1-3 2-31 0 0 0说明多重比拟中，两两均有显著差异。

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

非全参数统计(R软件)参考问题详解

最新文档

相关资源

相关搜索