第十三章-检验与方差分析

上传人:陈** 文档编号:95400442 上传时间:2022-05-24 格式:DOC 页数:6 大小:176KB
收藏 版权申诉 举报 下载
第十三章-检验与方差分析_第1页
第1页 / 共6页
第十三章-检验与方差分析_第2页
第2页 / 共6页
第十三章-检验与方差分析_第3页
第3页 / 共6页
资源描述:

《第十三章-检验与方差分析》由会员分享,可在线阅读,更多相关《第十三章-检验与方差分析(6页珍藏版)》请在装配图网上搜索。

1、 第十三章 检验与方差分析我们前面已经比较系统地讨论了双样本的参数和非参数检验的问题。现在,我们希望利用一般的方法来检验三个以上样本的差异,检验法和方差分析法就是解决这方面问题的。检验法可以对拟合优度和独立性等进行检验,方差分析法则可以对多个总体均值是否相等进行检验。后者由于通过各组样本资料之间的方差和组内方差的比较来建立服从F分布的检验统计量,所以又称F检验。 第一节 拟合优度检验 1问题的导出 第十一章最后一节,我们将累计频数检验用于经验分布与理论分布的比较,实际已经提供了拟合优度检验的一种方法。拟合优度检验与累计频数拟合优度检验相对应,在评估从经验上得到的频数和在一组特定的理论假设下期望

2、得到的频数之间是否存在显著差异时,是一种更普遍的检验方法。 2拟合优度检验(比率拟合检验)据经验分布来检验总体分布等于理论分布的零假设,检验统计量是 理论证明,当n足够大时,该统计量服从分布。因此对给定的显著性水平,将临界值与比较,可以就Ho作出检验结论。对于拟合优度检验,在试验规模小时,否定零假设的意义大,接受零假设的意义不大;若试验规模大时,则接受零假设的意义大,否定零假设的意义不大。 3正态拟合检验第二节 无关联性检验 检验的另一个重要应用是对交互分类资料的独立性检验,即列联表检验。由于列联表一般是按品质标志把两个变量的频数进行交互分类的,所以,检验法用于对交互分类资料的独立性检验,有其

3、它方法无法比拟的优点;如何求得列联表中的理论频数就成了独立性检验的关键。 1独立性、理论频数及自由度检验统计量 进一步上式可变为 n 在使用检验法进行列联表检验之前,还必须确定与这个检验统计量相联系的自由度,即 (rc-1)-(r-1)-(c-1)(c-1)(r-1)。 2关于频数比较和连续性修正用卡方作为列联表的统计量,有两点我们应该特别注意。首先,列联表检验是通过频数而不是通过相对频数的比较进行的。其次,使用卡方对列联表进行检验每一格理论频数必须保持在一定数目之上。 3列联表的卡方分解 若一个复杂的列联表具有显著性,有时需要检查子表以确定表格的那一部分卡方影响最大。一种可行的简便方法就是考

4、察每一格的残差,其公式为 根据计算结果可以知道哪一个残差对卡方影响大。另一种方法是利用卡方分布的可加性,把rc表的总体卡方分解为若干独立部分。 4关系强度的量度 到目前为止,本节一直在讨论列联表变量间是否存在关系。其方法是建立变量间无关系的零假设,然后再试图否定它。然而,对变量间是否存在关系的讨论,必然引出对变量间关系强弱的讨论。在样本小的时候,获得显著性即表明变量间有强关系。对大样本来说,更重要的问题是:“如果变量间存在关系,其强度有多大?”现在由于PRE准则,许多不同测量层次的变量已经可以统一起来进行关联强度的讨论了。第三节 方差分析方差分析,是一种很重要的分析方法,它可以检验两个以上样本

5、均值之差。方差分析是均值差检验的推广,一般用于处理自变量是一个(或多个)定类变量和因变量是一个定距变量之间的关系。方差分析所包含的假定与均值差检验所包含的假定差不多,例如正态分布、独立随机样本、等方差性等,但检验本身却很不相同。方差分析直接涉及的是方差而不是均值和标准差。同时,比较也不取两种估计量之差,而是取两种估计量的比率。在两种估计量彼此独立的前提下,两种估计量之比率F具有已知的抽样分布,因而可进行很简单的检验。 1总变差及其分解第十二章已经引入了变差的概念。但在方差分析中,由于自变量都是定类变量,我们不能像回归分析那样找出自变量和因变量的线性或非线性关系,即不能确定自变量X取不同值时因变

6、量Y的拟合值Yc,而只能研究自变量X取不同类别时,因变量Y的均值是否有所不同。但是在三种变差的讨论中,和Yc的地位是一样的。所以,有了上一章的知识,方差分析的方法是不难掌握的。 首先我们看总变差。总变差这个概念不同于方差,在方差分析中记作SST,它表示对于总均值的偏差之平方和,即 SST 为什么会形成总变差这个散布度呢?显然有两个原因:一是三个样本可能不同,这使全部数据有三个“中心”;二是随机抽样误差的影响,使数据在每个中心附近有散布。这样,将总变差分解成两部分。第一部分是各观测值对其所属类别均值的偏差的平方和,称为组内变差,记作SSW。组内变差反映了数据围绕各“中心”的散布程度,即反映了因随

7、机波动所产生的变异,与自变量因素无关。换言之,SSW是自变量因素所没有解释的的变异。因此,又称之为残差。第二部分是组间平方和,记作SSB ,它涉及到诸类别均值对总均值的偏差,反映数据在c个“中心” 附近的散布程度。2关于自由度 弄清了组间变差和组内变差,检验零假设(H0:12c)的思路也就梳理出来了:关键是比较两种变差是否有显著差异。但在统计学上,方差分析不取两者之差而取两者之比来进行这种比较。而且,方差分析不是直接用SSB/SSW作为检验统计量,而是用(可以解释的方差)/(不能解释的方差)作为检验统计量,即 在统计学上,变差除以自由度即可“规格化”成方差。总自由度组内自由度 + 组间自由度,

8、即nl (nc)+(c1)。这样一来,在零假设(H0:12c)之下,检验统计量Fo的计算公式就找到了 Fo 3关于检验统计量Fo的计算 总平方和(SST) 组间平方和(SSB) 组内平方和(SSW)总平方和(SST)组间平方和(SSB) 注意,由于总变差等于另两个变差之和,所以三个变差中仅需求出两个变差。求出组内平方和比求另两个平方和繁琐得多,故通常我们都是从总平方和减去组间平方和来求组内平方和的。 检验统计量 Fo 4相关比率 当方差分析的检验呈显著性后,进一步讨论两变量间的相关程度是很自然的。方差分析中相关程度的测定仍采用PRE法。 PRE 正是因为上式,我们把SSB称为已解释的变差。显然

9、,已解释的变差越大,预测Y所减少的误差就越多,X与Y之间的关系就越密切。据此,方差分析中把已解释的变差对总变差的比值称为相关比率,用符号表示 1 可用于一个定类变量与一个定距变量的相关程度的测定,当然也可以用于定序定距变量或定距定距变量的相关程度的测定。 相关比率研究的是定类定距变量之间的相关程度。由于定类变量不具有数量大小的问题,不存在关系是否线性的问题。因此,当被用于研究定距定距变量之间的关系时,不仅可以作为线性相关的量度,也可以作为非线性相关的量度。这意味着,对线性相关,相关比率与r2(积差系数之平方)有相同的PRE性质;但如果对非线性相关,用积差系数r来讨论就不行了。对于定距定距变量,

10、曲线相关既然要用R来测量,那么反过来,同一资料通过相关指数R与积差系数r计算的比较,可以判断确定两定距变量的关系是不是直线。如果同时求出r与R,r等于或略大于R,可说明两变量关系是直线的,用r去测量是合适的;如果rR,则说明两变量关系可能是曲线的。 5关于方差分析的几点讨论 鉴于方差分析的重要性,我们有必要对它进行某些深入讨论:(1)MSB和MSW可以分别称为组间方差和组内方差,其中(在等方差的假设下)组内方差总是2的无偏估计;而组间方差,只有当诸总体(即各样本所代表的子总体)均值实际上相等时,它才是2的无偏估计。(2)方差分析的优点在于,一个检验可以代替多个检验。(3)方差分析中的自变量X如

11、果是二分变量,也可以采用均值差t检验。(1)如果对因变量Y影响的自变量由一个变为两个以上,我们就将面对多元方差分析了。总变差分解的思想可以直接推广至多因素显著性检验。 第四节 回归方程与相关系数的检验 1回归系数的检验 检验两个总体变量(定距定距变量)是否具有线性关系,主要是检验总体的回归系数B是否等于零。在H0成立的条件下,检验回归直线的统计量可构造为 Fo F(1,n2) 对选定显著性水平,可查表得临界值F。若出现FoF(1,n2)的情况,则拒绝H0,即认为回归方程中X变量对Y的解释力是显著的;若出现FoF(1,n2)的情况,则不能拒绝H0,即认为回归方程中X变量对Y没有的显著的解释力。

12、2积差系数的检验 在社会研究中,要想确切了解两总体变量 (定距定距变量)间的积差系数是很困难的。所以,通常需要通过样本积差系数的统计检验来认识总体的积差系数 。设有两变量X和Y,它们的积差系数记为。当0时,表示X和Y不具有线性相关关系,当0时,表示X和Y具有线性相关关系。统计理论证明,样本积差系数r是总体积差系数的一个无偏估计量,有=,=而且当0时,样本容量越大,r(显然为一随机变量)的抽样分布越接近于自由度为n2的t分布(见图13.1)。因而有检验统计量 tor t(n2) 3回归方程的区间估计对于定距定距变量计算积差系数r时,要求相关的两个变量均为随机变量。回归分析则不同,因为回归方程旨在

13、披露X和Y之间的因果联系,所以自变量X是给定的,只有因变量Y才是随机的。这样一来,就回归线来说,Y值在每个估计值Yc两侧都有个随机分布。而且,Yc对Y的代表性越高,Y值在回归线两侧分布得就越集中;Yc对Y的代表性越差,Y值在回归线两侧分布得就越分散。根据第九章的知识,当知道Y和X有关系后,用Yc来估计Y固然可以消减不少估计误差,这也不过是点估计。而如果我们能在拟合值Yc上下设置一个合适区间,那么Y被估计到的可能性便会大大增加。这样一来,回归方程区间估计的问题便提出来了。当然,在回归线两侧设置一个估计区间总是容易做到的,但问题是我们需要对估计的信度和效度作通盘考虑。为此,我们必须了解Y在Yc两侧

14、的分布特征以及Y在Yc两侧的分散程度。所幸的是,由于误差为正态分布的原理(即中心极限定理),当样本容量n大于30时,我们可以作如下假定:(1) Y的实际观测值在对应的每个估计值Yc周围都是正态分布。越靠近Yc的地方,Y值出现的机会越多;反之出现的机会越少;(2)所有正态分布都具有相同的标准差,即所谓的同方差性。于是,除了重温过去的知识,只有一个具体问题要解决:为了测定回归线的代表性,有必要参照标准差的意义,引进一个离中趋势的量度估计标准误差,记作SY/X ,用来反映围绕回归线的Y值的离散程度。在这里,求算估计标准误差具有第九章中求算抽样平均误差同样的意义。SY/X 直接采用上式来计算估计标准误差比较麻烦,实际计算时,一般将上式简化为 SY/X 有了估计标准误差,再结合回归方程,就可以对因变量Y进行估计和推断了。具体来说,就是建立回归估计的置信区间(参见第九章“区间估计”一节),借以确定回归方程预测或控制Y的范围。6

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!