第十讲列联表课件

上传人:阳*** 文档编号:82352142 上传时间:2022-04-28 格式:PPT 页数:41 大小:343.50KB
收藏 版权申诉 举报 下载
第十讲列联表课件_第1页
第1页 / 共41页
第十讲列联表课件_第2页
第2页 / 共41页
第十讲列联表课件_第3页
第3页 / 共41页
资源描述:

《第十讲列联表课件》由会员分享,可在线阅读,更多相关《第十讲列联表课件(41页珍藏版)》请在装配图网上搜索。

1、第十讲列联表第十讲 列联表v第一节 概念v1、研究内容v1)研究两定类变量的关系v2)为研究y的分类是否与x之分类有关,将数据先按x分类,再分别统计x分类情况下y的分类。v3)按两个定类变量进行交叉分类的频次分配表,即二维列联表。第十讲列联表4、列联表的一般形式Nij:x=xi y=yj时所具有的频次y xx1x2. . . xcy1N11N21. . .Nc1y2N12N22. . .Nc2.yrN1rN2r. . .Ncr第十讲列联表学生上网调查(统计各项比例,能发现什么问题?)男 生 女生聊天玩游戏网恋学习 20 20 50 50 15 15 15 15 第十讲列联表2、列联表中变量的分

2、布v1)联合分布v对于二变量来说,为了知道分布,集合中的变量值,必须同时具有x和y两个变量的取值。v( x1 y1 N11)v( x2 y2 N12)v( x1 yr N1r) 此称联合分布v( xi yj Nij)v( xc yr Ncr)vNij 表示频次时 联合频次分布表v 表示概率时 联合概率分布表v后者可以通过前者求出NNpijijcirjijNN11111cirjijp第十讲列联表v2)边缘分布:v对联合分布进行简比,只研究其中某一变量的分布,而不管另一变量的取值,这样就得到边缘分布。v按行加总 y的边缘分布:v按列加总 x的边缘分布:ppppyrcrrrryp21ppppxccr

3、cccxp21第十讲列联表v3)条件分布:v将其中一个变量控制起来取固定值,再看另一变量的分布,即条件分布。v控制x时,条件分布中的每一项都以边缘分布的 为分母v控制y时,条件分布中的每一项都以边缘分布的 为分母NNNc*2*1NNNr*2*1*第十讲列联表3、列联表中的相互独立性:v1)列联表研究定类变量之间的关系,实际上是通过条件分布的比较进行的。v如果两个变量之间没有关系,则称变量之间是相互独立的。v2)如果两个变量之间是相互独立的,则必然存在变量的条件分布与其边缘分布相同 。第十讲列联表v条件分布=边缘分布是列联表检验的基础:(控制x时)j*i*ijj*Iijj* iij1*221*1

4、11PPP NNNNNNNNNNNNNNNN第十讲列联表第二节 列联表的检验v一、原假设:v将总体中变量间无关系或相互独立作为检验的原假设。v总体 和 未知时,用样本 和 代替。pppHjiij*0:pi*pj*pi*pj*nnpii*nnpjj*第十讲列联表二、统计量v v x2cirjijEEnxijij1122112crxnnnEjiij*npE nnnnnnnpppEjijiijij*第十讲列联表统计量的讨论v1、对于22列联表,由于格数过少,为减少作为离散观测值与作为连续型变量x值之间的偏差,可作连续性修正:v2、二项总体 统计量 为总体成数2121225 . 0ijijEEnxij

5、ij EEnEEnx221225 . 05 . 02211pEn01pEn012p0第十讲列联表男女休闲爱好 男 女 泡吧 80 30 逛商店 20 70第十讲列联表对开卷考试的看法 态度 赞成 反对 人数 60 40第十讲列联表3、对多项总体:v统计量:v 4、使用统计量 对列联表进行检验,每一格值的 要保持在一定数目之上。如果有的格值 过小,那么在计算 值时 值的波动就会较大。riiEEnxii12212rxpEiin0 x2EijEijx2EEnijijij2第十讲列联表v每格要求:处理方法:将期望值偏小的格值合并右例,做检验。Eij20 30 3 1nij18 29 4 2 5Eij第

6、十讲列联表v注意: 列联表就其检验内容来看是双边检验,但从形式上看,却又很像单边检验。其判断的内容仅是变量间似乎否存在关系。至于方向,由于列联表属定类变量,因此是不存在的。第十讲列联表列联表检验步骤v1、v2、统计量:v v3、v4、比较H0H1riiEEnxii12212rx第十讲列联表例:以下是老、中、青三代对某影片的抽样,能否认为三代人对该影片评价有显著差异老中青很高453921一般472622第十讲列联表第三节 列联强度v一、变量间的相关v1、列联表中的频次分布情况,不仅是检验是否存在关系的依据,同时也是度量变量间关系强弱的依据。相关性程度越高,说明社会现象与社会现象间的关系愈密切。v

7、2、列联表中变量间的关系的强度分析,可以将频次转化为条件分布,然后比较自变量取不同值时,因变量条件分布的不同。第十讲列联表例v右表中,男生上网玩游戏的比例高于女生;而上网聊天的比例低于女生;v想一想,当x取值大于2时,怎样比较?y x男生 女生玩游戏聊天40 67% 10 25%30 33% 30 75%第十讲列联表二、22表 系数和系数v列联表中两个变量都只有二种取值时,就是22表v当变量间无关系时(独立)v对于22表,无论 系数或系数,都以差值 为基础进行讨论,同时,也把关系强度的取值范围定义在 之间。 y x a b c d x1x2y1y2dbbcaabcad bcad 11 ,第十讲

8、列联表v1、 系数v 当两变量相互独立v b、c为零, 值最大1v a、d为零, 值最小-1v 一般情况v前例中计算dbcadcbabcad011第十讲列联表v2、系数v当a、b、c、d中有一个是零时,则v对应的实际情况是配对样本研究v例v3、 、系数的选择v当自变量的不同取值都会影响因变量时,用 系数。当存在控制组时,用系数bcadbc-adQ1Q 第十讲列联表v新政策颁发前后出勤状况新政策前 新政策后正点迟到50 10050 0第十讲列联表4、 列联表v1)以 值为基础的相关性测量v期望频次 是基于无相关前提下计量出来的,因 愈大,表示变量间距离无相关性愈远。v 值构成 系数v其与22表中

9、 系数是一致,22表中是 表中 系数的特例。crx2x2x2EEnxijijij22Eijnx2cr第十讲列联表v由于 表的数增多后, 值增加,没有上限,无法比较,因此以c系数修正。 vc值 在0,1但永远小于1,又出现了v系数:vV 的取值:crncxx22 1,1min2crV1Vo第十讲列联表v例:已知 c=2 r=4 求 系数,c系数,v系数再例:32.192x第十讲列联表练习v习题三、四。第十讲列联表2)以减少误差比例为基础的相关性测量vPRE不受变量层次的限制,通过现象之间的关系研究,从一个现象预测另一个现象。v :不知y与x有关系时,预测y的全部误差v :知道y与x有关系后,用x

10、去预测y的全部误 差v 表示所减少的相对误差,越大表示y与x关系越密切。EEEPRE121E1E2EEE221第十讲列联表vPRE的取值范围:vPRE=0:两变量是无相关(知道x 与否无助于y的预测, 误差不变)vPRE=1:两变量是全相关(知道x与y有关系后,可以消除预测的全部误差)v0 PRE 1:其他v :不知y与x 有关,用y的边缘和 的最大值去猜y值,猜中的频次会更多。全部误差为:v :知道有关后,先看它属于x的哪一类,然后用这一类的众值去猜y值,误差为E1E2EE21cijnn1imaxnjnmaxj*n第十讲列联表两种系数:v1) 系数v即:v 的取值范围:vx与y无相关: ;x

11、与y全相关: nnnEEEjjciijn*1121maxmaxmax边缘和中最高频次观察总数边缘和中最高频次每列最高频次之和yy10第十讲列联表v例:上网爱好与性别(100人)男女聊天103040游戏4020605050100025. 0a 第十讲列联表 值的非对称性:v1)以x为自变量,用对y的预测来定义PRE,所得 值称作v2)以y为自变量,用对x的预测来定义PRE,所得 值称作v3)如果x和y孰因孰果不明显的情况,这时可同时计算 和 ,并取其平均 值,作为x和y间的相关程度。yDNyyyxDNxxyyxDDNNDDDDDDxyxyxxyxyxyy第十讲列联表 系数:v对 和 的定义比 系

12、数又有修正:v当不知道x与y有关系预测y时,充分考虑到y值边缘分布所提供的信息。v 的取值范围:vx与y无相关: (边缘分布与条件分布相同)vx与y全相关: (各行、各列均只有一个不为0的频次)E1E2rjjrjjcirjiijnnnnEEEnnn12*12*11*21211101第十讲列联表以前例为参照的推导:1、不知x与y有关:猜游戏与聊天:用边缘分布:40%,60%随机指派40人,猜对游戏的人数4040/100=16猜错的人数40-4040/100=40(1-40/100)=24同理:随机指派60人,猜对聊天的人数6060/100=36猜错的人数60-6060/100=60(1-60/1

13、00)=24第十讲列联表vE1即为猜错人数之和。v推广:r1jj*2r*2*2*1*1*1nn1n(n)nn1 (n)nn1 (nE第十讲列联表v知道x与y有关后:用y的条件分布来猜y值当x=男生时随机10人,猜对聊天的人数:1010/50猜错的人数:10-1010/50随机40人,猜对游戏的人数:4040/50猜错的人数:40-4040/50猜错二者相加:=(10-1010/50)+(40-4040/50) =50-1/50 (102 +402 )同理:当x=女生时?第十讲列联表vE2即为全部误差之和。推广:* iij2*2r1j1j2*1*12nnnc)n()nn1n(E第十讲列联表 值的非对称性:v以x为自变量,用对y的预测来定义PRE,所得 值称v以y为自变量,用对x的预测来定义PRE,所得 值称v 与 是不对称的,因此 是非对称的yxyx第十讲列联表例:v已知列联表,求 值 y x3012015030205060140200 x1x2y1y2025. 0a 第十讲列联表

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!