变量间的相关关系与统计案例

上传人:lis****210 文档编号:168790241 上传时间:2022-11-12 格式:DOCX 页数:18 大小:186.41KB
收藏 版权申诉 举报 下载
变量间的相关关系与统计案例_第1页
第1页 / 共18页
变量间的相关关系与统计案例_第2页
第2页 / 共18页
变量间的相关关系与统计案例_第3页
第3页 / 共18页
资源描述:

《变量间的相关关系与统计案例》由会员分享,可在线阅读,更多相关《变量间的相关关系与统计案例(18页珍藏版)》请在装配图网上搜索。

1、变量间的相关关系与统计案例一、基础知识1变量间的相关关系(1) 常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关 系不同,相关关系是一种非确定性关系.I体现的不一定是因果关系(2) 从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称 为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关2两个变量的线性相关(1) 从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近, 称两个变量之间具有线性相关关系,这条直线叫做回归直线A A A(2) 回归方程y=bx+a,其中(3) 通过求Q =为(y-bx-a)2的最小值

2、而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法(4) 相关系数:当r0时,表明两个变量正相关;当rVO时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明 两个变量之间几乎不存在线性相关关系.通常Irl大于0.75时,认为两个变量有很强的线性相 关性3独立性检验(1)2X2列联表设X,Y为两个变量,它们的取值分别为x1,x2和V, y2,其样本频数列联表(2X2 列联表)如下:yy2总计x1aba+bX2cdc+d总计a+cb+da+b+c+d(2)独立性检验利用随机变量K2(也可表示为)的观测值k

3、=(a+b)(cd)(ac)(b+d)(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.二、常用结论A A(1) 求解回归方程的关键是确定回归系数a b,应充分利用回归直线过样本中心点(x, y )(2) 根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关 的把握越大.A(3) 根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.考点一 回归分析考法(一) 求线性回归方程典例(2019湘东五校联考)已知具有相关关系的两个变量x,y的几组数据如下表所示:x246810y3671012(1) 请根据上表数据在网格纸中绘制散点图;A A

4、 A(2) 请根据上表数据,用最小二乘法求出y关于x的线性回归方程y = bx+a,并估计当x =20时y的值.乙xyn x yA i = 1A A参考公式:b=, a= y b x .力x2n x 2i解 (1)散点图如图所示:1(2)依题意,x =5x(2+4+6+8 + 10) = 6,7 =|x (3+6+7 + 10+12) = 7.6,x2=4+16+36+64+100=220, txy=6+24+42+80+120 = 272,i=1i=1txy5 x ya i=1 2725X6X7.6 44b2205X6240x25 x 2ii 1A:a = 76 11X6=1,A.线性回归方

5、程为y=1.1x+1,故当x=20时,y=23.考法(二) 相关系数及应用典例 如图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图附注1年份代码1了分別对应年20122018由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明.,医戟$芫用巽逞齋七防参考数据:ty.=9.32,为/=40.17, t (y J )2=0.55,曲2.646.i=1i=1i=1参考公式:相关系数丫(厂 t )(yi_ y )i=1r=解由折线图中数据和参考数据及公式得t =4, (t t )2=28, (y.-丁)2=0.55,2.890.55X2X2.6460.99.1=

6、11=11 (t. t )(y. y ) = =ty. t y.=40.174X9.32=2.89,i=1i=1i=1因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线 性回归模型拟合 y 与 t 的关系解题技法1线性回归分析问题的类型及解题方法 (1)求线性回归方程:A A 利用公式,求出回归系数b, a. 待定系数法:利用回归直线过样本点中心求系数.(2) 利用回归方程进行预测:把回归直线方程看作一次函数,求函数值(3) 利用回归直线判断正、负相关:决定正相关还是负相关的是系数b.2模型拟合效果的判断(1) 残差平方和越小,模型的拟合效果越好(2) 相关指数R

7、2越大,模型的拟合效果越好.(3) 回归方程的拟合效果,可以利用相关系数判断,当Irl越趋近于1时,两变量的线性相 关性越强题组训练1. (2019惠州调研)某商场为了了解毛衣的月销售量y(件)与月平均气温x(C)之间的关 系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:月平均气温x/C171382月销售量y/件24334055由表中数据算出线性回归方y = bx+a中的b=-2,气象部门预测下个月的平均气温约 为6C,据此估计该商场下个月毛衣销售量约为()B40 件D58 件A46 件C38 件解析:选A 由题中数据,得x =10, y =38,回归直y=bx+a过点(x ,

8、y ),且b AA=2,代入得a = 58,则回归方程y=2x+58,所以当x=6时,y=46,故选A.2近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间 的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付某线路公交 车队统计了活动刚推出一周内每天使用扫码支付的人次,用x表示活动推出的天数,y表示 每天使用扫码支付的人次,统计数据如下表:根据以上数据,绘制了散点图x1234567y601102103406601 0101 960yvi=1乞x.v.i ii=1100-546212.5425 35078.123.471 7其中q=lgyz,o卡Ji=1(

9、1)根据散点图判断,在推广期内,y=a+bx与y=cdx(c, d均为大于零的常数)哪一个 适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型(给出判断即可,不必说明 理由)?(2)根据(1)的判断结果及上表中数据,建立y关于x的回归方程,并预测活动推出第8 天使用扫码支付的人次参考公式:A A A对于一组数据(U, v1),(u,o2),(u,v ),其回归直线o=a+屈 的斜率和截距的1 1 2 2 n n乙 u V. 一nu vA Aa= v pU .ii最小二乘估计公式分别为戸i=1乙 u2_n u 2 ii=1解:根据散点图可以判断,y=cdx适宜作为扫码支付的人次y关于活动推

10、出天数x 的回归方程类型(2)y = cdx两边同时取常用对数,得lg y=lg(cdx)=lg c+xlg d, 设 lg y=v,贝U v=lg c+xlg d.*/ x =4, v =2.54, x2=140,xv_7 xiii=1lg d=i i=1v78.12_7X4X2.54心=0 25x2_7 x 2140_7X42=0.25,i=1把(4,2.54)代入 v = lg c+xlg d,得 lg c= 1.54,AAv= 1.54+0.25x,Ay= 101.54+.25x= 101.54(10.25)x.A把 x = 8 代入上式,得y=11.54+.25x8=13.54=13

11、X 1.54 = 3 47,A.y关于x的回归方程为A = 11.54.(1.25)x,活动推出第8天使用扫码支付的人次为3 47.考点二 独立性检验典例(218全国卷III节选)某工厂为提高生产效率,开展技术创新活动,提出了完 成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取 4 名工人,将他 们随机分成两组,每组2人第一组工人用第一种生产方式,第二组工人用第二种生产方 式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:第种生产方式第一种生产方式865 5 6 8 99 7 H 270 1 223456fi8987765433281 1 4 S2 110 09

12、0(1)求 4名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(2)根据(1)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?n(adbc)2附.住=(a+b)(c+d)(a+c)(b+d)P(求环0, 0500, 0100, 001h3. 8411.0. 823解(1)由茎叶图知m=笃81 = 80.列联表如下:(2)因为K2=40(15X155X5)220X20X20X20=106.635,所以有99%的把握认为两种生产方式的效超过m不超过m第一种生产方式155第二种生产方式5

13、15率有差异解题技法2个明确(1) 明确两类主体;(2) 明确研究的两个问题2个关键(1) 准确画出2X2列联表;(2) 准确求解K23个步骤(1)根据样本数据制成2X2列联表;根据公式 K2-(a+b)(c+d)(a+)c)(b+d),计算 K2 的值;(3)查表比较K2与临界值的大小关系,作统计判断题组训练1. (2019沧州模拟)某班主任对全班50名学生进行了作业量的调查,数据如表:认为作业量大认为作业量不大总计男生18927女生81523总计262450已知 P(K223.841)0.05, P(K225.024)0.025, P(K226.635)0.010.则(填“有”或“没有”

14、)97.5%的把握认为“学生的性别与认为作业量大有关”解析:因为K2=50X(18X15 8X9)226X24X27X235.0595.024,所以有97.5%的把握认为“学生的性别与认为作业量大有关”答案: 有(1) 求2X2列联表中的数据x,y,A,B的值.(2) 绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?(3)能否在犯错误的概率不超过 0.001 的前提下认为疫苗有效?2为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下未发病发病总计未注射疫苗20xA注射疫苗30yB总计5050100现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为|.n=a+b+c+d.附

15、:K2=n(adbc)2K (ab)(cd)(ac)(bd)临界值表:P(心 k0)0.050.010.0050.001k03.8416.6357.87910.828解:(1)设“从所有试验动物中任取一只,取到注射疫苗动物”为事件M, 由已知得p(m)=了 1oo =5,所以 y=10,则 B=40, x=40, A = 60.40 2未注射疫苗发病率为60=30.67,注射疫苗发病率为40=4=0.25.发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率(3)因为K2=16.6710.828.100X(20X1040X30)260X40X50X50所以能在犯错误的概率不超过0.001

16、的前提下认为疫苗有效课时跟踪检测1.对变量x, y有观测数据(x., y.)(z = 1,2,-, 10),得散点图如图,对变量u, v有 观测数据(竹,v.)(i=1,2,-, 10),得散点图如图由这两个散点图可以判断()A. 变量x与y正相关,u与v正相关B. 变量x与y正相关,u与v负相关A级C. 变量x与y负相关,u与v正相关D. 变量x与y负相关,u与v负相关解析:选C 由散点图可得两组数据均线性相关,且图的线性回归方程斜率为负,图 的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.2. (2019长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品

17、的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计表:购买食品的年支出费用x/万元2.092.152.502.842.92购买水果和牛奶的年支出费用y/万兀1.251.301.501.701.75根据上表可得回归方程y = bx+a,其中b = 0.59, a= y 一b x,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为()A1.795 万元B2.555 万元C1.915 万元D1.945 万元1 1解析:选 A x =5X(2.09+2.15+2.50+2.84+2.92) = 2.50(万元),y =5(1.25 + 1.30AAA+

18、1.50+1.70+1.75) = 1.50(万元),其中b = 0.59,贝Ua= y 一b x =0.025, y = 0.59x+0.025.故年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为y = 0.59X3.00+0.025 =1.795(万元)3下面四个命题中,错误的是()A.从匀速传递的产品生产流水线上,质检员每15分钟从中抽取一件产品进行某项指 标检测,这样的抽样是系统抽样B对分类变量X与Y的随机变量K的观测值k来说,k越大,“X与Y有关系”的把 握程度越大C. 两个随机变量相关性越强,则相关系数的绝对值越接近于0AD. 在回归直线方A = 0.4x+12中,当解

19、释变量x每增加一个单位时,预报变量平均 增加0.4个单位解析:选C 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故C 错误4春节期间, “厉行节约,反对浪费”之风悄然吹开,某市通过随机询问1 00名性别 不同的居民是否能做到“光盘”行动,得到如下的列联表:做不到“光盘”能做到“光盘”男4510女3015则下面的正确结论是()附表及公式:P(心 k0)0.1000.0500.0100.001k02.7063.8416.63510.828n(adbc _K2=(a+b)(c+d)(a+c)(b+d),n=a+b+c+dA. 有90%以上的把握认为“该市居民能否做到光盘与性别有关”B

20、. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别无 关”C. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别有 关”D. 有90%以上的把握认为“该市居民能否做到光盘与性别无关”解析:选 A 由列联表得到 a=45, b=10, c = 30, d=15,则 a+b=55, c+d=45, a+c=75, b+d=25, ad=675, bc=300, n=100,计算得 K 的观测值 k=n(adbc)2100X (675_ 300)2J=心(ab)(cd)(ac)(bd)55X 45X 75X 253.030.因为 2.7063.0302.706,

21、所以有 90%以上的把握认为“工人是否为生产能手 与工人的年龄有关”.答案: 90%年份20142015201620172018时间代号t12345储蓄存款y(千亿元)5678106.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存 款(年底余额)如下表:则y关于t的回归方程是b=nSxiyi-i=1S(x x )(y y )i=1A A a= y b x .Sx2n x 2 ii=1S (x x )2i=1115136解析:由表中数据得 n=5, t =t=15r=3, y =Ly=r=1.2.i=1i=1又St若用y=c+d寂模型拟合y与x的关系,可得回归方程;=1

22、.63+0.99匚,经计算线性 回归模型和该模型的R2分别约为0.75和0.88,请用R2说明选择哪个回归模型更好; 已知利润z与x,y的关系为z=200y-x.根据的结果,求当广告费x=20时,销售 量及利润的预报值A A A参考公式:回归直y=a+bx的斜率和截距的最小二乘估计分别为n t 2=555X32=10,ii=1Styn t y =1205X3X7.2=12.i=1Stiyi n t y A i=112从而b= 10 = 1.2,St2 n t 2ii=1A A a= y b t =7.21.2X 3=3.6,故所求回归方程为y = 1.2t+3.6.A答案:y=1.2t+3.6

23、7某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出广告费支出x(万元)和销售量y(万台)的数据如下:年份2012201320142015201620172018广告费支出x1246111319销售量y1.93.24.04.45.25.35.4(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;参考数据:-薦2.24.解:(1)T 匚=8, 7 =4.2, Sxiyi=279.4, Sx2=708,i=1i=17 x ya i=i279.47X8X4.2 b =0 17_7087X82?x27 x 2ii=1a a a= y b x =4.2

24、0.17X 8 = 2.84,y关于x的线性回归方程为y = 0.17x+2.84.(2) T0.75V0.88且R2越大,反映残差平方和越小,模型的拟合效果越好,.选用;=1.63+0.99心更好.(3) 由(2)知,当x=20时,销售量的预报值;=1.63+0.99迈06.O7(万台),利润的预报 值 z=200X (1.63+0.920)201 193.04(万元).1. (2018.江门一模)为探索课堂教学改革,江门某中学数学老师用“传统教学”和“导 学案”两种教学方式分别在甲、乙两个平行班进行教学实验为了解教学效果,期末考试后, 分别从两个班级各随机抽取20名学生的成绩进行统计,得到

25、如下茎叶图.记成绩不低于70 分者为“成绩优良” .甲乙6g3&7 y 9951080156J S) 4427345777 B885110fi0 7433252 5(1)请大致判断哪种教学方式的教学效果更佳,并说明理由;(2)构造一个教学方式与成绩优良的 2X 2 列联表,并判断能否在犯错误的概率不超过0.05 的前提下认为“成绩优良与教学方式有关”.n(adbc)2附:K2=(a+b)(c+d)(a+c)(b+d),其 中 n=a+b+c+d.临界值表:P心 k)0.100.050.0250.010k02.7063.8415.0246.635解:(1)“导学案” 教学方式教学效果更佳.理由

26、1:乙班样本数学成绩大多在70 分以上,甲班样本数学成绩70分以下的明显更多理由 2:甲班样本数学成绩的平均分为 70.2;乙班样本数学成绩的平均分为79.05.理由3:甲班样本数学成绩的中位数为68丁九=70,乙班样本数学成绩的中位数为77+782= 77.5.(2)2X2列联表如下:甲班乙班总计成绩优良101626成绩不优良10414总计202040由上表数据可得K2=40 烈茫4 J? 严 3.9563.841,所以能在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”千克O24 5 6千克2.(2019广州调研)某基地蔬菜大棚采用无土栽培方式种植各 类蔬菜.过去50周的资

27、料显示,该地周光照量X(单位:小时)都 在30小时以上,其中不足50小时的有5周,不低于50小时且不 超过70小时的有35 周,超过70小时的有10周根据统计,该 基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y 与x的关系;(若lrl0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但 每周光照控制仪运行台数受周光照量X限制,并有如下关系:周光照量X/小时30VXV5050WXW70X

28、70光照控制仪运行台数321对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元若商家安装了3台光照控制仪 求商家在过去50周的周总利润的平均值相关系数公式:参考数据:03心0.55, ;09心0.95.解:(1)由已知数据可得 x24568=5,3+4+4+4+5y =5=4因为 (x. x )(y. y ) = ( 3)X(1)+0+0+0+3X1=6, i=1 (x. x )2=-p(3)2+(1)2+02+12+32=2/5, (y. y )2=(1)2+02+02+02+12=;2,因为lrl0.75,所以可用线性回归模型拟合y与x的关系.(2)由条件可得在过去50周里,当X70时,共有10周,此时只有1台光照控制仪运行, 每周的周总利润为1X3 0002X1 000=1 000(元).当50WXW70时,共有35周,此时有2台光照控制仪运行, 每周的周总利润为2X3 0001X1 000 = 5 000(元).当30VXV50时,共有5周,此时3台光照控制仪都运行, 每周的周总利润为3X3 000=9 000(元).所以过去50周的周总利润的平均值为=4 600(元),1 000X10+5 000X35+9 000X550所以商家在过去50周的周总利润的平均值为 4 600元

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!