最新医学统计学复习资料-1-12

上传人：彩*** 文档编号：76733297 上传时间：2022-04-18 格式：DOC 页数：33 大小：1.07MB

收藏版权申诉举报下载

第1页 / 共33页

第2页 / 共33页

第3页 / 共33页

下载文档到电脑，查找使用更方便

46 积分

下载资源

资源描述：

《最新医学统计学复习资料-1-12》由会员分享，可在线阅读，更多相关《最新医学统计学复习资料-1-12（33页珍藏版）》请在装配图网上搜索。

1、精品文档医学统计学复习资料一、名词解释题1. 总体 (population) ：根据研究目的所确定的同质观察单位的全体。只包括 (确定的时间和空间范围内)有限个观察单位的总体，称为有限总体 (finite population) 。假想的，无时间和空间概念的，称为无限总体 (infinitepopulation)。2. (总体 )参数 (parameter) ：总体的统计指标或特征值。总体参数是事物本身固有的、不变的。3. 样本 (sample)：从总体中随机抽取的部分个体。4. 样本含量 (sample size)：样本中所包含的个体数。5. 变量 (variable) ：观察对象个体

2、的特征或测量的结果。由于个体的特征或指标存在个体差异，观察结果在测量前不能准确预测，故称为随机变量 (random variable) ，简称变量 (variable) 。变量的取值称为变量值或观察值 (observation) 。根据变量的取值特性，分为数值变量和分类变量。6. 数值变量 (Numerical variable) ：又称为计量资料、定量资料，指构成其的变量值是定量的，其表现为数值大小，有单位。对每个观察单位用定量的方法测定某项指标的数值，组成的资料。7. 计数资料：将全体观测单位按照某种性质或特征分组，然后再分别清点各组观察单位的个数。分类变量 (categorical

3、 variable) ：或称定性变量，其取值是定性的，表现为互不相容的类别或或属性，有两种情况：1)无序分类 (unordered categories)：包括二项分类，如上述“性别”变量，表现为互相对立的结果；多项分类，如上述“血型”变量，表现为互不相容的多类结果。2)有序分类 (ordered categories)：各类之间有程度上的差别，或等级顺序关系，有“半定量”的意义，亦称等级变量。等级资料：介于计量资料和计数资料之间的一种资料，通过半定量方法测量得到。2010-1-4精品文档精品文档8.抽样 (sampling)：从总体中抽取部分观察单位的过程称为抽样。9.抽样误差 (samp

4、ling error) ：由于抽样造成的统计量与参数之间的差别，特点是不能避免的，可用标准误描述其大小。10. 误差 (error) ：统计上所说的误差泛指测量值与真值之差，样本指标与总体指标之差。主要有以下二种：系统误差和随机误差。11. 可信区间 (confidence interval, CI )：按一定的概率或可信度(1- )用一个区间估计总体参数所在范围，这个范围称作可信度1-的可信区间，又称置信区间。12. 总体均数的可信区间：按一定的概率大小估计总体均数所在的范围(CI) 。常用的可信度为95和 99，故常用 95和 99的可信区间。13. 变异 (variation)

5、：同质事物间的差别。由于观察单位通常即为观察个体，故变异亦称为个体变异(individual variation) 。14. 组间变异 (variation between group) ：用各组均数与总均数的离均差平方和表示S组间2组间 =k-1， k 为实验分组数，组间均方为 MS 组间 =SS 组间 /( k-1)Sni ( xix )i15. 组内变异 (variation within group) ：用各组均数与总均数的离均差平方和表示S(x ij xi)22，各组自由度为i ，则组内自由度为组内 =N-k，组内均方为(ni 1 )sin -1S组内ijiMS 组内

6、 =SS 组内 /( N -k)16. 平均数 (average)：也叫平均值，是一组 (群 )数据典型或有代表性的值。这个值趋向于落在根据数据大小排列的数据的中心，包括算术平均数(arithmetic mean) 、几何平均数 (geometric mean)、中位数 (median) 等。17. 中位数 (median) ：将一组观察值按升序或降序排列，位次居中的数，常用M 表示。适用于偏态分布资料或不规则分布资料和开口资料。所谓 “开口 ”资料，是指数据的一端或两端有不确定值。当n 为奇数时，M=X (n+1)/2 ；当 n 为偶数时， M=X n/2+ X n/2+1/2。18.

7、百分位数 (percentile) ：是一种位置指标，以Px 表示，一个百分位数Px 将全部观察值分为两个部分，理论上有x%的观察值小于Px 小，有 (1-x%) 的观察值大于Px。精品文档精品文档19. 变异系数 (coefficient of variance, CV) ：亦称离散系数 (coefficient of dispersion)，为标准差与均数之比，常用百分数表示。CVs/ X100% , 变异系数没有度量衡单位，常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。20. 统计表 (statistical table) ：统计表就是以表格的形式，表达被研究对

8、象的特征、内部构成及研究项目分组之间的数量关系。21. 频率 (relative frequency) ：在 n 次随机试验中，事件A 发生了 m 次，则比值mA发生的试验次数f称为事件A 在 n 次试验中出现的频率 (relative frequency)。m 称为出现的n 试验的总次数频数 (frequency) 。在实际工作中，当观察单位的例数足够多时，可以用频率来代替概率。频率是概率的估计值。22. 概率 (probability) ：在重复试验中，事件 A 的频率，随着试验次数的不断增加将愈来愈接近一个常数p，这个常数p 就称为事件A 出现的概率 (probability) ，记

9、作 P(A) 或 P。描述随机事件发生的可能性大小的数值，常用P 来表示。23. 统计量 (statistic)：由样本所算出的统计指标或特征值。24. 相关系数 (correlation coefficient)：用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标，称为相关系数，又称为积差相关系数 (coefficient of product-moment correlation) ，总体相关系数用希腊字母表示，而样本相关系数用r 表示，取值范围均为-1, 1 。25. 回归系数 (regression coefficient)：直线回归方程?Y =

10、a+bX 的系数 b 称为回归系数，也就是回归直线的斜率 (slope)，表示 X 每增加一个单位， Y 平均改变b 个单位。26. 参考值范围 (reference range)：也称为正常值范围 (normal range)，医学上常把绝大多数正常人的某指标值范围称为该指标的正常值范围。绝大多数：可以是 90%、95% 、99%等等，最常用的是95%。正常人：不是指健康人，而是指排除了影响所研究指标的疾病和有关因素的同质人群。又称参考值范围，是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。精品文档精品文档27. 正偏态和负偏态分布：频数分

11、布可分为对称分布和非对称分布两种类型。非对称分布又称为偏态分布是指观察值偏离中央的分布。当尾部偏向数轴正侧 (或右侧 )时，称正偏态 (或右偏态 )分布，如人体中一些重金属元素的分布等。反之，尾部偏向数轴负侧 (或左侧 )时，则称为负偏态 (或左偏态 )分布。，28. 统计推断 (statistic inference)：从总体中随机抽取一定含量的样本进行研究，目的是通过样本的信息判断总体的特征，这一过程称为统计推断。29. 标准误 (standard error, SE)：在统计理论上将样本统计量的标准差称为标准误，用来衡量抽样误差的大小。据此，样本均数的标准差

12、X称为标准误。30. 参数估计 (parameterestimation)：由样本信息估计总体参数。它包括两种：点估计 (pointestimation)和区间估计 (interval estimation) 。31. 点估计 (point estimation) ：直接用样本统计量作为对应的总体参数的估计值。32. 区间估计 (interval estimation)：按一定的概率或可信度(1-)用一个区间估计总体参数所在范围，这个范围称作可信度1-的可信区间 (confidence interval, CI )，又称置信区间。这种估计方法称为区间估计。33. 95% 可

13、信区间含义：如果重复若干次样本含量相同的抽样，每个样本均按同一方法构建 95% 可信区间，则在这些可信区间中，理论上有95 个包含了总体参数，还有5 个未估计到总体均数。34.类错误(type error) ：统计学上规定，拒绝了实际上成立的H0，这类 “弃真 ”的错误称为型错误或第一类错误，型错误的概率用表示。35.类错误(type error) ：统计学上规定，不拒绝实际上不成立的H 0，这类 “存伪 ”的错误称为型错误或第二类错误，型错误的概率用表示。36. 检验效能 (power of a test)：又称把握度，即两总体确有差别，按水准能发现它们有

14、差别的能力。37. 参数检验：总体分布已知，对其中一些未知参数进行估计或检验。这类统计推断的方法叫参数统计或参数检验。参数检验：假定比较数据服从某分布 ,通过参数的估计量 ( x , s)对比较总体的参数 ()作检验，统计上称为参数法检验 (parametric test) 。如 t、u 检验、方差分析。精品文档精品文档38. 非参数检验：适用于任意分布 (distribution free) 的统计方法，这种方法称为非参数统计。这种假设检验方法，比较的是分布而不是参数，故称为非参数检验。非参数检验：是指在统计检验中不需要假定总体分布形式和用参数估计量，直接对比较数据的分

15、布进行统计检验的方法，称为非参数检验(nonparametric test).39. 率 (rate) ：又称频率指标，用以说明某现象发生的频率或强度。常以百分率 (%) 、千分率 ( )、万分率 (1/万 )、十万分率 (1/10 万 )等表示。其计算公式为：实际发生某现象的观察单位数率比例基数 (K)可能发生某现象的观察单位总数40. 构成比 (proportion) ：又称构成指标，它说明一种事物内部各组成部分所占的比重或分布，常以百分数表示，其计算公式为：某一组成部分的观察单位数构成比100%同一事物内各组成部分的观察单位总数41. 比 (ratio) ：又称相对比

16、，是 A 、B 两个有关指标之比，说明A 为 B 的若干倍或百分之几，它是对比的最简单形式。其计算公式为：比 =A/B 。二、问答题和简答题1. 常见的三类误差是什么？应采取什么措施和方法加以控制？答：常见的三类误差是：(1) 系统误差：在收集资料过程中，由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因，可造成观察结果倾向性的偏大或偏小，这叫系统误差。要尽量查明其原因，必须克服。(2) 随机测量误差：在收集原始资料过程中，即使仪器初始状态及标准试剂已经校正，但是，由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。譬如，实验操作员操作技术不稳定

17、，不同实验操作员之间的操作差异，电压不稳及环境温度差异等因素造成测量结果的误差。对于这种误差应采取相应的措施加以控制，至少应控制在一定的允许范围内。一般可以用技术培训、指定固定实验操作员、加强责精品文档精品文档任感教育及购置一定精度的稳压器、恒温装置等措施，从而达到控制的目的。(3) 抽样误差：即使在消除了系统误差，并把随机测量误差控制在允许范围内，样本均数（或其它统计量）与总体均数（或其它参数）之间仍可能有差异。这种差异是由抽样引起的，故这种误差叫做抽样误差，要用统计方法进行正确分析。2. 抽样中要求每一个样本应该具有哪三性？答：从总体中抽取样本，其样本应具有“代表性” 、“随机性”和“可靠

18、。性”(1) 代表性 : 就是要求样本中的每一个个体必须符合总体的规定。(2) 随机性 : 就是要保证总体中的每个个体均有相同的几率被抽作样本。(3) 可靠性 : 即实验的结果要具有可重复性，即由科研课题的样本得出的结果所推测总体的结论有较大的可信度。由于个体之间存在差异, 只有观察一定数量的个体方能体现出其客观规律性。每个样本的含量越多，可靠性会越大，但是例数增加，人力、物力都会发生困难，所以应以“足够”为准。需要作“样本例数估计”。3. 什么是两个样本之间的可比性？答：可比性是指处理组（临床设计中称为治疗组）与对照组之间，除处理因素不同外，其他可能影响实验结果的因素要求基本齐同，也称为齐同

19、对比原则。4. 标准正态分布 (u 分布 )与 t 分布有何异同？相同点：集中位置都为0，都是单峰分布，是对称分布，标准正态分布是t 分布的特例 (自由度是无限大时)不同点： t 分布是一簇分布曲线，t 分布的曲线的形状是随自由度的变化而变化，标准正态分布的曲线的形状不变，是固定不变的，因为它的形状参数为1。5. 标准差与标准误有何区别和联系？区别： (1)含义不同 : s 描述个体变量值（x）之间的变异度大小，s 越大，变量值（ x）越分散；反之变量值越集中，均数的代表性越强。标准误是描述样本均数之间的变异度大小，标准误越大，样本均数与总体均数间差异越大，抽样误差越大；反之，样本均数越接近总

20、体均数，抽样误差越小。(2) 与 n 的关系不同：n 增大时， s（恒定）。标准误减少并趋于0（不存在抽样误差）。精品文档精品文档(3) 用途不同 : s:表示 x 的变异度大小，计算 cv，估计正常值范围，计算标准误等 :参数估计和假设检验。联系：二者均为变异度指标，样本均数的标准差即为标准误，标准差与标准误成正比。6. 应用相对数时的注意事项有哪些？要注意绝对数与相对数结合应用；要注意观察单位样本数不宜过小；要注意分子分母正确选用；要注意率与比的正确应用；要注意平均率的计算方法；要注意资料的可比性；率和构成比比较时作假设检验。7. 简述直线回归与直线相关的区别。(1) 资料要求上不

21、同：直线回归分析适用于应变量是服从正态分布的随机变量，自变量是选定变量；直线相关分析适用于服从双变量正态分布的资料。(2) 两种系数的意义不同：回归系数是表明两个变量之间数量上的依存关系，回归系数越大回归直线越陡峭，表示应变量随自变量变化越快；相关系数是表明两个变量之间相关的方向和紧密程度的，相关系数越大，两个变量的关联程度越大。8. 何谓抽样误差？分别写出均数的抽样误差和率的抽样误差的描述指标及计算公式。答：总体中的个体间存在变异，在进行抽样研究时，样本的统计量不等于总体参数，这种误差称为抽样误差。均数的抽样误差：常用样本均数的标准差X(简称标准误 )反映均数抽样误差的大小。 /n (理X

22、论值 )， SXs/ n ( 估计值 ) 。率的抽样误差：常用率的标准误 p 反映率的抽样误差的大小。p (1 )/n (理论值 )， spp(1p)/n(估计值 )。9. 假设检验的理论依据是什么？请简述假设检验的基本步骤。答：假设检验的理论依据是小概率事件原理，步骤为：(1) 根据研究目的建立假设，确定检验水准(2) 根据样本统计量的抽样分布规律，选择适当的统计方法，计算检验统计量(3) 确定 P 值，做出推断结论10. 方差分析的基本思想是什么？你所知道的其用途有哪些？精品文档精品文档答：方差分析的基本思想就是按研究目的和设计类型，将总变异的离均差平方和SS 和自由度v 分别分

23、解成若干部分，并求得各相应部分的变异；其中的组内变异或误差主要反映个体差异或抽样误差，其它部分的变异与之比较得出统计量F 值，由 F 值的大小确定P 值，并做出推断。方差分析应用广泛，可用于 :两个或多个样本均数间的比较；分析两个或多个因素间的交互作用；回归方程的线性假设检验；多元线性回归分析中偏回归系数的假设检验等。本章主要介绍完全随机设计资料的方差分析、配伍组设计资料的方差分析及重复测量数据的方差分析。11.完全随机设计的两样本率比较时，如何正确选择统计分析方法（写出相应的计算公式）。(1) 当总例数 n40 且所有格子的 T 5 时，用2 检验的基本公式或四格表资料2 检验的专用公式；当

24、 P 时，改用四格表资料的Fisher 确切概率法。公式为：2(A T)22(adbc)2 nT， v=(行数 -1)( 列数 -1)b)(cd)(a c)(bd)(a(2) 当 n40 但有1T 5 时，用四格表资料2 检验的校正公式；或改用四格表资料的Fisher 确切概率法的2(A T -0.5)22n( adbc - n/2) 2连续性校正法：，b)(c d)(a c)(bd)T(a(3) 当 n40，或 T 1时，用四格表资料的 Fisher 确切概率法。12. 什么是医学参考值范围？估计医学参考值范围如何正确选用统计方法？答：医学参考值范围是指所谓“正常人”的解剖、生理、生化等指

25、标的波动范围，亦称正常值范围。如 95的参考值范围包括了95的观察值，而有5的观察值不在这一范围内。估计医学参考值范围确定方法：(1) 正态分布法：适用于正态或近似正态分布的资料双侧界值 XusX ；单侧上界XusX ；单侧下界XusX(2) 对数正态分布法：适用于对数正态分布的资料双侧界值 lg 1( XusX ) ；单侧上界 lg 1 ( XusX ) ；单侧下界 lg 1 ( XusX )(3) 百分位数法：用于偏态资料精品文档精品文档双侧界值 (P2.5, P97.5 )；单侧上界P95；单侧上界P513. 什么是假设检验中的两类错误？什么是检验效能?其大小与哪些因素有关？答：假设检

26、验中的第一类错误是指“拒绝了实际上成立的H 0 假设”时所犯的错误，当H 0 成立时犯第一类错误的概率等于检验水准。假设检验中的第二类错误是指“不拒绝实际上不成立的H 0 假设”时所犯的错误，其概率通常用表示，其大小与抽样误差大小及设定的检验水准有关。 1-为假设检验的检验效能，也就是两个总体确实有差别时检出该差别的能力；14. 2 检验的基本思想是什么？其用途主要有哪些？答：2检验的基本思想：其计算公式为2(AT) 2，式中 A 代表实际频数； T 代表理论频数；而T2值反映了实际频数与理论频数的吻合程度，其中(AT) 2反映了某个格子实际频数与理论频数的吻合程T度。若检验假设 H 0

27、成立，实际频数与理论频数的差值会小，则 2 值也会小；反之，若检验假设 H 0 不成立，实际频数与理论频数的差值会大，则2 值也会大。 2 检验的用途：a、单样本的拟合优度检验；b、比较两个独立样本的频率分布是否不同；c、多个独立样本的频率分布是否不同；d、比较配对样本的频率分布；15. 对两个随机变量进行关联性或相关性分析时，如何正确选择统计分析方法（写出相应的公式）？答：两变量为数值变量时：a、若两变量均为正态随机变量，且其散点图呈直线趋势，则用直线相关分析，计算样本相关系数：l xyx x yyrx 2y y 2lxx l yyx然后对其进行假设检验：H0： =0H1： 0 =0.0

28、5精品文档精品文档rt， v=n-2(1r 2 )/(n2)b、若两变量为非正态分布，则用等级相关分析。将两变量各自按由小到大的顺序排秩，编上秩次，求各对数据的秩次之差，记为di。按下式计算Spearman 等级相关系数：6di2rs 11n n2然后对其进行假设检验：H0： =0H1： 0 =0.05当 n 50时，查 Spearman 等级相关系数界值表；当n50 时，按下式计算检验统计量u：u rs n1 ，根据标准正态分布的概率函数确定P 值，作出推断结论。两变量为分类变量时：a、两变量均为无序多分类变量时：用行列表的2 检验：H0：两变量无关联H1：两变量有关联 =0.052A T2

29、A2n，行数1 列数1T1nRnC2若拒绝 H0，接受 H 1，可计算 Pearson 关联系数： Pn2b、两变量均为有序多分类变量时，可用Spearman 等级相关分析，方法同前。16. 简述 t 检验的具体步骤，如何进行检验结果判断？步骤： (1)建立假设和确定检验水准； (2) 计算统计量； (3) 确定 P 值； (4)判断结果。结果的判断：P ，接受 H0 ，差异无显著性，可认为差异是由抽样误差所致。P ，拒绝H0，差异有显著性，可认为样本间存在差异。精品文档精品文档17. 统计表和统计图的用途是什么？统计工作中，用统计表和统计图的形式说明资料在数量方面的大小，变动趋势，分布情况

30、以及相互关系，以代替冗长的文字叙述，使结果一目了然，便于阅读，便于分析和比较。18. 抽样研究中如何才能控制或减小抽样误差？答：合理的抽样设计，增大样本含量。19. 何谓抽样误差？为什么说抽样误差在抽样研究中是不可避免的？答：由抽样造成的样本统计量与样本统计量，样本统计量与总体参数间的差异因为个体差异是客观存在的，研究对象又是总体的一部分，因此这部分的结果与总体的结果存在差异彩是不可避免的20. 能否说假设检验的 p 值越小，比较的两个总体指标间差异越大？为什么？答：不能，因为P 值的大小与总体指标间差异大小不完全等同。P 值的大小除与总体差异大小有关，更与抽样误差大小有关，同样的总体差异，抽

31、样误差大小不同，所得的P 也会不一样，抽样误差大小实际工作中主要反映在样本量大小上。21. 在秩和检验中，为什么在不同组间出现相同数据要给予“平均秩次”，而在同一组的相同数据不必计算平均秩次？答：这样编秩不影响两组秩和的计算，或对两组秩和的计算不产生偏性。22. 某医生用某药治疗10 例小儿支气管哮喘，治愈 8 例，结论为 “该药对小儿支气管哮喘的治愈率为80% ，值得推广 ”。答：一是没有对照组，二是样本例数太少，抽样误差大，可信区间宽。23. 某地岁婴儿平均血红蛋白95可信区间为116.2130.1(g/L) ，表示什么意义？该地1 岁正常婴儿血红蛋白 95的参考值范围为111.2135.

32、1(g/L) ，又说明了什么含义？答：表示该地岁婴儿血红蛋白总体平均数在116.2130.1(g/L)，估计正确的概率为95%表示该地有95 1 岁正常婴儿的血红蛋白值在111.2135.1(g/L)精品文档精品文档24. 对同一组资料，如果相关分析算出的r 越大，则回归分析算出的b 也越大。为什么？答：没有这个规律。相关分析r 值大小仅说明变量间联系紧密，而回归分析b 的大小说明两者数量关系。25. 某医生用某药治疗10 例小儿支气管哮喘，治愈 8 例，结论为 “该药对小儿支气管哮喘的治愈率为80% ，值得推广 ”。答：一是没有对照组，二是样本例数太少，抽样误差大，可信区间宽。25. 描述集

33、中趋势的指标有哪些？其适用范围有何异同？（5 分）均数：适用于正态或近似正态分布几何均数：适用于等比数列或对数正态分布资料中位数：适用于资料是偏态分布的；分布不规则；一端或两端有不确定数据（开口资料）时。26. 何谓假设检验？可以举例说明。（ 5 分）首先建立检验假设，然后在该假设下进行随机抽样，计算得到该统计量及其极端情形的概率，如果概率较小，则拒绝该假设，如果概率不是小概率，则接受该假设，这个过程称为假设检验。27. 请你谈谈对假设检验结论的认识。（ 5 分）由于假设检验的结论是依据小概率事件一次试验实际不可能发生的原理进行的，因此当拒绝检验假设时可能犯 I 型错误，当接受检验假设时可

34、能犯II 型错误。28. 请你谈谈标准差和标准误的异同点。（5 分）区别点标准差标准误意义个体差异大小抽样误差大小2(X)总体标准差： N计算公式 /n2X(X X)2 ( X )2 /nX样本标准差： s或 sn - 1n - 1与 n 的关 n，则 Sn，则 0X精品文档精品文档系与均数结合可计算总体用途与均数结合可制定参考值范围均数的可信区间31. 简述怎样描述一组计量资料的集中趋势和离散趋势描述集中位置的指标：均数：适用于正态或近似正态分布；几何均数：适用于等比数列或对数正态分布资料；中位数：适用于资料是偏态分布的；分布不规则；一端或两端有不确定数据（开口资料）时。描述离散趋势的指标

35、：极差 (Range)：记为 R，又称全距，指一组数据中最大值和最小值之差。极差大，说明资料的离散程度大。四分位数(quartile) ：记为Q，即 P25 和 P75。对 P25 来说，有25%(1/4) 的观察值小于 P25，称为下四分位数，记为QL ；对 P75 来说，有25%(1/4) 的观察值大于P75，称为上四分位数，记为QU 。所谓四分位数间距(inter-quartile range) ：就是上四分位数与下四分位数之差，即。其间包含了全部观察值的一半。四分位数间距大，说明变异度大；反之，说明变异度小。方差：离均差的平方和除以N 得总体方差。离均差：数据集中各个观察值与均数之差。

36、标准差是描述个体值变异程度的指标，为方差的算术平方根，该变异不能通过统计方法来控制。全面反映了一组观察值的变异程度。变异系数：标准差与均数之比，用百分数表示。32. 试述假设检验中 I 型错误与 II 型错误的意义及关系。答：拒绝了实际上成立的H0，这类“弃真”的错误称为型错误(typeerror) 或第一类错误；不拒绝实际上不成立的 H0，这类“存伪”的错误称为型错误(typeerror)或第二类错误。型错误的概率用表示，是根据研究者的要求在计算检验统计量之前设定的。型错误的概率用表示，一般地，的大小和样本例数、值、两总体的实际差距有关，它只有与特定的H1 结合起来才有意义，而通常的检验假

37、设其总是非特定的，所以值的大小很难确切估计。仅知道样本例数确定时，越小，越大，反之，越大，越小。所以和是相互制约的，可以根据研究要求适当控制。要同时减少及，唯一的方法是增加样本例数，当样本例数确定后，可以通过选定来控制。若重点减少，一般取较小的；若重点减少，一般取=0.05，=0.1 或更高，精品文档精品文档因为虽属未知，但估计比取=0.01 时小些。33. 试比较完全随机设计和随机区组设计资料的方差分析基本思想。(1) 完全随机设计资料的方差分析完全随机设计(completely random design) ：亦称成组设计。该设计仅涉及一个研究因素，k 个不同的水平(k 个分

38、组 )。用单因素方差分析(one-way ANOV A) 。三种变异：SS 总=SS 组间 +SS 组内(2) 随机区组设计资料的方差分析随机区组设计(random block design)：又称配伍设计，是配对设计的扩展。四种变异： SS 总= SS 处理 + SS 区组 + SS 误差，总 =kb-134. 试比较标准差和标准误的关系与意义。答：标准差是描述个体值变异程度的指标，为方差的算术平方根，该变异不能通过统计方法来控制。而标准误则是指样本统计量的标准差，均数的标准误实质是样本均数的标准差，它反映了样本均数的离散程度，也反映了样本均数与总体均数的差异，说明了均数的抽样

39、误差。35. 简述非参数检验的应用条件和优缺点。答：应用条件：有序分类资料、偏态分布资料、变异较大或方差不齐的资料、分布型不明的资料及有特大、特小值或数据的一端或两端有不确定数值的资料。主要优点是不受总体分布的限制，适用范围广。主要缺点是符合参数检验的资料(两样本均数比较的t 检验 )，如用非参数检验，因没有充分利用资料提供的信息，检验效率降低。36. 常见非线性回归有哪几种 ?答：常见的非线性回归： Quadratic二次模型Y=b 0+b 1X+b 2X 2， Compound 复合模型 Y=b 0b1X ,Growth生长模型 Y=e b0+b1X ， Logarit

40、hmic 对数模型Y=b 0+b1ln X ， Cubic 三次模型 Y=b 0+b1X+b 2X 2+b 3X 3，S模型Y=eb0+b1/X ， Exponential 指数模型Y= b0b1X ， Inverse 逆模型 Y=b 0 1 ，Power幂模型e+b /XY=b 0X b1， Logistic 模型 Y1。1ea bX37. 复相关系数与确定系数的定义与意义精品文档精品文档答：复相关系数：RR2 称为复相关系数。 R 的意义： Y 与多个自变量间的线性相关程度；Y 与?估计值 Y 间的相关程度。确定系数：相关系数的平方称为确定系数，它反映回归贡献的程度。相当于在总离均差平方

41、和中回归能解释的百分比。即说明回归贡献占Y 的总变异中的比例。38. 什么是可信区间，可信区间有哪两个要素？答：可信区间：按一定的概率或可信度(1- )用一个区间估计总体参数所在范围，这个范围称作可信度1-的可信区间 (confidence interval, CI) ，又称置信区间。可信区间的两个要素：准确性：又称可靠性，反映为可信度1-的大小，显然可信度愈接近1 愈好。精确性：常用可信区间的长度CL CU 来衡量。当然长度愈小愈好。精确性与变量的变异程度大小、样本例数和 1-取值有关。39. 常用非参数假设检验方法有哪些?答：常用的非参数检验方法有符号检验、秩和检验、等级相关检验及Ra

42、dit 分析等。40. 简述正态分布的应用。答： (1)估计频数分布，(2) 制定参考值范围，(3)质量控制：为了控制实验中的检测误差，常以2 s 作为上、下警戒值，以 3 s 作为上、下控制值。(4)统计分析方法的基础。41. 简述医学参考值范围含义并写出95% 双侧医学参考值范围的两种计算方法及公式。答：医学参考值范围，是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。95% 双侧医学参考值范围的两种计算方法及公式(1) 正态分布法：1-参考值范围公式，双侧： X u/2,S；单侧： Xu ,S 或 P或 P100 。1-P p1001001004

43、2. 简述秩相关的适用范围。答：秩相关的适用范围：(1) 不服从双变量正态分布而不宜作积差相关分析；(2)总体分布类型未知；(3) 原精品文档精品文档始数据用等级表示。43. 简述假设检验的注意事项。答：假设检验的注意事项：假设检验时可能犯两类错误；选择检验方法要注意符合其应用条件；正确理解假设检验的结论；当差别无显著性时，有两种可能；统计学的显著性与否和日常生活中的显著性概念不同；单侧检验与双侧检验。44. 简述正态分布的特征。答： (1) 单峰分布；当X= 时，f(X) 取最大值；总体中位数亦为。(2) 以均数为中心，左右完全对称。(3) 正态分布取决于两个参数，即均数和标准差。

44、(4) 有些指标不服从正态分布，但通过适当的变换(transformation) 后服从正态分布(5) 正态分布曲线下的面积分布是有规律的。45. 简述频数表的主要用途。答： (1) 通过频数表了解数据的分布特征。X 值分布情况：偏态或正态分布；取值情况：变量值取值范围；集中趋势：变量值集中位置。(2) 便于发现资料中的可疑值。(3) 组段的频率作为概率的估计。46. 简述 t 分布的特征。答： (1)一簇单峰分布曲线；(2) 以 0 为中心，左右对称；(3) 与自由度有关，自由度越小，t 分布的峰越低，而两侧尾部翘得越高；自由度逐渐增大时，t 分布逐渐逼近标准正态分布；当自由度为无穷大时，t

45、分布就是标准正态分布。47. 简述秩和检验的应用范围。答：秩和检验的适用范围广，特别适用于组间比较：(1) 数据分布为偏态分布或不满足参数检验方法(组间方差不齐 )的计量资料。精品文档精品文档(2) 有的数据为无确切值，只是某值或值的计量资料。(3) 当比较的数据只能用严重程度、优劣等级的半定量 (等级 )资料组间的比较。秩和检验用于定量资料计量资料中，变量值(x)：极度偏态资料，或个别数值偏离过大；各组离散度相差悬殊；资料中含有不确定值 ,大于 5 年、0.1；兼有等级和定量性质的资料。48. 什么是百分位数？写出计算公式。答：百分位数 (percentile)：是一种位置指标，

46、以Px 表示，一个百分位数Px 将全部观察值分为两个部分，理论上有 x%的观察值小于Px 小，有 (1-x%) 的观察值大于 Px。计算定义：将一组变量值由小到大依次排列，为第 x 百分位数的秩次，其对应的变量值 (x) 为第 x 百分位数，记为 Px。百分位数计算公式：(1) 直接法将样本值由小到大排队，用nX% 确定 Px 的位次和 Px。当 nX% 为带有小数位时用公式：PXX trunc(nX%1)当 nX% 为带有小数位时用公式：PX1 X (nX%)X (nX% 1)2函数 trunc(a) ：表示对数字取其整数。(2) 频数表法 (例数较多 )用公式： PXL X i X (

47、nX%fL )f XL X ：第 X% 位数所在组段的下限值i X ：第 X% 位数所在组段的组距f X ：第 X% 位数所在组段的频数f L ：第 X% 位数所在组段上个组段的累计频数精品文档精品文档49. 绘制统计表、统计图的原则和基本要点是什么？答：编制统计表的原则：重点突出，一张表只表达一个中心内容。主语在左，宾语在右，从左至右构成一句完整而通顺的话。简单明了，文字、数字与线条尽量简洁。编制统计表的要求：标题：概括说明表的内容，必要时注明时间和地点，字数一般不超过20 个。常见缺点：过于简单；过于繁琐；题意不确切、具体。标目：简明确切，有单位的要注明单位。常见缺点：标目层次过多；含

48、意不确切；有单位的标目没有注明单位。线条：数字：一律用阿拉伯字表示；准确；整齐：同一指标的小数位数应一致；位次对齐。表内不留空格：暂缺或未记录，用表示；不应出现数字，用“”表示；数字为零，用“0”表示。备注：非表中必要的元素，一般不列入表内，必要时可用“*”标出，写在表的下面。绘制统计图的原则：标题：放在图的下方。标目：横标目说明横轴的内容，通常为分组因素；纵标目说明纵轴的指标和单位，通常为被描述事物的指标。刻度：坐标轴的刻度单位。图例：对统计图中的线条、颜色进行说明，位于右上角或下方中间位置。绘制统计图的要求：按资料的性质和分析目的选用适合的图形：间断性资料条图、圆图、百分条图；连续性资

49、料线图、直方图。要有标题，扼要说明资料的内容，必要时注明时间、地点，一般写在图的下面。条图、线图和直方图都有纵轴与横轴。纵横坐标长度的比例一般约5： 7 为宜。比较不同事物时，用不同的线条或颜色表示，要附图例说明。三、教材课后简答题1. 对于一组近似正态分布的资料，除样本含量n 外，还可计算X ， S 和 X1.96S ，问各说明什么？答：三个指标分别说明：(1) X 为算术平均数，说明正态分布或近似正态分布资料的集中趋势；(2)S 为标准差，说明正态分布或近似正态分布资料的离散趋势；(3)X1.96S 可估计正态指标的95% 医学参考值范围，即此范围在理论上应包含总体的95% 个体值。精品

50、文档精品文档2. 试述正态分布、标准正态分布及对数正态分布的联系和区别。答：正态分布、标准正态分布及对数正态分布的联系和区别：正态分布标准正态分布对数正态分布原始值 X无需转换作 u=(X- )/转换作 Y=log X 转换分布类型对称对称正偏态集中趋势指标=0G均数与中位数的关系=M=M M3. 说明频数分布表的用途。答：频数分布表的用途是：(1) 描述频数分布的类型；(2) 描述频数分布的特征；(3) 便于发现一些特大或特小的可疑值；(4) 便于进一步做统计分析和处理。4. 变异系数的用途是什么？答：变异系数的用途：常用于观察指标单位不同时，如身高与体重的变异程度的比较；均数相差较大时，如儿童身高与成人身高变异程度的比较。5. 试述正态分布的面积分布规律。答：正态分布的面积分布规律是：(1)X 轴与正态曲线所夹面积等于1 或 100%； (2)区间的面积为68.27%，区间 1.96的面积为95.00% ，区间 2.58的面积为 99.00%。6. 试举例说明均数的标准差与标准误的区别与联系。答：例如某医生从某地2000 年的正常成年男性中，随机抽取25 人，算得其血红蛋白的均数X 为 138.5g/L ，标准差 S 为 5.20g/L ，标准误 SX 为 1.04g/L 。在本

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

最新医学统计学复习资料-1-12

最新文档

相关资源

相关搜索