人民大学统计学在职题库统计综述问题详解

上传人：痛*** 文档编号：107113481 上传时间：2022-06-14 格式：DOC 页数：76 大小：1.75MB

收藏版权申诉举报下载

第1页 / 共76页

第2页 / 共76页

第3页 / 共76页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《人民大学统计学在职题库统计综述问题详解》由会员分享，可在线阅读，更多相关《人民大学统计学在职题库统计综述问题详解（76页珍藏版）》请在装配图网上搜索。

1、word1中国人民大学承受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：1一、 20分随机抽取20块手机电池，测得其使用寿命数据如下单位：小时：10089939981007101110021013999100899598399510009771015101099810051011996列出描述上述数据所适用的统计图形，并说明这些图形的用途。直方图：直观的展示一组数据电池使用寿命的分布情况。箱线图：直观反映原始数据电池寿命的数据分布的特征，如偏态，是否有离群点。二、 20分方差分析中有哪些根本假定？这些假定中对哪个假定的要求比拟严格？1、

2、方差分析有3个根本假定： 1正态性：每个总体都应服从正态分布，即对于因子的每一个水平，其观测值是来自正态分布总体的简单随机样本；2方差齐性：各个总体的方差必须一样；3独立性：每个样本数据是来自因子各水平的独立样本2、对独立性要求比拟严格，独立性得不到满足会对方差分析结果有较大影响，对正态性和方差齐性的要求相比照拟宽松。三、 20分某种食品每袋的标准重量是100克，从该批食品中抽取一个随机样本，检验假设，。（1）如果拒绝，你的结论是什么？，如果不拒绝，你的结论是什么？（2）能否得到一个样本能够证明该食品的平均重量是100克？请说明理由。（3）如果由该样本得到的检验的类错误的概率，是实际算出

3、来的显著性水平，你怎样解释这个值？1拒绝：该种食品每袋的平均重量不是100g 不拒绝：提供的样本不能证明该种食品每袋的平均重量不是100g2不能，样本得出的结论只能是拒绝或不拒绝原假设，并不能直接确定原假设为真3结论：假如给定显著性水平为0.05，如此可以拒绝原假设，认为该食品每袋的平均重量不是100克；但假如给定显著性水平为0.01，如此不能拒绝原假设四、 20分在建立多元线性回归模型时，通常需要对自变量进展筛选。（1）请谈谈你对变量筛选的必要性的看法。（2）列出变量筛选的方法，请简要说明这些方法的特点。1假如将所有的自变量都引入回归模型，往往会导致所建立的模型不能进展有效的解释，也可能

4、会导致多重共线性，增加自变量还会导致判定系数增大，从而高估模型拟合优度。2变量筛选有向前选择、向后剔除、逐步回归等方法。特点如下：向前选择：从没有自变量开始，不停向模型中增加自变量，直到增加不能导致SSE显著增加为止。向后剔除：从所有自变量开始，不停从模型中剔除自变量，直到剔除不能导致SSE显著减小为止。逐步回归：结合向前选择和向后剔除，从没有自变量开始，不停向模型中增加自变量，每增加一个自变量就对所有现有的自变量进展考察，假如某个自变量对模型的贡献变得不显著就剔除。如此反复，直到增加变量不能导致SSE显著减少为止。五、 20分如果一个时间序列包含趋势、季节成分、随机波动，适用的预测方法有哪些

5、？对这些方法做检验说明。可以使用Winter指数平滑模型、引入季节哑变量的多元回归和分解法等进展预测。1Winter指数平滑模型包含三个平滑参数，即取值均在01，以与平滑值、趋势项更新、季节项更新、未来第k期的预测值。L为季节周期的长度，对于季度数据，L=4，对于月份数据，L=12；I为季节调节因子。平滑值消除季节变动，趋势项更新是对趋势值得修正，季节项更新是t期的季节调整因子，是用于预测的模型。使用Winter 模型进展预测，要求数据至少是按季度或月份收集的，而且需要有四个以上的季节周期4年以上的数据。使用Winter 模型进展预测，要求数据至少是按季度或月份收集的，而且需要有四个以上的季节

6、周期4年以上的数据。2引入季节哑变量的多元回归对于以季度记录的数据，引入3个哑变量，其中=1(第1季度)或0(其他季度)，以此类推，如此季节性多元回归模型表示为：其中b0是常数项，b1是趋势成分的系数，表示趋势给时间序列带来的影响，b2、b3、b4表示每一季度与参照的第1季度的平均差值。3分解预测第1步，确定并别离季节成分。计算季节指数，然后将季节成分从时间序列中别离出去，即用每一个时间序列观测值除以相应的季节指数以消除季节性。第2步，建立预测模型并进展预测。对消除了季节成分的时间序列建立适当的预测模型，并根据这一模型进展预测。第3步，计算出最后的预测值。用预测值乘以相应的季节指数，得到最终的

7、预测值。2中国人民大学承受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：2一、 20分在某小学随机抽取35名小学生，调查他们每周购置零食的花费情况，得到的数据如下单位：元：241726293862844398301726324010202743331542835264725172645163629375列出描述上述数据所适用的统计量，并说明这些统计量的用途。平均数：用于度量对象的一般水平。中位数分位数：用中间某个位置上的值代表数据水平，也用于度量对象的一般情况，且不受极值的影响具有稳定性。方差标准差：用于描述一组数据的差异水平，越大说明

8、数据的分布越分散不稳定。偏态系数：用于描述数据分布的不对称性，越接近0越对称。峰度系数：用于描述数据分布峰值上下，大于0为尖峰，小于0为扁平分布。二、 20分简要说明分布和分布在推断统计中应用。t分布：当正态总体标准差未知时，在小样本的条件下对总体均值的估计和检验要用到t分布。描述样本均值分布，用于对两个样本均值差异进展显著性测试、估算置信区间等。F分布：通常用于比拟不同总体的方差是否有显著差异。应用于方差分析、协方差分析和回归分析等，还可用于似然比检验。三、 20分什么是值？要证明原假设不正确，如何确定合理的值？P值：犯第I类错误的真实概率，也称观察到的显著性水平。是当原假设为真时，得到的样

9、本结果会像实际观测结果这样极端或者更极端的概率。假如要证明原假设不正确，如此由样本得到的P值应小于给定的显著性水平。四、 20分某企业准备用三种方法组装一种新的产品，为确定哪种方法每小时生产的产品数量最多，随机抽取了30名工人，并指定每个人使用其中的一种方法。通过对每个工人生产的产品数进展方差分析得到下面的结果：方差分析表差异源SSdfMSFP-value组间210组内3836总计2(1) 完成上面的方差分析表。(2) 组装方法与组装产品数量之间的关系强度如何？(3) 假如显著性水平，检验三种方法组装的产品数量之间是否有显著差异？1差异源SSdfMSFP-value组间2*210=420I-1

10、=2210组内383630-3=27总计420+3836=4256292从P值来看，组装方法与组装产品数量之间的关系强度较弱。3原假设：三种方法每小时组装的产品数量没有差异假如显著性水平为0.05，如此P0.05，因此不能拒绝原假设，即不能证明三种方法组装的产品数量之间有显著差异。五、 20分简要说明分解预测的根本步骤。第1步，确定并别离季节成分。计算季节指数，然后将季节成分从时间序列中别离出去，即用每一个时间序列观测值除以相应的季节指数以消除季节性。第2步，建立预测模型并进展预测。对消除了季节成分的时间序列建立适当的预测模型，并根据这一模型进展预测。第3步，计算出最后的预测值。用预测值乘以相

11、应的季节指数，得到最终的预测值。3中国人民大学承受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：3一、 20分在2008年8月10日举行的第29届奥运会女子10米气手枪决赛中，进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表：要对各名运动员进展综合评价，使用的统计量有哪些？简要说明这些统计量的用途。1集中趋势：指一组数据向某一中心值靠拢的程度，它可以反映选手射击成绩中心点的位置平均数：一组数据相加后除以数据的个数得到的结果。假如各组数据在组内是平均分布的，如此计算的结果还是比拟准确的，否如此误差会比拟大。如中国选手发挥很稳定，

12、适合使用平均数判断其成绩中位数：一组数据排序后处于中间位置上的变量值，但不受极端值的影响。如波兰选手大多数成绩比拟平均，但有一枪打到8.1，会严重影响其平均值，但不会影响中位数2离散程度：各变量值远离其中心值的程度，它可以反映选手发挥的稳定性标准差：方差的平方根，能够很好的反映出数据的离散程度，假如选手的平均成绩差异不大，可以通过直接比拟标准差的方式进展衡量离散系数：一组数据的标准差与其相应的平均数之比，离散系数越大如此数据的离散程度也大，假如选手的平均成绩差异很大，如此需要计算离散系数比拟稳定性极差：一组数据的最大值与最小值之差，它容易受极端值的影响，不能反映中间数据的分散情况，但可从另一方

13、面选手是否存在发挥异常3分布形状峰态：峰态是对数据分布平峰或尖峰程度的测度，当K0时为尖峰分布，数据的分布更集中；当K0时为扁平分布，数据的分布越分散。通过对选手的峰态分布情况分析，可看出成绩分布是否平均。偏态：偏态是对数据分布对称性的测量，假如偏态系数明显不等于0，明确分布是非对称的，偏态系数的数值越大，表示偏斜的程度越大。通过对选手的偏态分布情况情况分析，可看出选手成绩分布是否对称，是否受比赛时长影响。二、 20分为什么说假设检验不能证明原假设正确？1假设检验的目的主要是收集证据拒绝原假设，而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据证据的强弱取决于P值的大小。因此，当拒

14、绝原假设时，明确样本提供的证据证明它是错误的；当没有拒绝原假设时，我们也没法证明它是正确的，因为假设检验的程序没有提供它正确的证据。2假设检验得出的结论都是根据原假设进展阐述的。我们要么拒绝原假设，要么不拒绝原假设。当不能拒绝原假设时，我们也不能说“承受原假设，因为没有足够的证据拒绝原假设并不等于你已经证明了原假设时真的，它仅仅意味着目前我们还没有足够的证据证明原假设，只表示目前的样本提供的证据还不足以拒绝原假设。3假设检验通常是先确定显著性水平，这等于控制了第类错误的概率；但犯第类错误的概率却是不确定的。在拒绝H0时，犯第类错误的概率不超过给定的显著性水平；当样本结果显示没有充分理由拒绝原假

15、设时，也难以确定第类错误发生的概率。因此，在假设检验中采用“不拒绝H0而不采用“承受H0的表述方法，这样在多数场合下便防止了第类错误发生的风险。三、 20分为估计公共汽车从起点到终点平均行驶的时间，一家公交公司随机抽取36班公共汽车，得到平均行驶的时间为26分钟，标准差为8分钟。（1）说明样本均值服从什么分布？依据是什么？（2）计算平均行驶时间95%的置信区间。（3）解释95%的置信水平的含义。，1样本均值服从正态分布。通过中心极限定理：设从均值为，方差为有限的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值、方差的正态分布。一般统计学中的n30为大样本，

16、此题中抽取了36个样本，因此样本均值服从正态分布。2n=36，=26，s=8，置信区间95%所以=平均行驶时间95%的置信区间为： = 26 x = 263一般地，如果将构造置信区间的步骤重复屡次，置信区间中包含总体参数真值的次数所占的比例称为置信水平。如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值，5%的区间不包含总体参数的真值，那么用该方法构造的区间称为置信水平为95%的置信区间。四、 20分设单因素方差分析的数学模型为：。解释这一模型的含义，并说明对这一模型的根本假定。单因素方差分析指的是只有一种处理因素在影响结果，或者说只有一个自变量在影响因变量的情况。1设任何一次实验

17、结果都可以表示成如下形式:Yi=+i其中Yi是第i次实验的实际结果，是该结果的最优估计值，其实就是总体均值，i是均值和实际结果的偏差也就是随机误差2假定i服从均值为0，标准差为某个定值的正态分布，把以上形式按照方差分析进展推广，假设我们要研究几种水平之间的差异，每种水平抽取一定样本并收集相关数据，那么模型公式可以表示为：Yij=i+ij其中Yij是第i组水平的第j个样本的实际结果，i是第i组的均值，ij是第i组第j个样本相对于实际结果的偏差。同样假定i服从均值为0，标准差为某个定值的正态分布，如果这i组水平没有差异，如此Yij应等于总体均值加上随机误差项。3为了方便统计推断，模型公式改为如下形

18、式：Yij=+i+ij其中表示不考虑分组时的总体均值，i表示第i组的附加效应，即在第i组时的均值改变情况，例如i=10，表示第i组的均值要比总体均值多10，如果这i组均值并无差异，那么1=2=3=.=i，反之如此不等，据此我们可以建立假设：H0：i取任意值时，i=0H1：i取任意值时，至少有一个i0结合差异分解的方差分析思路，我们发现i实际上就是处理因素导致的差异。五、 20分在多元回归中，判断共线性的统计量有哪些？简要解释这些统计量。1自变量间的相关系数矩阵：如果相关系数超过0.9的变量在分析时将会存在共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断，并不全面。2容忍

19、度Tolerance:以每个自变量作为应变量对其他自变量进、行回归分析时得到的残差比例，大小用1减决定系数来表示。该指标越小，如此说明该自变量被其余变量预测的越准确，共线性可能就越严重。3方差膨胀因子Variance inflation factor, VIF：其中为与其余m-1个自变量线性回归的决定系数。值越大，多元共线程度越严重。4、特征根Eigenvalue：主要包括条件指数和方差比。条件指数是最大特征根与每个特征根之比的平方根。当对应的方差比大于0.5时，可认为多元共线性严重存在4中国人民大学承受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：12

20、3201 考题卷号：4一、 20分在2008年8月10日举行的第29届奥运会男子10米气手枪决赛中，最后获得金牌和银牌的两名运动员10枪的决赛成绩如下表所示：运动员决赛成绩庞伟秦钟午根据上表计算的韩国运动员秦钟午的平均环数是10.05环，标准差是0.445环。比拟分析哪个运动员的发挥更稳定。1平均数、标准差：庞伟环，标准差是0.507；环，标准差是，由于庞伟的平均环数明显大于秦钟午，因此只比拟标准差不能说明二人的稳定性2中位数：庞伟，秦钟午的中位数=10，同样可以看出庞伟的成绩更优秀一些3极差：庞伟的极差=1.4，秦钟午的极差，两者极差一样4离散系数：综上所述，选手庞伟的成绩更优秀，但秦钟午

21、的发挥更稳定。二、 20分什么是统计意义上的显著性？为什么说统计上显著不一定就有现实意义？1在假设检验中，拒绝原假设称样本结果在“统计上是显著的；不拒绝原假设如此称结果是“统计上不显著的。“显著的在这里的意思是指非偶然的，它表示这样的样本结果不是偶然得到的，同样，结果是不显著的如此明确这样的样本结果很可能是偶然得到的。2在进展决策时，我们只能说P值越小，拒绝原假设的证据就越强，检验的结果也就越显著。当P值很小而拒绝原假设时，并不一定意味着检验的结果就有实际意义。因为在假设检验中的“显著仅仅是“统计意义上的显著。P值与样本的大小密切相关，样本量越大，检验统计量的值也就越大，P值就越小，就越可能拒

22、绝原假设。因此，当样本量很大时，解释假设检验的结果需要小心，因为在大样本情况下，总能把与假设值的任何细微差异查出来，即使这种差异几乎没有任何实际意义。因此，在实际检验中，不能把“统计意义上的显著性与“实际意义上的显著性混同起来。三、 20分简要说明判断一组数据是否服从正态分布的统计方法。1图示法1. P-P图以样本的累计频率作为横坐标，以按照正态分布计算的相应累计概率作为纵坐标，以样本值表现为直角坐标系的散点。如果数据服从正态分布，如此样本点应围绕第一象限的对角线分布。2. Q-Q图以样本的分位数作为横坐标，以按照正态分布计算的相应分位点作为纵坐标，把样本表现为直角坐标系的散点。如果数据服从正

23、太分布，如此样本点应围绕第一象限的对角线分布。3. 直方图频率直方图判断方法：是否以钟型分布，同时可以选择输出正态性曲线。4. 箱线图判断方法：观察矩形位置和中位数,假如矩形位于中间位置且中位数位于矩形的中间位置，如此分布较为对称，否如此是偏态分布。5. 茎叶图判断方法：观察图形的分布状态,是否是对称分布。2偏度、峰度检验法峰态：峰态是对数据分布平峰或尖峰程度的测度，当K0时为尖峰分布，数据的分布更集中；当K0时为扁平分布，数据的分布越分散。偏态：偏态是对数据分布对称性的测量，假如偏态系数明显不等于0，明确分布是非对称的，偏态系数的数值越大，表示偏斜的程度越大。3非参数检验非参数检验方法包括

24、Kolmogorov-Smirnov检验D检验和Shapiro- WilkW检验。当样本数N2000时，Kolmogorov-Smirnov的D统计量检验正态性；检验时，根据样本计算一个统计量即检验统计量D。它把样本分布的形状和正态分布相比拟，比拟得出一个数值p0p1，即实际的显著性水平来描述对这个想法的怀疑程度。如果p值小于给定的显著性水平，如此拒绝原假设，认为数据不是来自正态分布，反之如此认为数据来自正态分布。正态分布的拟合优度检验如 Pearson 2 检验、对数似然比检验四、 20分国家统计局目前对地区的划分中，将我国31个省市自治区划分为东部地区、中部地区、西部地区、东北地区。（

25、1）要分析四个地区的平均消费水平是否存在显著差异，所用的统计方法有哪些？这些方法的区别是什么？（2）你会选择什么方法进展分析？你的假设是什么？1可两两之间进展t检验或4组数据进展方差分析。T检验：两独立样本t 检验(two independent samples t-test)，又称成组 t 检验。适用于完全随机设计的两样本均数的比拟，其目的是检验两样本所来自总体的均数是否相等。完全随机设计是分别从不同总体中随机抽样进展研究，即本项目中从不同地区随机抽样进展研究相符合。单因素方差分析：研究一个分类型自变量对一个数值型因变量的影响，如本项目中就是研究四个不同地区对平均消费水平的影响。区别：T

26、检验属于均值分析，它是用来检验两类母体均值是否相等。均值分析是来考察不同样本之间是否存在差异，即两个不同地区之间消费水平是否存在显著差异；而方差分析如此是评估不同样本之间的差异是否由某个因素起主要作用，即消费水平的显著差异是否是由地区不同引起的。并且通过单因素方差分析只能得出4组数据是否存在显著差异，并不能得出具体是哪几个地区之间有显著差异。Kruskal-Wallis 检验。用于检验多个独立总体是否一样的一种非参数检验方法。原假设：四个地区平均消费水平相等，备择假设：四个地区平均消费水平不全相等。不需要方差分析的正态分布且方差相等的假设。该检验可用于顺序数据也可用于数值型数据2我选择

27、用单因素方差分析，因为本项目共分为4组数据，只要求分析他们之间是否存在显著差异，并不用确定具体差异如何存在的。原假设为：四个地区之间的平均消费水平没有显著差异。假如最终拒绝原假设，如此说明四个地区之间的平均水平存在显著差异。即证明了题目中的要求。因为对四个地区的分布和方差未知，选择非参数方法。五、 20分一家房地产评估公司想对某城市的房地产销售价格元/m2与地产的评估价值万元、房产的评估价值万元和使用面积m2建立一个模型，以便对销售价格作出合理预测。为此，收集了20栋住宅的房地产评估数据，由统计软件给出的局部回归结果如下显著性水平为95%：方差分析dfSSMSFSig.回归3残差16总计199

28、7831680Coefficients标准误差t StatP-valueInterceptX Variable 1X Variable 2X Variable 3对所建立的回归模型进展综合评价。1线性回归方程为其中第个回归系数的意义是，在其它自变量保持不变时，每变动一个单位，就平均变动个单位。例如在房产的评估价值和使用面积都不变的情况下，地产的评估价值每上升1万元，房地产销售价格就上升8147元。 2设，由值=3.879*，0.0013 故第2个回归系数显著，第1、3个回归系数不显著。 4多重判定系数它反映了因变量变异中能用自变量解释的比例，描述了回归直线拟合样本观测值的优劣程度。此处，明

29、确回归拟合效果很好。 5估计标准误差是的标准差的估计，反映了房地产销售价格的波动程度。 6有用。虽然该变量的局部系数没通过显著性检验，但并不意味着该变量没用，它在经济解释上可能还是有一定意义的，方程总体显著，说明方程包含该变量总体上是有用的。也可能是多重共线性造成了不显著。5中国人民大学承受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：5一、 20分为研究大学生的逃课情况。随机抽取350名大学生进展调查，得到的男女学生逃课情况的汇总表如下。是否逃课男女合计逃过课8488172未逃过课78100178合计162188350（1）这里涉与

30、的变量有哪些？这些变量属于什么类型？涉与的变量有性别、是否逃课。是否逃课与性别为分类型变量，不同性别的逃课和非逃课人数，为数值变量。（2）描述上述数据所适用的统计图形有哪些？可以用条形图、复式条形图，饼图、复式饼图，环形图。二、 20分现从一批零件中随机抽取16只，测得其长度单位：厘米如下：15.（1）如果要使用分布构建零件平均长度的置信区间，根本的假定条件是什么？在小样本(n V1,因此，女生的体重差异大2设男生的体重为X1,X1N(60,52)设Z1=(X1-60) / 5男生体重在55kg到65kg之间的概率为P,如此P()=P(-1Z11)=68%因此，男生有68%的体重在556

31、5kg之间。3设女生的体重为X2,如此X2N(50,52),设Z2=X2-50/ 5,如此Z2N(0,1)P(40X260)=P(-2Z22)=95%故女生有95%的体制在4060kg之间。二、 20分表示评价估计量的标准。评价估计量的标准主要有3个。无偏性。无偏性是指估计量抽样分布的期望值等于被估计的总体参数。设总体参数为，所选择的估计量为，如果E()=,如此称为的无偏估计量。有效性。有效性是指估计量的方差尽可能小。一个无偏估计量并不意味着它就非常接近被估计的总体参数，估计量与参数的接近程度是用估计量的方差来度量的。对同一总体参数的两个无偏估计量，有更小方差的估计量更有效。一致性。一致性是

32、指随着样本量的增大，点估计量的值越接近总体参数。一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。样本均值的标准误差x=/与样本量的大小有关，样本量越大，x的值就越小。因此，大样本量给出的估计量更接近总体均值u，从这个意义上来说，样本均值是总体均值的一个一致估计量。三、 20分一家房地产开发公司准备购进一批灯泡，公司打算在两个供货商之间选择一家购置，两家供货商生产的灯泡使用寿命的方差大小根本一样，价格也很相近，房地产公司购进灯泡时考虑的主要因素就是使用寿命。其中一家供货商声称其生产的灯泡平均使用寿命在1500小时以上。如果在1500小时以上，在房地产公司就考虑购置。由36只灯泡

33、组成的随机样本明确，平均使用寿命为1510小时，标准差为193小时。（1）如果是房地产开发公司进展检验，会提出怎样的假设？请说明理由。（2）如果是灯泡供给商进展检验，会提出怎样的假设，请说明理由。(1)设灯泡的平均使用寿命为u H0:u1500(使用寿命符合标准) H1:u1500(使用寿命不符合标准) 房地产开发公司倾向于证明灯泡的使用寿命小于1500个小时。因为这会损害公司的利益如果房地产公司非常相信灯泡的使用寿命在1500小时以上，也就没有必要抽检了通常备择假设用于表达研究者倾向于支持的看法，因此，备择假设为u 1500 灯泡供给商倾向于支持灯泡的使用寿命大于1500小时，所以备择假

34、设为：u 1500；原假设为：u 1500四、 20分什么是判定系数？它在回归分析中的主要作用是什么？1.判定系数是对估计的回归方程拟合优度的度量。引起y值变化的这种波动称为变差。变差主要有两种：一是自变量x的变化引起y变化，这局部的平方和称为回归平方和；二是除x以外的其他随机因素导致y变化，这局部变差的平方和称为残差平方和。变差的平方和 = 回归的平方和+残差的平方和判定系数R2=回归的平方和SSR/ 变差的平方和SST2.判定系数测度了回归直线对观测数据的拟合程度。回归直线拟合的好坏取决于SSR/SST比值的大小。各观测点越靠近直线，值越大，直线拟合的越好；值越小，直线拟合的越差。五、 2

35、0分说明分布的适用条件，如何判断某个过程产生的数据满足这一条件？1.当正态总体的标准差未知时，在小样本的条件下对总体均值的估计和检验要用到t分布2.正态性：可以划出样本数据的直方图和茎叶图或者P-P图，Q-Q图检验数据的正态性小样本：当样本的数量小于30个，当成小样本处理8中国人民大学承受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：8一、 20分在金融证券领域，一项投资的的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小，投资风险越低，预期收益率的变化越大，投资风险就越高。下面的两个直方图，分别反映了200种商业类股

36、票和200种高科技类股票的收益率分布。在股票市场上，高收益率往往伴随着高风险。但投资于哪类股票，往往与投资者的类型有一定关系。（1）你认为该用什么样的统计量来反映投资的风险？（2）如果选择风险小的股票进展投资，应该选择商业类股票还是高科技类股票？（3）如果你进展股票投资，你会选择商业类股票还是高科技类股票？1方差或标准差 2风险小的股票应选商业类股票 3如果选择风险小的股票，选择商业类股票，如果选择高收益的股票，选择高科技类股票。二、 20分某种感冒冲剂规定每包重量为12克，超重或过轻都是严重问题。从过去的生产数据得知克，质检员抽取25包冲剂称重检验，平均每包的重量为11.85克。假定产

37、品重量服从正态分布。（1）根据上述检验计算出的，感冒冲剂的每包重量是否符合标准要求？（2）说明上述检验中可能犯哪类错误？该错误的实际含义是什么？(1) 点评人：原假设为H0：产品符合标准要求，由于P值小于0.05，因此拒绝原假设，即，每包重量不符合标准要求。【P为犯第一类错误的概率，即原假设正确，实际拒绝的概率为0.02，位于拒绝域内，推翻H0】(2)可能犯第类错误错误。原假设是正确的，实际确拒绝了原假设。三、 20分简述方差分析的根本假定。正态性：每种处理所对应的总体都应服从正态分布。方差齐性：各个总体的方差必须相等。独立性：每个样本数据都来自不同处理的独立样本。方差分析对独立性的要求比

38、拟严格，假如该假设得不到满足，方差分析的结果会受到较大影响。而对正态性和方差齐性的要求相对较宽松，当正态性不满足和方差略有不齐时，对分析的结果影响不是很大。四、 20分怎样自相关图和偏自相关图来识别ARIMA()模型中的参数？第一步：将序列平稳化。只有平稳序列才能建立ARIMA模型，当原始序列不平稳时，通过差分可以将其平稳化。第二步：识别模型的阶数。如果原始序列或差分序列的偏自相关系数有p个明显的峰值，在p个值后截尾，而它的自相关函数呈现出指数衰减或正弦衰减，呈现出拖尾，为AR(p)序列，模型为ARIMA(p,0,0).如果序列的自相关函数有q个明显的峰值，在q个值后截尾，而它的偏自相关函数呈

39、指数或正弦衰减，呈现出拖尾，为MA(q)序列，模型为ARIMA(0,0,q).如果序列的自相关图和偏自相关图的前p个条和前q个条没有固定规律，其后都是趋渐于0而不是突然变为0，都呈现出拖尾，模型为ARMA(P,Q),“I的取值取决于差分的阶数。第三步：模型诊断。如果模型正确，模型预测产生的误差是白噪声序列，残差序列的自相关图没有什么固定模式。书上245页五、 20分什么是回归中的置信区间估计和预测区间估计？两个区间的宽度是否一样？取何值时两个区间宽度最窄？平均值的置信区间估计：是对x的一个给定值x0,求出y的平均值的估计区间。个别值的预测区间估计：是对x的一个给定值x0,求出y的一个个别值的估

40、计区间。两个区间的宽度是不一样的。预测区间要比置信区间宽一些。当x=x时，两个区间的宽度最窄，此时，两个区间也都是最准确的。9国人民大学承受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：9一、 20分为研究少年儿童的成长发育状况，某研究所的一位调查人员在某城市抽取100名717岁的少年儿童作为样本，另一位调查人员如此抽取了1000名717岁的少年儿童作为样本。请回答下面的问题，并解释其原因。（1）哪一位调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较大？或者这两组样本的平均身高一样？（2）哪一位调查研究人员在其所抽取的样本中

41、得到的少年儿童身高的标准差较大？或者这两组样本的标准差一样？（3）哪一位调查研究人员有可能得到这1100名少年儿童的最高者或最低者？或者对两位调查研究人员来说，这种机会是一样的？解：1、如果抽样是随机的，抽样样本数目对样本平均值没有决定作用，答案是不确定的； 2、如果抽样是随机的，抽样样本数目对样本方差、标准差没有决定作用，答案是不确定的； 3、不确定，都有可能。二、 20分在参数统计分析中，应用分布、分布和分布的假定条件是什么？如何判断样本数据是否满足假定条件。解：1分布：设X1服从标准正态分布N(0,1)，X2服从自由度为n的分布，且X1与X2相互独立，如此称变量t=服从的分布为自

42、由度为n的分布。期望 E(T)=0 方差D(T)=n/(n-2),n2；分布：设 X1,X2,.Xn相互独立，都服从标准正态分布N(0,1),如此称随机变量X2=X12+X22+.+Xn2服从自由度为n的分布。期望E(X2)=n，D(X2)=2n；分布：设X1服从自由度为n的分布，X2服从自由度为m的分布，且X1与X2相互独立，如此称变量F= 服从分布。 2正态性检验与独立性检验。三、 20分由于时间和本钱对产量变动的影响很大，所以在一种新的生产方式投入使用之前，生产厂家必须确信其所推荐新的生产方法能降低本钱。目前生产中所用的生产方法本钱均值为每小时200元。对某种新的生产方法，测量其一段样本

43、生产期的本钱。（1）在该项研究中，建立适当的原假设和备择假设。（2）当不能拒绝时，试对所做的结论进展评述。（3）当可以拒绝时，试对所做的结论进展评述。解：1、原假设：新的生产方法本钱的均值不低于200元/每小时；备择假设：新的生产方法本钱的均值低于200元/每小时。 2、当不能拒绝时，说明并没有把握说明新的生产方法能降低生产本钱； 3、当可以拒绝时，说明新的生产方法可以降低生产本钱，可以采用新的方法生产。四、 20分列出度量下述测度变量间的关系所使用的统计量。（1）两个分类变量。（2）两个数值变量。（3）两个顺序变量。（4）一个分类变量与一个数值变量。解：分类变量分为有序变量、无

44、序变量与二分类，在差异性检验中二分类变量和无序变量都可以用卡方统计量检验，不过一个是四方格、一个是RC列联卡方，有序变量也即等级资料得用秩和检验。有序变量中可用多元回归来检验假设，对于无序变量使用logistics回归。 1统计量；2、相关系数；3、等级相关系数；4、F统计量。五、 20分在多元线性回归分析中，检验和检验有何不同？解：1、F检验是对模型整体显著性水平的检验，而t检验只是对单独变量的显著性水平的检验。 2、F检验显著，说明模型拟合效果显著，但并不能说明每个变量都显著。10中国人民大学承受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201

45、考题卷号：10一、 20分在2008年8月举办的第29届奥林匹克运动会上，获得金牌总数前三名的国家与奖牌数如下。要描述这一数据，可以使用的图形有哪些？说明它们在描述这一数据中的用途。排名国家金银铜总1中国5121281002美国3638361103俄罗斯23212872列出适合展示上述数据的图形并说明这些图形的用途。解：1、直方图或者条形图：能够直观的明确各个国家在金、银、铜牌上的奖牌数量。如果以国家为横坐标，以奖牌数为纵坐标，能够直观的比拟不同国家或得奖牌总数的情况；如果以奖牌种类为横坐标，以国家为纵坐标，能够直观的看到每个国家获得各种奖牌的情况； 2、饼图或者环形图：能够清楚的比拟各个国家

46、获得金、银、铜奖牌的比例。二、 20分某企业生产的产品需用纸箱进展包装，按规定供给商提供的纸箱用纸的厚度不应低于5毫米。用纸的厚度服从正态分布，一直稳定。企业从某供给商提供的纸箱中随机抽查了100个样品，得样本平均厚度毫米。（1）在的显著显著性水平上，是否可以承受该批纸箱？该检验中会犯哪类错误？该错误的含义是什么？（2）抽查的100个样本的平均厚度为多少时可以接收这批纸箱？此时可能会犯哪类？该错误的含义是什么？注：，解：1、由题可知，纸箱的厚度服从, ， n=100,建立假设：,如此在时，拒绝原假设。在该类检验中犯了第一类错误，即原假设正确，但实际上却拒绝了原假设的错误。 2、当时，解得

47、，即当纸箱的厚度在4.902毫米与5.098毫米之间时，可以承受原假设，即可以承受这些纸箱。此时，可能犯第二类错误，即原假设错误，但是实际上却承受了原假设的错误。三、20分简要说明分布在统计中的的应用。解：分布常应用于假设检验与置信区间的计算中，由卡方分布延伸出来皮尔森卡方检定常用于： (1)样本某性质的比例分布与总体理论分布的拟合优度；(2)同一总体的两个随机变量是否独立；(3)二或多个总体同一属性的同素性检定即，独立性检验、同质性检验、适合性检验等。四、 20分在多元线性回归分析中，如果某个回归系数的检验不显著，是否就意味着这个自变量与因变量之间的线性回归不显著？为什么？当出现这种情

48、况时应如何处理？解：1、不是。因为在多元线性回归模型中，如果多个自变量之间存在较强的相关性，或者因为数据收集的根底不够宽，造成多个自变量之间存在相关性时，此时在进展单个变量的t检验时，有可能会通不过检验，即该多元线性回归模型存在多重共线性。2、当模型检验不显著时，需要进展判别1、系数估计值的符号是否不对2、是否存在某些重要的自变量t值低，而R方不低3、是否出现当一不太重要的解释变量被删除后，回归结果显著变化、检验相关性检验模型中是否出现多重共线性，需要通过：1、增加数据；2、对模型施加某些约束条件；3、删除一个或几个共线变量；4、将模型适当变形；5、主成分回归；6、向前选择、向后剔除、逐步回归

49、等方法去除共线性，选出适宜的自变量来反响因变量的变化情况。而在处理多重共线性的时候需要注意：1、多重共线性是普遍存在的，轻微的多重共线性问题可不采取措施；2、严重的多重共线性问题，一般可根据经验或通过分析回归结果发现。如影响系数符号，重要的解释变量t值很低。要根据不同情况采取必要措施。3、如果模型仅用于预测，如此只要拟合程度好，可不处理多重共线性问题，存在多重共线性的模型用于预测时，往往不影响预测结果；五、20分下表是某贸易公司近几年的出口额数据：年份出口额万美元200213200319200424200535006582007882008145（1）从图形上判断，出口额时间序列含有什么成分

50、？（2）要预测该公司的出口额，应采用哪种趋势线？该趋势线的特点是什么？（3）根据上面的数据拟合的指数曲线方程为：，这里的0.4909的具体含义是什么？解：1、，由图可以看出，出口额随着时间的增长，成曲线增长趋势。 2、如如下图所示，用指数方程拟合出口额的增长趋势，拟合的R值高达0.9896。 3、方程中的0.4904的含义是：出口额增长率。11中国人民大学承受同等学历人员申请硕士学位考试试题招生专业：统计学考试科目：统计思想综述课程代码：123201 考题卷号：11一、 20分A、B两个班各有50名学生，统计学考试成绩的描述统计量如下：统计量A班B班平均数中位数756725%四分位数675675%四分位数8083标准差10.6最小值4435最大值96100（1）画出两个班考试成绩的箱线图，并比拟分布的特征。（2）根据统计量对两个班考试成绩的特点进展分析。（3）两个班考试成绩的最低分和最高分是否属于离群点？解：(1)从图中可以看出，A班学生各科的平均考试成绩较高，且各学科成绩之间离散程度也较小，B班学生各科的平均考试成绩相对较低，且各学科成绩之间离散程度也较大；图中用“O标出的最小值是A班同学考试成绩的最低分，被视为A班学生考试成绩的离群点。2 A班学生各科的平均考试成绩较高，B班

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

人民大学统计学在职题库统计综述问题详解

最新文档

相关资源

相关搜索