数据模型与决策ppt课件

上传人：仙*** 文档编号：181321939 上传时间：2023-01-12 格式：PPT 页数：381 大小：12MB

收藏版权申诉举报下载

第1页 / 共381页

第2页 / 共381页

第3页 / 共381页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《数据模型与决策ppt课件》由会员分享，可在线阅读，更多相关《数据模型与决策ppt课件（381页珍藏版）》请在装配图网上搜索。

1、123结论决策执行结果管理者信息提供模型反馈数据、模型与决策的目的数据、模型与决策的目的是在科学、符合是在科学、符合逻辑和合理的基础上制定决策逻辑和合理的基础上制定决策45n潘得罗索工业公司生产胶合板，根据厚度和所用木材的质量而有所不同。因为产品在一个竞争的环境中进行销售，产品的价格由市场决定。所以每个月管理层面临的一个关键问题是选择产品组合以获取尽可能多的利润。需要考虑当前生产产品必须的各种资源的可得数量。六项最重要的资源为（1）四种类型的原木（根据原木的质量区分）和（2）生产胶合板的两项关键作业的生产能力（模压作业和刨光作业）。你们公司有这样的经历吗？你们公司有这样的经历吗？6n某食品公

2、司生产各种系列的冷饮食品，冷饮食品生产是季节性，需要提前组织生产。一般是每年四月就要制订接下去的五个月生产计划，包括生产的冷饮品种、等级、规格与原料组合。因此要制订采购计划和工厂生产能力计划，以满足市场的需要。如何来预测客户的需求量呢？n 预测对生产计划有多重要？预测对生产计划有多重要？7有兄弟姐妹的人得病少89“坐立不安”让人苗条101112131415n数据收集好了，那我们就来看看从数据中能挖到什么宝藏了！3.1 类别数据的表格表示n例例3.1 交通事故的驾驶因素分析交通事故的驾驶因素分析n造成交通事故的驾驶因素有判断失误、察觉得晚、驾驶错误、偏离规定的行驶路线和酒后或疲劳驾驶等。某地区交

3、通管理部门对某段时间中的50起交通事故进行驾驶因素分析，得到的原始数据如下:16驾驶错误察觉得晚察觉得晚判断失误驾驶错误察觉得晚判断失误察觉得晚判断失误察觉得晚判断失误酒后或疲劳驾驶察觉得晚判断失误察觉得晚驾驶错误判断失误驾驶错误察觉得晚判断失误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚察觉得晚察觉得晚偏离规定的行驶路线判断失误驾驶错误察觉得晚判断失误判断失误判断失误察觉得晚驾驶错误察觉得晚察觉得晚驾驶错误察觉得晚判断失误判断失误驾驶错误驾驶错误判断失误驾驶错误驾驶错误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚17n从例3.1的数据，你能看出些什么？n也许你看出了“察觉得晚”、“判断失误”等因

4、素比较多，“偏离规定的行驶路线”、“酒后或疲劳驾驶”等因素比较少。很好！n其实，只要借助一些简单的图表，就能对数据加以整理并进行初步的定量分析。n一些常用的软件如Excel，几乎能完美地为你完成这些图表！18n我们从表1很容易看出：n哪些因素是比较主要的因素？n各因素之间频率的差异有多大？等等。n有时，累积频率也需要在频数频率分布表中列出。n每一类的累积频率每一类的累积频率是指，从第一类开始累积到该类的频率总和，即将该类及其之前的所有类的频率相加。n譬如，为了分析驾驶因素中的主要因素，我们可以进一步改进表1，按照频数或频率从大到小的顺序，将各因素排序后列出来，并加上累积频率一项，结果列于表2中

5、。19表2 分析驾驶因素中主要因素的频数频率分布表驾驶因素频数频率（）累积频率察觉得晚214242判断失误142870驾驶错误112292酒后或疲劳驾驶 3 698偏离规定的行驶路线 1 2100合计50100用Excel制作定性数据频数频率分布表20n累积频率更常用于有序数据的分析中。我们来看一个例子。n例例3.2 博客调查博客调查 n(http:/ Development 公司在其网页上发布了一项关于博客的调查报告。该调查根据8个博客服务商提供的博客用户资料，得到了各年龄段的人创建的博客数，频数频率分布表3显示了调查结果。21 表表3 各年龄段的博客创建情况各年龄段的博客创建情况1012

6、55,500 1.35 1.351319 2,120,000 51.45 52.802029 1,630,000 39.56 92.353039 241,000 5.85 98.203049 41,700 1.01 99.215059 18,500 0.45 99.66年龄段创建的博客数频率（）累积频率（）6069 13,9000.34100.00合计4,120,600100.0022数据的图形表示n用于数据描述的图形比较多，譬如常用的饼状图、柱状图、直方图，以及在统计学中常用的茎叶图、排列图等等。n当我们在考虑各种图的时候，把变量稍加分类会有帮助。n有的变量具备有意义的数值尺度，如身高几厘

7、米、考试成绩几分等；而有的变量只是把个体分到不同类别而已，如性别、职业或教育程度。n类别变量只记录所属类别，譬如，例1的变量就是类别变量，它包含5个类，个体的数据就是指个体属于其中某个类。n要表示类别变量的分布，可以用饼图，也可用柱状图或条形图，等等。以下是例3.1的图形表示。232425n柱形图与条形图作法垂直柱状组成的图形称为柱形图，水平条状组成的图形称为条形图。例：创建我国20012004年第一、第二和第三产业产值数量的变化的柱形图。261.打开Excel表，单击“插入图标”工具图标，选择图表类型柱形图和子图标类型，点击“下一步”。272.选择目标数据，用鼠标选定B4:D8，单击“系列

8、”卡片，点击“下一步”。283.输入系列名称，用鼠标选定“分类(X)轴标志”A5:A8，单击“下一步”29n4.输入或修改“标题”、“坐标轴”、“网格线”、“图例”、“数据标志”、“数据表”等属性，单击“下一步”。305.选择图表位置，单击“完成”。316.图表完成。如果需要，可以双击图表中任何一部分进行修改。图表区分类轴分类轴标题数值轴图例图表标题系列“第一产业”绘图区数值轴主要网格线数值轴标题系列“第二产业”系列“第三产业”32n因为类别变量的可能值相对来说不多，所以我们可以用饼状图或柱状图来呈现类别变量的分布。那么像月收入这种数量变量要如何呈现呢？因为数量变量的可能值太多，所以不太可能用

9、饼状图或柱状图来呈现。若将数量变量的数据进行适当的分组，再画出分布图，那么将会比较清楚。这就是本节中我们将重点介绍的图形直方图直方图（histogram），它是描述数量变量分布最常用的图。n在平面直角坐标系中，用横轴表示各类观察值，纵轴表示频数或频率，所绘制的由若干个长方形所组成的图形，就叫做频数分布直方图，简称直直方图方图。通过直方图，我们可以比较快速、直观地把握整体的分布情况。33用Excel制作定量数据频数频率分布表和直方图见例1.143435n描述数据的分布属性是描述统计的主要内容，数据的分布属性包括：n数据的频数分布和直方图n数据集中属性的指标（平均数、中位数、众数、比例）n数据离散

10、属性的指标（极差、方差、标准差）n数据分布形态的指标（偏度、峰度）n数据的计数和求和n数据之间的相关程度的指标（相关系数）nExcel中的统计功能有以下三种实现方法n使用Excel的菜单统计工具n使用Excel统计函数n使用Excel统计插件（例如PHStat等）36nxxxxn.2137不同年龄段每周上网时间的平均值=AVERAGE(B23:B158)=AVERAGE(C23:C279)=AVERAGE(D23:D186)=AVERAGE(E23:E133)=AVERAGE(F23:F86)38n一组数据按大小顺序排列以后，处于中间一组数据按大小顺序排列以后，处于中间位置的数据。对于奇数组，

11、中位数是中间位置的数据。对于奇数组，中位数是中间的一个，对于偶数组，中位数是中间的两的一个，对于偶数组，中位数是中间的两个的平均值。个的平均值。=MEDIAN(B23:B158)=MEDIAN(C23:C279)=MEDIAN(D23:D186)=MEDIAN(E23:E133)=MEDIAN(F23:F86)39n众数是一组数据出现次数最多的数值。如果一组数据各不相同，则这组数据不存在众数。“不同年龄段上网时间均值的区间估计.xls”数据的如下：=MODE(B23:B158)=MODE(C23:C279)=MODE(D23:D186)=MODE(E23:E133)=MODE(F23:F86)

12、40niixxn12)(111)(12nxxsnii1)(12nxxsnii1)(12nxxsnii41标准差的重要性切比雪夫定理：任何一组数据，设它的平均数为，标准差为，这组数据落在范围内的数据个数占数据总数的比例，至少是。这个定理说明了标准差是数据分散程度的一个普遍性的指标。(,),1kkk 211k3223%7543%.89889842在工业生产中，产品的指标总会出现波动，一般都把产品指标的变动控制在指标平均值加减3个标准差的范围内，认为这是生产正常的标志。96624.002953.929543.如果产品指标波动超出这个范围，说明生产系统不正常。43n在投资风险分析中，评价投资收益有

13、两个指标，一个是收益期望值（平均值），另一个是收益的标准差。投资收益的标准差表示投资风险的大小，标准差越大，风险越大。低收益低风险低收益高风险高收益低风险高收益高风险收益期望值收益标准差44标准差是测定数据离散程度的标志，但由于不同的数据数值大小不同，相同的离散程度，数值比较大的标准差也会比较大。以下是不同年龄组每周上网时间的统计数据：为了比较大小不同的几组数据的离散程度，定义如下的变异系数（Coefficient of Variation）：均值标准差）变异系数（CV45)3)(2()1(3)()3)(2)(1()1(2414NNNxNNNNNCKNii46313)2)(1()(NNxNCS

14、Nii474849)(),(,YVarXVaryx和)()(),(YVarXVarYXCovR 50)(),(yxYXEYXCov22()()()()XYXXYYXXYYlrllXXYY51 相关系数没有单位，其值为相关系数没有单位，其值为-1 r 1。r值为正值为正表示正相关，表示正相关，r值为负表示负相关，值为负表示负相关，r绝对绝对值反应两变量间相关关系的密切程度值反应两变量间相关关系的密切程度，绝，绝对值越大说明相关关系越密切，对值越大说明相关关系越密切，r的绝对值的绝对值等于等于1为完全相关，为完全相关，r=0为零相关。为零相关。5253随机事件的交（Intersection）：事件

15、A和事件B同时发生的事件称为事件A和事件B的交。记为AB或A and B随机事件的并（Union）:事件A和事件B至少一个发生的事件称为事件A和事件B的并。记为AB或A or B。如果两个事件不可能同时发生，则这两个事件是互斥（Mutually exclusive）的。随机事件的差：事件A发生而事件B不发生，则称这个事件是A与B的差事件。A-B54mxxx,21ix)(ixXFNxXFmii)(155NxXFxXfii)()(1)(1miixXf56几个概率法则几个概率法则n法则法则1：概率值都在01之间。n法则法则2：所有可能性的概率之和等于1n法则3：如果事件A和事件B互斥，那么两个事件的

16、并发生的概率等于两事件发生的概率之和。即 P(AB)=P(A)+P(B)(ixXPix)(lim)(inixXfxXP57法则法则4 4：如果两事件不是互斥的，那么两个事件的并发生的概率等于两事件发生的概率之和，减去两事件的交发生的概率。即：P(AB)=P(A)+P(B)-P(AB)。58)()()(xxiixXPxXPxF0,11,)(xpxpxf59其他,0,2,1,0,)1()(nxppCxfxnxxn),(pnxB60!)(kekpk611212,()x xaxxb2112()()xxPxX xf t dt62()()()xaF xP Xxf t dt1221()()()P xXxF

17、xF x()0,()1F aF b6322()21()2xf xe,22()21()()2txF xP Xxedt64222)(21)(xexf),(2Nx650,1221()2zxzf ze66()()xx()()1xx 672(,)XN xxF)(6869(),0 xf xex()XE0()()xtF xP Xxedt7071n离散随机变量的期望值对于离散随机变量X，期望值是这个随机变量的所有可能结果，用每一个结果发生的概率作为权重的加权平均。设随机变量X有n个取值，第i个取值等于xi的概率为f(xi)，则随机变量X的期望值EX等于离散随机变量的方差（Variance）)x(fxXEin

18、ii1njjj)x(f)XEx()X(Var1272方差度量随机变量的不确定性，方差越大，结果的不确定越大。由于方差的单位和变量的单位不同，因此常用标准差（Standard deviation）表示随机变量的波动的大小。由于标准差的单位和变量相同，因此它比方差更有意义。标准差是对风险的一种测度，因此它在金融模型中是一个关键的概念。n1ii2ix)x(f)XEx(73n例：风险投资问题有一项风险投资，每次投资成功和失败的概率都是50。投入1元资本，如果成功，连本带利资本增值为2.2元，如果失败，投入的资金全部损失，资本变为0。为了避免所有的资本全部损失，每次只投入当前资本的一半。假设最初的资本

19、为100万元，而这项投资的次数没有限制。问题：这项投资的前景如何？是一本万利，还是血本无归？74解1 设初始资本A=100万元，投资成功的资本增值率为K2.2第一次投资成功后的资本为：A/2+KA/2=(K+1)A/2第一次投资失败后的资本为：A/2第一次投资后的资本的期望值为：0.5(K+1)A/2+0.5A/2=0.5(K+2)A/2=0.5(K/2+1)A75第二次投资成功后的资本为：0.5(K+2)A/4+0.5(K+2)KA/4=0.5(K+2)(K+1)A/4第二次投资失败后的资本为：0.5(K+2)A/4第二次投资以后的资本期望值为：0.5*0.5(K+2)(K+1)A/4+0.

20、5*0.5(K+2)A/4=0.52(K+2)2A/4=0.5(K/2+1)2A第n次投资以后的资本期望值为：0.5(K/2+1)nA=0.5*(1.1+1)nA=(1.05)nA当n无限增大时，资本会无限增加，即投资是一本万利的。76n解2 设投资2n次，当n很大时，其中大约有n次成功，n次失败。其中对投资者最有利的是前n次都成功，后n次全失败。第1次成功后的资本为A/2+KA/2=(K+1)A/2第2次成功后的资本为(K+1)A/4+K(K+1)A/4=(K+1)2A/4=(K/2+1/2)2A第n次成功后的资本为(K/2+1/2)nA77第1次失败后的资本为(K/2+1/2)nA/2第2

21、次失败后的资本为(K/2+1/2)nA/22第n次失败后的资本为(K/2+1/2)nA/2n=(K/4+1/4)nA=(0.8)nA当n无限增大时，2n次投资以后的资本趋向于0。即投资将会血本无归。解法1和解法2的结果显然是矛盾的，至少有一个是错的，哪一个是错的？错在哪里？78连续随机变量的期望值设连续随机变量X的概率分布密度函数为f(x)，它的期望值为a,b是随机变量所在的变化范围，a可以是-，b可以是+。随机变量X的方差为随机变量X的标准差为badxxxfXE)(badxxfXExXD)()(2)(XDx79n在描述一些事物的运行规律，比如蚂蚁爬行所处的位置，飞机在空中的位置这样一些随机事

22、件，就必须考虑多个随机变量构成的变量组。设是一随机变量组，则X的分布称为联合分布。设其密度函数为则分布函数为12(,)nXXXX12(,)nf x xx1112121(,)(,)nnxxxnnnF x xxf t tt dtdt 80将表中的统计人数除以总人数1898人，得到患病人数关于年龄和化验指标的联合概率分布：81n由表中的数据可以看出，如果某个患者的年龄在55-64岁之间，化验指标在6.0-7.9之间，他患病的概率为11.2。82n设年龄为随机变量X，化验指标为随机变量Y，表中的数值记为f(x,y)，称为随机变量X和Y的联合概率分布。第一行数值表示不考虑年龄（x）时，化验指标（y）的

23、概率函数，第一列数值表示不考虑化验指标（y）时，年龄（x）的概率函数。第一行和第一列称为边际概率（Marginal probability)83()(,),yf xf x y()(,)xf yf x y()(,)f xf x y dy()(,)f yf x y dx8485(,)()()ijijP Xx YyP Xx P Yy(,)()()f x yf x f y86n在一个随机事件（Y）已经发生的条件下，某一个随机事件（X）发生的概率，称为条件概率。记为f(x|y)。87由下表看出，55-64岁的患者人数为606人，其中化验指标的6.0-7.9之间的患者人数为213人，所求的条件概率为：21

24、3/606=0.351。年龄在5564岁之间的人数为606人化验指标在6.0-7.9之间、年龄在55-64岁之间的人数为213人88n以上的计算表明，条件概率f(x|y)等于联合分布概率f(x,y)除以边际概率f(y)由此得到，联合分布概率等于条件概率乘以边际概率：联合分布概率f(x,y)边际概率f(y)351.0319.0112.0)(),()|(yfyxfyxf)()|(),(yfyxfyxf89统计学是处理统计数据的科学。统计学在科学研究、社会经济分析、商业决策和日常生活中有广泛的应用。根据处理统计数据的目的和方法的不同，统计学可以分为描述统计、推断统计和预测统计。下面简要介绍这三类统计

25、的主要内容。描述统计统计数据有不同的特征。例如，哈尔滨市和三亚市的年气温变化显然有很大差别。哈尔滨的年温差（一年中最高气温和最低气温之差）较大而三亚的年温差较小，两地的年平均气温（全年每小时气温的平均值）也相差很大。描述统计就是计算和分析统计数据的一些统计指标，用来表示统计数据的特点。这些统计指标包括前面介绍过的均值、方差、标准差、中位数、极差以及峰度、偏度、相关系数等。研究分析和表示统计数据的统计特征，就是描述统计的主要内容。90n 推断统计我们经常需要通过数据的研究，来确定某一个统计结论有效的范围，或者用统计数据证实或否定一些统计结论。例如，通过抽样检测得出“某件产品的合格率为97”，通过

26、市场调查确定“某商品的市场份额为12”，根据民意调查得知“某候选人在未来的选举中得票的比例为59”。由于这些统计数据是根据抽样得到的，重复进行抽样，这些数据会有所不同。因此，在得出这些统计数据的同时，还需要了解它们在多大范围内，在多大程度上是可信的。这些例子都是为了确定统计结论的有效范围。91n 预测统计在日常生活和经济活动中，经常需要对已经观察到的统计数据进行分析研究，以便估计将要发生的数据。例如：l通过对某一城市历年气温的分析，预测明年夏季这个城市的最高气温；l通过对以往股市行情的分析，预测股市今后的走势；l根据一些父母的身高统计数据，来预测未成年子女未来的身高等等。92p什么是抽样为什

27、么要抽样商业调查中需要研究的总体，由于数量太大，或者调查具有破坏性，往往无法进行。例如l要调查全部电视观众每天看电视的频道和收看时间，显然是不可能的。l要测定生产的每一个灯泡的寿命，由于是破坏性的，也不可能全部进行测试。抽样是商业调查的一个必要和可行的方法。抽样的目的是从样本得到尽可能充足的信息，用来有效推断总体的状况。93n抽样方法n抽样方法可以从不同的角度来划分。n从样本是否随机获取分，可以分为：n 主观抽样n判断抽样：根据专家的判断选取样本，例如选择特征典型的顾客n方便抽样：用容易获得的方法获取样本，例如选取某一天到达的顾客n 概率抽样n简单随机抽样：每个样本都有相同的机会被抽中n分群抽

28、样：具有相同统计属性的群，随机抽取若干群进行统计，例如，在杭州市重点中学中随机抽取两所，统计高考平均成绩。94n 其他抽样方式l系统抽样：从总体中按照一定的规律间隔性抽取样本，例如根据电话号码顺序每间隔100个抽取1个。l分层抽样：具有不同统计属性的层，根据各层总体的比例，进行抽样。例如，根据发达、欠发达、不发达地区人数，按比例抽样统计农民人均收入。l整群抽样：将不同生产批号的产品作为一群，抽取其中某一个批号的产品作为样本l连续过程的抽样：例如连续生产线上每间隔一定时间或间隔一定数量的产品作为样本95谁先动手谁先动手?n有人调查研究酒吧里的打架致死事件，发现其中90都是死掉的那个人先动手。真是

29、这样吗？n如果你跟人打架把对方给揍死了，警察问你谁先动手的时候你怎么回答？96n例例2 2 美国的种族效应美国的种族效应 1989年，纽约市选出第一位黑人市长，维吉尼亚选出第一位黑人州长。这两个事件，在投票所访问投完票的选民后所预测到的胜负差距，都比实际开票的差距大。因此，调查机构相当确定，有些受访选民因为不愿承认没投票给黑人候选人而说了谎。97n例例3 3 权威人物的意见权威人物的意见有两个内容相同的问题：问题A：陆军部和海军部应当合并为统一的作战部，您同意么？问题B：艾森豪威尔将军说，陆军部和海军部应当合并为统一的作战部，您同意么？结果对问题A表示同意的比例为29%，而对问题B表示同意的

30、比例为49%，两者相距甚远。无疑，权威人物艾森豪威尔将军的意见影响了被调查者的意见。98n例例4 4 总统选举预测总统选举预测n1936年民主党人罗斯福任美国总统第一任满，共和党人兰登与他竞选总统。文学摘要杂志根据有约二百四十万人参加的民意测验，预测兰登会以57%对43%的优势获胜。自1916年以来的五届总统选举中，文学摘要杂志都正确地预测出获胜的一方，其影响力很大。那时盖洛普刚刚设立起他的调查机构，他根据一个约五万人的样本，预测罗斯福会以56%对44%的优势获胜。实际结果是，罗斯福以62%对38%的优势胜出。当时有人说，这次选举的最大赢家不是罗斯福，而是盖洛普。自这之后，盖洛普的调查机构得到

31、迅速的发展，国内外闻名，而文学摘要杂志不久就垮了。文学摘要杂志的调查方法有什么问题？99n实际的抽样调查是很复杂的，即使采用了好的随机抽样方法、准确地计算了误差界限，调查结果也不一定可靠。就拿例3.1来说，本来应该是对打架双方都进行调查，但已经死去的被调查者无法回答，而剩下的被调查者又可能为保全自己而不如实地回答。那么，这样的调查结果会可靠吗？下面，我们来看看抽样调查中的基本概念、抽样的误差来源，以及抽样调查者应如何与之奋斗。100101n统计调查的目的是取得能准确反映客观状况的统计数据。在许多时候，调查结果并不能准确地表现事实，总会有误差出现。在调查的各个阶段，误差都有可能出现。如果其中一个

32、阶段出现了较大误差，可能会把其他阶段都进行得很好的一次调查毁掉，因此必须认真细致地实施调查的每一个阶每一个阶段段、严格控制误差。为了保证统计数据的质量，了解误差的来源与减小误差的措施很有必要。102继续例继续例4n从常理来看，应该调查数据越多,结论越可靠。罗斯福的实际得票率为62%，文学摘要杂志的预测为43%，误差达到19%。误差之大令人惊异。这样大的误差是怎么得来的呢？经过研究发现，原因在于文学摘要杂志选取样本有偏性。杂志是根据电话簿和俱乐部会员的名册，将问卷邮寄给一千万人。当时美国四个家庭中仅有一家装电话。他选取的样本有排斥穷人的选择偏性。这样的民意测验非常不利于民主党人罗斯福。103n此

33、外，文学摘要杂志调查的一千万人中只有二百四十万人回答了问卷，不回答者可能非常有别于回答者，这二百四十万人代表不了被邮寄问卷的一千万人。譬如，1936年文学摘要杂志的一次专门的调查，给在芝加哥的选民每三人寄去一张问卷。约20%的被调查者作了回答，其中支持兰登的超过半数。但是在选举中，兰登在芝加哥的得票率只有三分之一。所以当出现高不回答率时，谨防不回答偏性。心理研究表明，低收入和高收入的人倾向于不回答问卷，因此中等收入的人在回答者中的比例过高。为此现代调查机构更喜欢采用亲自询问来代替邮寄问卷104n即使亲自询问，也有不回答偏性的问题。访问员来访时，不在家的人与在家接受访问的人可能在工作时间、家庭关

34、系和社会背景等方面有比较大的差异，从而看法也不一样。例如有一项关于快餐的市场调查。抽取500户家庭进行调查。白天访问时，有150户家庭没人。能不能仅用白天有人的350户家庭的数据？不能。这里有不回答偏性。白天不在家的150户可能是吃快餐比较多的家庭。105n误差按其性质可以分为两类，一类是抽样误差抽样误差，它是由于抽选样本的随机性而产生的误差。只有采用概率抽样的方式才可能估计抽样误差。另一类是非抽样误差非抽样误差，它是指除抽样误差以外的、由于各种原因而引起的误差。在概率抽样、非概率抽样和全面调查中，非抽样误差都有可能存在。若采用了概率抽样方法，那么我们可以估计出抽样误差的大小，还可以通过选择样

35、本量的大小来控制抽样误差。在谨慎执行的抽样调查中，抽样误差通常不大。而非抽样误差相对比较难以估计和控制。106107222tn22222tNNtn108n 样本均值、方差、标准差和标准误抽样是随机进行的，因此样本数据的属性，如样本数据的均值、方差、标准差、标准误等也是随机变量。这些随机变量具有怎样的统计特性，是我们关注的问题。首先来研究样本均值、方差、标准差与样本数n的关系。用函数RAND产生1000个随机变量作为总体，样本数分别为50、100和200。三个样本的均值、方差和标准差如图3.7所示。109n 样本均值、方差、标准差和标准误抽样是随机进行的，因此样本数据的属性，如样本数据的均值、方

36、差、标准差、标准误等也是随机变量。这些随机变量具有怎样的统计特性，是我们关注的问题。首先来研究样本均值、方差、标准差与样本数n的关系。用函数RAND产生1000个随机变量作为总体，样本数分别为50、100和200。三个样本的均值、方差和标准差如下表所示。110111n从上表可以看出，样本数量越大，样本的均值、方差、标准差越接近总体相应的数值。如果抽样是随机的，样本的均值也是一个随机变量。下面我们来研究，样本均值这个随机变量服从什么样的分布。概率论中有一个非常重要的定理称为中心极限定理，该定理的内容是：无论总体服从何种分布，只要样本数越来越大，样本均值就会逐渐接近正态分布。这个正态分布的均值为

37、总体均值，标准差为其中为总体标准差。因此，当样本数n很大时，样本均值的标准差将会逐步接近零。也就是说，当样本数量足够大时，样本均值和总体均值将会非常接近n112pExcel 抽样工具Excel“工具/数据分析/抽样”提供了周期抽样和随机抽样两种功能。Excel表“研究所员工资料.xls”提供了115名员工的信息。如果希望从该数据中每间隔7个样本抽取1个员工，操作如下：打开“工具/数据分析/抽样”113l“输入区域”选择A1:A116，“抽样方法”选择“周期”，“周期”输入7，“输出选项”选择“输出区域”，并选择M2。114n得到M2:M17共16个员工的样本。由于周期抽是按样本编号从小到大

38、抽取的，无论抽到的样本放回还是不放回，任何样本不可能被重复抽中。115n如果“抽样方法”选择“随机”，就需要输入“样本数”，例如样本数为15。116117118119估计（Estimation）是运用样本的数据来测量总体参数的值。估计有点估计和区间估计。点估计（Point estimation）是用样本测定总体的单一参数。区间估计（Interval estimation）给出总体参数的取值范围，同时给出一个计算标准误的方法。不同的样本对总体参数的估计是不相同的。如果所有可能的点估计的均值等于总体参数，这样的估计称为“无偏的”，否则是“有偏的”。120无偏估计的图解无偏估计并不能根据一次抽样的样

39、本就能得到总体参数的精确值。理论上说，只有当抽样次数越来越多，这些抽样估计的均值，才会逐步靠近总体参数。估计1、2、3、4的均值估计2估计1估计3估计4样本1样本2样本3样本4121p 点估计点估计就是用抽样得到的一个样本的统计参数（样本均值、样本方差、样本标准差等）来估计总体相应的统计参数（总体均值、总体方差、总体标准差等）。点估计包括：统计学理论可以证明，以上四个点估计都是无偏的x122统计学理论可以证明，数量为n的样本，它们的方差s2和标准差s的分母为n-1时，它们对总体方差和总体标准差的估计才是无偏的。如果分母是n，对总体方差和标准差的估计会偏小。nxxnii1 样本均值总体均值Nx

40、nii1 样本方差总体方差1)(122nxxsniiNxNii122)(123运用无偏的点估计，只有在样本数据足够大时，点估计才有把握可以代表总体的统计指标。但是，点估计无法了解估计值和真实总体参数之间的误差。即样本数量要大到什么程度，有多大的把握，可以保证所估计的总体参数落在事先确定的范围内。要解决这个问题，需要用区间估计。124区间估计（Interval estimates）解决真实的总体参数以什么概率，落入哪一个区间范围的问题。这个概率称为置信水平（Level of confidence），这个区间称为置信区间（Confidence interval，CI）。例如“在90的置信水平下，

41、总体参数的置信区间是102”，其中10是根据样本计算得到的点估计，2是边际误差。即这个区间为8，12。这个区间8,12可能包括也可能不包括总体均值。置信水平为90，表示如果进行100次抽样，得到到100个不同的区间估计，那么其中90的区间估计包括真实的总体均值。125n置信区间的宽度（即总体参数估计的精确性）和两个因素有关：样本数量n和置信水平。n在一定的置信水平下（例如90），样本数量越多，置信区间宽度越小，也就是对总体参数的估计越精确。n样本数量n不变的情况下，置信水平要求越高（例如90，95，99等），置信区间宽度越大，即对总体参数的估计范围越大。n在一般情况下，置信水平为90就可以了，

42、在要求比较高的情况下，置信水平可以提高到95，在极少数要求非常高的情况下，置信水平可以设为99。126n均值的置信区间为了用样本的均值求出总体均值的置信区间，首先需要研究样本均值的分布。设总体均值为，标准差为。反复抽取样本数为n的样本。由于抽样的随机性，每次抽取的样本都不相同，样本的均值也不相同。因此，样本的均值是一个随机变量。统计学的理论分析可以证明，无论总体服从什么分布，当样本数n很大时，样本的均值这个随机变量服从正态分布，它的均值等于总体均值，标准差等于总体标准差除以n的平方根，即：nx 称为样本的标准误。nxnx127总体均值的抽样分布x/z2x/z22/2/1x/zx2x/zx2x包

43、含总体均值的一个置信区间128计算总体均值置信区间的三种方法n1.先计算标准正态分布的置信区间，再进行区间变换的一个样本抽取样本数为n作为总体均值的点估计，并将计算样本均值xx计作为总体标准差的点估，并将计算样本的标准差ssnsx/计算样本的标准误置信区间）计算标准正态分布的根据置信水平（1置信区间区间换算成正态分布的将标准正态分布的置信2/z2/z01-zxxnszx/2/x1-nszx/2/129=NORMSINV($B$4)=B8/SQRT(B19)=B11*B12=B7-B13=B7+B131302.用NORMINV函数直接计算正态分布的置信区间l抽取样本数为n的一个样本l计算样本均值

44、，并将作为总体均值的点估计l计算样本的标准差s，并将s作为总体标准差的点估计l计算样本的标准误l用NORMINV(/2,)和NORMINV(1-/2,)分别计算正态分布的置信区间的左端点和右端点1-/2/2累积概率为/2累积概率为1-/2)n/s,x,2/(NORMINVx)n/s,x,2/1(NORMINVxxnsx/ns/xxns/131=NORMINV($B$4,B7,B8/SQRT(B16)=NORMINV($B$3,B7,B8/SQRT(B16)132n3.用函数CONFIDENCE计算区间值（置信区间的半径）n抽取样本数为n的一个样本n计算样本均值，并将作为总体均值的点估计

45、n计算样本的标准差s，并将s作为总体标准差的点估计n用CONFIDENCE(,s,n)计算正态分布的置信区间的区间值（区间半径）n用 -CONFIDENCE(,s,n)作为置信区间的左端点n用 +CONFIDENCE(,s,n)作为置信区间的右端点xx注意：用函数CONFIDENCE构造置信区间时，不需要计算/2、(1-/2)和标准误，函数会根据、样本标准差s和样本数n自动计算。n/xx)n,s,(CONFIDENCE)n,s,(CONFIDENCEx133n例3.5 计算“不同年龄段上网时间统计.xls”中6个年龄组看电视时间均值的95置信区间。=CONFIDENCE($B$2,B7,B1

46、4)=B6-B8=B6+B8134)n/s(zx2/)n/s(zx2/x135影响置信区间宽度的因素分析数据量最大数据标准差最小置信区间宽度最小数据量最小数据标准差最大置信区间宽度最大由此可见，用样本估计总体均值时，样本数量越大，样本标准差越小，区间估计精度就越高136比例的置信区间在很多情况下，抽样是为了估计总体中具有两种不同性质的个体的比例。例如n人口统计抽样中男性和女性分别占总人口的比例；n选举调查中投某位候选人票和不投他票的选民比例；n商品市场占有率调查中某种商品市场份额和其他商品的市场份额。设x是具有某种特征样本的数量，n为样本量，p=x/n为样本比例。比例的100(1-)置信区间是

47、：nppzp)1(2/137n市场份额调查中，样本为2000件商品抽样中，A商品为95件，样本中A商品的份额为p=95/2000=4.75%。要求计算99置信水平A商品的市场份额置信区间。575.2)995.0(NORMSINV)995.0(z995.02/1005.02/01.099.0)1(99置信区间为0598.0,0352.00123.00475.000475.0575.20475.02000)0475.01(0475.0575.20475.0即有99的把握，A商品的市场份额在3.52%到5.98之间。138n样本为500人的抽样中，男性人数为253人，样本中男性的比例为p=253/5

48、00=50.6%。要求计算95置信水平男性比例的置信区间。096.1)975.0(NORMSINV)975.0(z975.02/1025.02/05.095.0)1(95置信区间为：550.0,462.0044.0506.0022.0960.1506.0500)506.01(506.096.1506.0即有95的把握，男性人数的比例在46.2%到55.0之间。139n选举中只有A、B两位候选人。对10000名选民的民意调查结果显示，明确支持候选人A的选民为4939人，明确支持候选人B的选民为4863人，还没有决定是否参加投票和支持哪一位候选人的选民为198人。要求在95的置信水平下，分别计算赞

49、成选民和反对选民比例的置信区间。n在以前的例子中，调查的对象都具有非此即彼的特点。例如性别比的调查中，关注的对象为总体中的男性，总体中其他的对象就是非男性，即女性。又如市场占有率调查中，关注的对象是此类商品中品牌为A的商品，总体中其他的对象就是这类商品中品牌不是A的商品。比例区间估计中的对象必须满足这样的特性。140n而在选举民意调查中，出现了支持选民、反对选民和还没有决定的选民三种类型。如果对支持选民比例进行区间估计时，必须假定还没有决定的选民全部是反对选民；如果对反对选民比例进行区间估计时，必须假定还没有决定的选民全部是支持选民。这样才符合总体比例区间估计的要求。141总体1总体21121

50、21x2x1n2n1421212xx2212,ss221212/2,12()dfssxxtnn/2,dft122211222222112212(/)(/)(/)11snsndfsnsnnn14322112212(1)(1)1pnsnssnn1212/2,(2)1211()nnpxxtsnn114412,n n12,x x111222/,/pxn pxn12pp1112212/212(1)(1)()ppppppznn/2z/2145140n 275n 126/40 0.15,11/75 0.147pp0.025(1 0.025)1.960zNORMSINV1122120.02512(1)(1)(

51、)0.15(1 0.15)0.147(1 0.147)(0.1500.147)1.96040750.0030.137ppppppznn146212,nx xx11niixxn2211()1niisxxn212222/2,11/2,1(1)(1),nnnsns147置信水平、置信区间宽度和样本数量对于给定的样本量和置信水平，就可以求出相应的置信区间。有些情况下，需要事先确定置信水平和置信区间，根据置信水平和置信区间的大小，来确定抽样样本量。设均值单边的置信区间宽度不能超过E，即Enz)/(2/求解n，得到2222/)(Ezn这样，就可以根据置信水平和置信区间的宽度来确定样本量。148对于比例置信

52、区间，设置信区间宽度为E，则Enppz)1(2/求解n，得到222/)1()(Eppzn149市场份额调查中，样本为2000件商品抽样中，A商品为95件，样本中A商品的份额为p=95/2000=4.75%。A商品的99%置信水平的市场份额在3.53%到5.94之间。如果要求99置信区间单边误差在0.01即1以内，则需要抽取的样本数为22/222()(1)(2.575)0.0475(1 0.0475)(0.01)3002.6zppnE即至少需要抽取3003件样本。150假设检验的基本概念和基本原理假设检验（Hypothesis testing）是关于一个总体参数的两个相反的命题，在假定其中一个是

53、正确时作出的推断和检验。在进行假设检验时，力图找到证据，确定所提出的假设是否被拒绝。如果没有被拒绝，那么只能假设它是正确的。例如，统计论断A为：“做广告以后，所推销商品的销售量大于做广告以前的销售量”。如果销售量统计数据拒绝了论断A，就证明了与这个论断对立的论断B：“做这个广告以后，所推销商品的销售量小于或等于于做广告以前的销售量”是正确的，称为“接受论断B”。即广告对产品没有促销效果。151为什么一定要通过拒绝论断A来接受论断B的正确性呢？难道不能直接用统计数据来证实并接受论断B吗？我们必须了解，要用数据证实一个事实要比用数据否定一个事实困难得多。这是因为任何数据都只是一个特例，是许多个特例

54、中的一个。如果要用数据证实一个事实，我们必须列举所有可能的特例，说明所有可能的数据都支持这个事实。而用数据否定一个事实，只需要一个特例就够了。为了便于理解以上的陈述，我们举医学和法律两个例子：152在严格意义上，医学上要“证明”一个人“是健康的”是很困难的，需要验血、B超、X光透视、心电图等等各种医学检查。即使这些检查结果都是好的，还是不能百分之百断定这个人是健康的。因为有些疾病目前技术上还没有有效的检查手段。即使技术上可行，实际上任何一个人也不可能穷尽所有的医学检查。而要诊断一个人不是“健康的”即“有病的”，只要有一项检验指标不合格，就足以否定此人是“健康的”。同样，在法律上，被告的辩护律师

55、要证明被告人是无罪的，必须列举此人无作案动机、无作案时间、无作案条件、无犯罪前科等等。这样的穷举式的证明也是很困难的，往往无法罗列穷尽。反之，原告要证实被告人是有罪的就比较容易，只要有列举其一项犯罪事实成立就足够了。153统计推断和法律推断的逻辑具有某种相似性。在法律上，被广泛接收的的原则是无罪推断，除非有证据证明一个人有罪，否则，就认定这个人是无罪的。原告的目的，就是千方百计找到被告有罪的证据。在假设检验中也是一样，假设检验中一个统计论断（“健康”或“无罪”）总是先被假定为正确的，而假设检验的目的是力图利用统计数据证明这个统计论断不正确，拒绝这个统计论断，从而证明与这个统计论断对立的论断（“

56、有病”或“有罪”）是正确的。由于假设检验中的数据都是抽样统计数据，这些数据具有不确定性或随机性，根据这些数据作出的任何判断都具有得出错误结论的风险。正像医院里患者会被误诊，法庭上诉讼当事人会被误判一样。因此假设检验中，我们必须事先设定避免这种风险的水平，称为假设检验的“显著性水平”。154根据以上逻辑，统计学家设计了假设检验的过程如下：1.确定显著性水平；2.构建需要检验的假设；3.根据假设，构造相应的统计量，并确定统计量服从什么分布；4.确定决策准则。即统计量在什么范围内，拒绝或接受假设；5.收集数据并计算统计量的值。根据决策准则检验统计量，得出是拒绝还是不能拒绝假设的结论。155假设检验需

57、要构建两个互相对立的假设，第一个称为原假设（Null hypothesis），用H0表示（H是Hypothesis的缩写），第二个称为备选假设（Alternative hypothesis），用 H1表示。所谓两个假设是对立的，就是两个假设中必定有一个，而且只能有一个是正确的，不可能同时成立，也不可能同时不成立。如前所述，如果假设检验判定原假设是错误的，称为拒绝原假设，那么，备选假设就一定是正确的，称为接受备选假设。例如：156原假设H0：做广告后的销售量做广告前的销售量备选假设H1：做广告后的销售量做广告前的销售量又如：原假设H0：1824岁人群每周平均上网时间10小时备选假设H1：1824

58、岁人群每周平均上网时间10小时在构建原假设和备选假设时，总是把我们主张的假设（一般是一些常见的需要肯定的结论）作为备选假设，而把和备选假设对立的假设作为原假设。假设检验的目标总是力图利用统计数据来拒绝原假设，如果拒绝原假设成功，就证实了备选假设是正确的，即接受备选假设，我们主张的假设得到了证实。157当然，经常出现统计数据无法拒绝原假设的情况。如果出现这样的情况，严格地说，我们既不能接受原假设，也不能拒绝原假设（这一点和法律的“无罪推断”有所不同）。因此，也就既不能拒绝备选假设，也不能接受备选假设。这时，假设检验没有任何明确的结论。假设构建是假设检验的第一步，也是最重要的一步。在构建假设之前

59、，通过对统计数据的观察，必须先有一个主张或猜测，看哪一个统计论断是正确的。然后把我们主张的，或者猜测为正确的论断作为备选假设，而把与它对立的论断作为原假设。在假设检验中，原假设是要力图加以拒绝的假设，而备选假设是我们主张的或希望接受的假设，这就是假设检验的基本逻辑。我们要通过学习和练习，正确理解这个逻辑，并能够根据具体实际问题，正确熟练地进行假设构建。158假设检验分为单样本假设检验和两样本假设检验。单样本假设检验，假设通常是某个统计量和某一个常数的大小关系。单样本假设检验中，原假设和备选假设有以下几种类型：注意在上表中，原假设中检验统计量一定是包含等号的。即包括区域的端点。而备选假设统计量的

60、表达式一定是不包含等号的，即不包括区域的端点159n五个不同年龄组每周平均上网时间的统计数据如下表。160通过观察发现，18岁以下组每周平均上网时间的均值为6.588小时，为各组最低。但是，6.588小时只是“18岁以下年龄组每周平均上网时间”这个随机变量取值的一个特例，如果再一次抽样，同一年龄组的上网时间不会出现这个数字。因此，检验“18岁以下组每周平均上网时间的均值为6.588小时”这个统计论断是没有意义的。如果希望通过假设检验，确认“18岁以下人群每周平均上网时间为7小时以下”这个论断的统计正确性，应如何构建原假设和备选假设？161根据上述假设检验的原理和步骤，把“18岁以下人群每周平均

61、上网时间7小时”作为备选假设，而把“18岁以下人群每周平均上网时间7小时”作为原假设。即：H0：18岁以下人群每周平均上网时间7小时H1：18岁以下人群每周平均上网时间7小时以上的假设构建是正确的，而以下的假设构建是不正确的：H0：18岁以下人群每周平均上网时间6.5小时H1：18岁以下人群每周平均上网时间6.5小时尽管备选假设H1“18岁以下人群每周平均上网时间6.5小时”是我们主张或认为是正确的假设，但是原假设H0：“18岁以下人群每周平均上网时间6.5小时”是一个不等式表达式，这种假设的形式不是三种原假设的类型中的任何一种。162以下假设构建也是不正确的：H0：18岁以下人群每周平均上网

62、时间7小时H1：18岁以下人群每周平均上网时间7小时这时因为其中的原假设H0：“18岁以下人群每周平均上网时间7小时”是我们主张的或者我们希望接受的，这样的假设应该作为备选假设而不是原假设。163两样本假设检验的假设通常是样本1和样本2相应统计量之间的大小关系。两样本假设检验中，原假设和备选假设有以下几种类型：同样，在两样本假设检验中，原假设中统计量的表达式一定包含等号，即所在的区域也是闭区域。而备选假设统计量的表达式一定不包含等号，即所在的区域一定是开区域。164n某种产品做广告以前的24个月的销售量和做广告后的12个月的销售量的统计数据如下表。从表中可以看出，做广告后的12个月商品销售量的

63、均值大于做广告前24个月商品销售量的均值。165由于做广告前后的销售数据分别来自两个不同的总体。因此这是两样本的假设检验问题。如果我们希望通过假设检验接受“做广告后的销售量大于做广告前的销售量”这一论断。相应的原假设和备选假设应该是：H0：做广告后的销售量做广告前的销售量H1：做广告后的销售量做广告前的销售量这个原假设和备选假设的形式符合表中的第二种类型。如果原假设被拒绝，备选假设就可以接受。166：判定一个无罪的人有罪：判定一个有罪的人无罪减小限制警察获取证词的权力，防止逼、供、信或用刑等增大自自然然状状态态法法官官的的决决策策 H0为为真真（无无罪罪）H0为为伪伪

64、（有有罪罪）接接受受 H0 拒拒绝绝 H0 决决断断正正确确一一类类错错误误（弃弃真真、）二二类类错错误误（纳纳伪伪、）决决断断正正确确 167n 假设检验的显著性水平假设检验是建立在抽取样本的基础上进行的，由于样本数据具有随机性，根据一次抽取的样本来确定是否拒绝原假设，可能会犯错误。显著性水平就是“原假设成立时，拒绝原假设，接受备选假设”犯错误的可能性,也就是犯第一类错误的概率。例如，18周岁以下136个样本每周上网时间的调查数据进行假设检验，假设是：H0：每周平均上网时间7小时H1：每周平均上网时间 7小时按显著性水平为0.05，假设检验的结果是拒绝原假

65、设，接受备选假设，断定18周岁以下的总体每周平均上网时间小于7小时。显著性水平的意义是：这一结论是错误的概率为0.05。168如果把显著性水平降低到0.02，假设检验的结果是不能拒绝原假设，也不能接受备选假设，假设检验没有明确的结论。因此，既能按照我们的意愿拒绝原假设，接受备选假设，又不会冒太大的犯错误的风险，就必须适当地确定显著性水平。显著性水平通常取0.01、0.05或0.10。一般不超过0.10。169n检验统计量和决策准则假设检验统计量可以有很多，本书讨论其中最常用的三个检验统计量，即均值、比例和方差。我们在第三章“抽样和估计”中已经看到，根据总体属性的不同假设，这三个统计量的分布是不

66、同的，分布可以是正态分布、t分布、2分布等等。样本计算的统计量落在什么范围内，假设被拒绝，在什么范围内，假设不能被拒绝。这些准则称为假设检验的决策准则。决策准测和假设类型有关。设假设检验的显著性水平为，根据不同的假设检验类型，决策准则分为左尾检验准则、右尾检验准则和双尾检验准则。170l 左尾检验准则，拒绝域在左侧，相应的假设检验为：H0：检验统计量常数H1：检验统计量常数相应的决策准则图形如下，简称为“左尾检验”。如果统计量落入左侧的拒绝域（概率为），则拒绝原假设，接受备选假设。否则，不能拒绝原假设拒绝域1-171l 右尾检验准则，拒绝域在右侧，相应的假设检验为：H0：检验统计量常数H1：检验统计量常数相应的决策准则图形如右，简称为“右尾检验”。如果统计量落入右侧的拒绝域（概率为），则拒绝原假设，接受备选假设。否则，不能拒绝原假设。拒绝域1-172l 双尾检验准则，拒绝域在两侧，相应的假设检验为：H0：检验统计量常数H1：检验统计量常数相应的决策准则图形如下，简称为“双尾检验”。如果统计量落入两侧的拒绝域中任何一个（落入每一侧的概率为/2），则拒绝原假设，接受备选假设。否则，不能拒绝

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

数据模型与决策ppt课件

最新文档

相关资源

相关搜索