六西格玛数据分析技术PPT课件

上传人：沈*** 文档编号：177850923 上传时间：2022-12-26 格式：PPT 页数：344 大小：6.52MB

收藏版权申诉举报下载

第1页 / 共344页

第2页 / 共344页

第3页 / 共344页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《六西格玛数据分析技术PPT课件》由会员分享，可在线阅读，更多相关《六西格玛数据分析技术PPT课件（344页珍藏版）》请在装配图网上搜索。

1、http:/ 录课程概要第1章基本统计概念第2章概率及其应用第3章管理中常见的几个概率分布第4章参数估计第5章假设检验第6章离散数据的卡方检验第7章方差分析第8章相关分析与一元回归第9章多元回归分析退出放映http:/ 课程要点l 培养对象l 欲达目的l 课时安排http:/ o概率及其在质量管理中的应用o质量管理中常见的几个概率分布o参数估计及其应用o假设检验及其应用o离散数据的卡方检验o方差分析及其应用o相关分析与一元回归o多元回归及其应用返回目录http:/ 开展六西格玛管理项目的黑带及黑带大师候选人和掌握统计技术与方法应用的人。返回目录http:/ 通过本课程的学习你

2、将达到：o 理解统计数据分析主要方法的基本理论o 树立起六西格玛管理的统计思想o 掌握了基本统计方法在管理中的应用o 能熟练运用Minitab软件实现数据分析1.建立起运用统计方法解决管理问题的能力返回目录http:/ 基本统计概念 4课时第2章概率及其应用 4课时第3章管理中常见的几个概率分布 4课时第4章参数估计 4课时第5章假设检验 4课时第6章离散数据的卡方检验 4课时第7章方差分析 4课时第8章相关分析与一元回归 4课时第9章多元回归分析 4课时返回目录http:/ 基本统计概念1.1 常用数据分析技术概述 1.2 总体与样本1.3 数据的收集1.4 数据的类型1.5

3、数据集中趋势的测度1.6 数据离散程度的测度1.7 数据基本分析的软件实现小组讨论与练习返回目录http:/ 章目标理解数据分析在6管理中的重要意义理解几个常见的统计概念树立企业管理人员量化管理的统计意识掌握几种不同平均数的计算方法掌握标准差和变异系数的计算方法返回目录http:/ 常用数据分析技术概述界定界定Define量测量测Measure分析分析Analyze改进改进Improve控制控制Control量测所得量测所得各种数据各种数据Data返回目录http:/ 管理目标管理目标顾客满意顾客满意返回目录http:/ 总体与样本总体?X这个企业员工的月平均收入是多少？n

4、iinxx1/信息由样本信息作为总体信息估计值从总体中抽取一小部分x样本返回目录http:/ size)：样本中包含的个体的数量称为样本容量，通常用n表示。返回目录http:/ 数据的收集6管理是一种科学的量化管理没有数据就没有管理没有数据的统计分析就等于无米之炊数据资料的来源有两种：原始资料和二手资料抽样是企业管理中收集数据的最普遍方法宏观数据资料的获取主要依赖于各种统计年鉴和咨询顾问公司返回目录http:/ 概率抽样和非概率抽样概率抽样（随机性原则）非概率抽样配额抽样简单随机抽样(simple random sampling)分层抽样(stratified sampling)整群抽样

5、(cluster sampling)等距抽样。又称系统抽样（systematic sampling）返回目录http:/ 数据的类型 6管理中通常遇到两种类型的数据：定性数据定性数据定量数据定量数据定类数据定类数据定序数据定序数据计量数据计量数据计数数据计数数据数据是决策的依据返回目录http:/ 怎样获得计量数据连续型数据连续型数据连续型数据连续型数据返回目录http:/ 计数或事件发生的频率：如，顾客满意度调查中不满意的人数。需要较大的样本量，以更好地描述产品或服务的某种特性。满意的和不满意的人数就是数出来的满意的和不满意的人数就是数出来的瓷砖中的斑点数瓷砖中的斑点数返回目录http:

6、/ 变量是说明和描述事物某种特征的指标变量的种类参数统计量变量的种类变量的种类分类变量分类变量顺序变量顺序变量数值型变量数值型变量随机变量随机变量连续型随机变量连续型随机变量离散型随机变量离散型随机变量返回目录http:/ 数据集中趋势的测度反映样本位置的统计量样本均值设有样本数据xnxxx,.,21niixnx11x 就是样本均值样本中位数：将样本数据按从小到大排序后，处于中间位置上的数就是中位数。返回目录http:/ 加权算术平均数niiixx1其中为的权重（weight），表示在数据集中所占的比重，而iixixniii10 ;1当权重相同，即nini,.,2,1 ,1时

7、加权算术平均数即为简单算术平均数。返回目录http:/ 连乘，然后开n次方，即nxxx,.,21nniinngxxxxx121.其中：代表几何平均数，为连乘符号当n2时，为了方便计算可采用对上式两边取对数的方法计算：gxniingxnxxxnx121log1)log.log(log1log几何平均数一般用于计算在一段时间内有复式增长的数据的均值几何平均数（geometric mean）注意注意返回目录http:/ 。返回目录http:/ 数据离散程度的测度一批统计数据相对它的均值而言，这些数据的离散程度如何？数据波动的统计量通常有三种：样本方差与样本方差与样本标准差样本标准差数据波动的统计

8、量极差极差变异系数变异系数返回目录http:/ 息较多。现在的社会居民收入分配相差很大，这对社会稳定很不利。极差让我们可以更清醒地认识到贫富差距。所以极差还是很有意义的一个统计量。一组数据中的最大值与最小值之差称为极差，用R表示。极差的计算十分简单，如某企业中员工的最大月收入是 12000元，最低月收入是800元，则 R1200080011200（元）返回目录http:/ 设有两组样本数据分别为：2、4、6、8、10 4、5、6、7、8 把这两组数据分别标在下面的直线轴上0024681045678返回目录http:/ 由这两组数据的均值和标准差，结合上面的图形，我们可以直观地看到这两组数据均以

9、6为中心，但前面5个数的离散程度要大于后面5个数的离散程度。第一组数的标准差是3.16，第二组数的标准差1.58。这个例子让我们更直观地体会到标准差以及均值的意义。返回目录http:/ 数及标准差如下（单位：元）10 ,100sx6.9 ,80sx 试问甲、乙两个企业哪个企业职工的月平均奖金相差较大？你怎么判断这个问题，你的答案是什么？乙：甲：返回目录http:/ 数据基本分析的软件实现StatBasic StatisticsDisplay Descriptive Statistics Store Descriptive Statistics 返回目录http:/ Descriptive St

10、atistics 在绘图窗口的输出分布图箱形图置信区间返回目录http:/ Descriptive Statistics 程序输出窗口Store Descriptive Statistics 在工作表中的结果输出关于身高数据的统计量分析返回目录http:/ 1.试举本企业中关于总体、样本、个体和样品的例子。2.试举实际问题中哪些数是连续型数据，哪些数是离散型数据。3.某企业2000年到2003年的销售收入增长率分别是15、20、23、28，请问这四年的销售收入平均增长是多少？4.从某啤酒厂的一批瓶装啤酒中随机抽取了10瓶，测得装量分别为：（单位：ml）640、639、636、641、642、6

11、38、639、643、636、639 试计算样本均值与样本标准差。5.从某厂生产的两种不同规格的车轴中，各随机抽取了20根，测得它们的直径的均值与标准差分别为甲产品乙产品试问哪种产品的质量波动大？mmsmmx01.1 ,40mmsmmx1.2 ,120返回目录http:/ 概率及其应用2.1 掷骰子的游戏2.2 概率及概率的计算2.3 概率的性质与运算法则2.4 条件概率2.5 独立性2.6 全概率公式2.7 贝叶斯公式2.8 概率树小组讨论与练习返回目录http:/ 章目标1.理解随机事件及其概率的基本思想2.掌握概率的性质与运算法则3.理解条件概率与事件的独立4.理解优质产品不

12、是检验出来的理念5.掌握全概率公式和贝叶斯公式的应用6.会运用概率树解决有关问题返回目录http:/ 掷骰子的游戏u一枚骰子掷下去后点数为1、2、3、4、5、6各出现的可能性有多大？u我们大家都知道一枚骰子掷下去后，各个点数出现的机会均等，每个点数出现的可能性都是1/6。可能出现的点数可能性大小1/61/61/61/61/61/6返回目录http:/ 骰子骰子1一共有36个组合，每个组合出现的概率是1/36=0.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02

13、780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.02780.0278u骰子骰子1 1与骰子与骰子2 2分别出现任何给定值的概率都等于分别出现任何给定值的概率都等于1/6u任一给定组合发生的概率任一给定组合发生的概率0278.06161返回目录http:/ 概率及概率的计算u古典概型随机事件常用大写的英文字母A、B、C等表示。随机事件A的概率，用P(A)表示u统计概型其中：n表示相同情况下试验的次数，m表示某

14、事件A出现的次数，比值m/n称为事件A发生的频率。nmAAP事件个数样本空间所包含的基本数所包含的基本事件的个事件)(pnmAP)(返回目录http:/ 率8.34%LSLUSL2.78%4%8%6%16%14%12%10%18%返回目录http:/ 概率的性质与运算法则u概率的公理化定义在研究随机现象中，把表示随机事件A发生的可能性大小的实数称为该事件的概率，用P(A)表示。前苏联的柯莫哥洛夫于1933年给出如下的概率公理化定义：1.非负性：对任一随机事件A，有 2.规范性：必然事件的概率为1，而不可能事件的概率为0，即 3.可加性：如果A与B是两个互不相容事件（互斥），则0AP)(1)(

15、P0)(P)()()(BPAPBAP返回目录http:/ .)(1)(1退化为可加性公理。此性质互不相容时，与当所示。如图与事件事件,PABPBA BA ABPBPAPBAP 2.0)()(1)()()()(图图1 BA返回目录http:/ 条件概率 u在现实世界中，任何随机试验都是在一定条件下进行的。这里我们要讨论的条件概率，则是当试验结果的部分信息已知（即在原随机试验的条件下，再加上一些附加信息）。例如当某一事件B已经发生时，求事件A发生的概率，称这种概率为事件B发生条件下事件A发生的条件概率，记为 P(A|B)u由于增加了新的条件（附加信息），一般来说，P(A|B)P(A)。返回目

16、录http:/ 法公式(2)()()(BPB|APABP u由前一页最后的结果，我们看到条件概率有如下的计算公式：)1()()()()(0BP BPABPB|AP 即条件概率可由两个无条件概率之商来计算。u对上边的公式变形，即得此公式就是所谓的概率乘法公式。u如果将A、B的位置对换，这时有 P(BA)=P(B|A)P(A)，而P(AB)=P(BA)，于是(3)()()(APA|BPABP 公式(2)与(3)统称为概率的乘法公式。返回目录http:/ 个例子u例24：设有1000件产品，其中850件是正品，150件是次品，从中依次抽取2件，2件都是次品的概率是多少？解：设A i表示“第i

17、次抽到的是次品”，i=1，2，所求概率为P(A1A2)。因为 AAP ,AP1999149)|(1000150)(12 即抽到工件都是次品的概率是2.24%。运用乘法公式可得0.0224 9991491000150)|()()(12121 AAPAPAAP 返回目录http:/ 独立性u在使用概率的乘法公式时，一般都要计算概率，但是在事件A与B独立的情况下，乘法公式就会变得简单。u什么是独立事件呢？一般认为，两个事件中不论哪一个事件发生与否并不影响另一个事件发生的概率，则称这两个事件相互独立。当两个事件相互独立时，其条件概率等于无条件概率，即 BPA|BP ,APB|AP)()()()(我

18、们甚至可以用这一公式来判断A、B两个事件是否独立！因此，当两个事件相互独立时，其乘法规则可以简化为：)()()(BPAPABP 返回目录http:/ 工序工序2返回目录http:/ 100=8686优等率(%)9090900.903 100=7373返回目录http:/ 全概率公式 u全概率公式主要用于计算较为复杂情形随机事件的概率。u全概率公式实质上是加法公式和乘法公式的综合运用和推广。u例26：某车间用甲、乙、丙、三台机床进行生产，各台机床加工零件的次品率分别是5%，4%，2%，它们各自的零件分别占总产量的25%，35%，40%。三台机床生产的零件混在一起，求任取一个零件是次品的概

19、率。管接头镗孔机床管接头镗孔机床返回目录http:/ 的求解 u令A1表示“零件来自甲台机床”，A2表示“零件来自乙台机床”，A3表示“零件来自丙台机床”，B表示“抽取到次品”。u则事件发生当且仅当下列三种情形任意出现一种：1.是甲机床生产的零件且为次品(A1B)；2.是乙机床生产的零件且为次品(A2B)；3.是丙机床生产的零件且为次品(A3B)。u显然，事件B是A1B，A2B，A3B这三个两两互不相容事件的和，用公式表示为：B=A1B+A2B+A3B返回目录http:/ 的求解（续）u根据加法公式：P(B)=P(A1B)+P(A2B)+P(A3B)u分别对P(AiB)(i=1,2,3)用乘法

20、公式：P(AiB)=P(Ai)P(B|Ai)，i=1,2,3于是得：A|BP AP BPiii31)()()(u代入已知数据：P(A1)=0.25，P(A2)=0.35，P(A3)=0.40 P(B|Ai)=0.05，P(B|Ai)=0.04，P(B|Ai)=0.02 P(B)=0.0345 即任取一件产品是次品的概率为0.0345。返回目录http:/ A1+A2+An，则我们就称这个公式为全概率公式。全概率公式的总结 A|BP AP BPniii1)()()(u全概率公式的直观意义是：某一事件B的发生有多种可能的原因Ai(i=1,2,n)，如果B是由原因Ai所引起的，则B发生的概率是P(

21、AiB)(i=1,2,n)。每一事件Ai发生都可能导致B发生，相应的概率是P(B|Ai)，故B发生的概率是：当直接计算P(B)较困难，而P(Ai)，P(B|Ai)(i=1,2,n)的计算较简单时，就可以利用全概率公式计算P(B)。例26 就是这样计算的。A|BP AP BAP BPniiinii 11)()()()(返回目录http:/ A1+A2+An，则 2.7 贝叶斯公式这就是著名的贝叶斯公式，也称为逆概率公式。贝叶斯公式是英国统计学家贝叶斯(TBayes)给出，在其去世后的1763年才发表。该公式是在观察到事件B已发生的条件下，寻找导致B发生的每个原因Ai的概率。P(Ai)和P(Ai

23、)是事件（取到的一件次品(B)）发生后事件Ai发生的概率,它是获得新信息（即事件B发生）之后再重新加以修正的概率，故称P(Ai|B)为验后概率。返回目录http:/ 概率树 u企业的领导层在讨论竞争策略时，常常是众说纷纭，但当说完后，人们又一筹莫展，没有头绪；u利用概率树可以帮助企业家理清思路，科学决策；u概率树就是一种树形图，然后在树干和树枝上标上相应的概率。u我们用几个例子来说明这一决策方法的应用。u例28：掷一对硬币，出现结果是两个正面的概率是多大？返回目录http:/ u第一个硬币出现的可能结果是正面（概率0.5）和反面（概率0.5），于是形成两个分支。可以用0.5+0.5=1来检

24、查有无其它可能性被遗漏。u对于这两种可能结果的每一种，对应第二枚硬币均加上相似的两个分支u于是由概率树及乘法法则，会看到出现两个正面的概率是0.25。正正(0.5)反反(0.5)正正(0.5)反反(0.5)正正(0.5)反反(0.5)结果结果概率概率正正正正 0.25正反正反 0.25反正反正 0.25反反反反 0.25返回目录http:/ u 例29：某种产品由甲、乙、丙三台机床生产，每台机床的生产量不同，其中60%的产品来自机床甲，30%和10%的产品分别由乙和丙生产。甲、乙、丙三台机床产品的次品率分别是8%、12%和3%。从它们生产的一批产品中，随机抽取一件产品是次品的概率是多大？方柱

25、立钻方柱立钻返回目录http:/ 由概率树中，我们看到所有次品的三个分枝，及在每一个枝上相应的概率。为计算随机抽取一件产品是次品的概率，我们利用乘法法则计算出每一台机床次品分枝出现的概率，在利用概率的加法法则计算出抽取一件产品是次品的概率为：(0.60.08)+(0.3 0.12)+(0.1 0.03)=0.087甲甲(0.6)丙丙(0.1)乙乙(0.3)正品正品(0.92)次品次品(0.08)正品正品(0.88)次品次品(0.12)正品正品(0.97)次品次品(0.03)返回目录http:/ 决策者关心的是市场份额达到50%及以上的各种事件的组合，由概率树及概率的基本运算法则，状态S1和S2

26、符合要求。则组合A1B1S1，A1B1S2，A1B2S1及A1B2S2符合要求，由此可计算出市场份额达到和超过50%的概率是 p=0.144+0.192+0.256+0.032=0.624A1表示研制成功(0.80)A2表示研制不成功(0.20)B2表示B公司没有对抗(0.40)B1表示B公司有新产品对抗(0.60)70%市场份额(0.30)50%市场份额(0.40)80%市场份额(0.80)50%市场份额(0.10)40%市场份额(0.10)S1=0.800.600.30=0.144S2=0.800.600.40=0.192S3=0.800.600.30=0.144S1=0.800.400.

27、80=0.256S2=0.800.400.10=0.032S3=0.800.400.10=0.03230%市场份额维持不变 40%市场份额(0.30)返回目录http:/ 3.1 随机变量 3.2 随机变量的分布 3.3 随机变量的均值与方差 3.4 二项分布及其应用 3.5 泊松分布及其应用 3.6 正态分布及其应用 3.7 中心极限定理 3.8 各种概率分布计算的Minitab实现小组讨论与练习第3章管理中常见的几个概率分布返回目录http:/ 章目标1.理解随机变量及随机变量分布的基本概念2.理解随机变量的均值及方差在管理中运用的思想3.理解二项分布的意义，掌握二项分布的应用4.

28、掌握泊松分布的意义和应用理念5.理解正态分布与6的关系6.理解中心极限定理的意义7.掌握各种概率分布的计算实现返回目录http:/ 随机变量u 日常生活中，生产实践中随机现象无处不在u把随机现象的结果用变量来表示，就称为随机变量u随机变量是随机现象表示的一种抽象，有了这种抽象，使得我们的研究更具普遍性。u常用大写的字母X，Y，Z等表示随机变量，随机变量的取值常用小写字母x,y,z等表示。u随机变量有离散型和连续型两大类返回目录http:/ 定义：如果一个随机变量的取值是可数的，则称该随机变量是离散型随机变量。u 离散型随机变量是仅取数轴上有限个点或可列个点x1x2x3x4x5x6x7X图1公路

29、上的汽车完好瓷砖的数目返回目录http:/ 随机变量的分布u随机变量的取值的统计规律就是随机变量的分布。u知道了一个随机变量的分布就掌握了它的关键。u离散型随机变量的分布。l 随机变量X可能取哪些值，X取这些值的概率各是多大？u连续型随机变量的分布。l随机变量X在哪个区间上取值，它在任意小区间取值的概率是多少？返回目录http:/ 离散型随机变量的分布常用下面表格形式的分布列来表示：u 用数学表达式表示即为:P(X=xi)=pi,i=1,2,nu 离散型随机变量的分布应满足概率公理化定义的要求，即pi0，p1+p2+pn=1u 掷一枚骰子出现的点数及其概率就可用离散型随机变量的分布列表示:X

30、x1 x2 xn P p1 p2 pn X(出现的点数)1 2 3 4 5 6 P(所对应的概率)1/6 1/6 1/6 1/6 1/6 1/6 返回目录http:/ 在生产制造业的管理现场我们常常要抽取若干样品测定某种产品的质量特性X。如在啤酒厂今天生产的啤酒中随机抽取若干瓶量测它们的装量(ml)，就可用直方图表示它们的质量特性。随着测定的数量越多，直方图就会演变成一条光滑曲线，这就是所谓的概率密度函数曲线，它就刻画出隐藏在质量特性X随机取值后面的统计规律性。这条光滑曲线f(x)告诉了我们什么信息？640645635LSLUSL640645635LSLUSL640645635LSLUSL64

31、0645635LSLUSL640645635LSLUSL640645635LSLUSL返回目录http:/ 在管理现场，不同产品的不同质量特性所表现的概率密度曲线不同，这决定了形状不同，散布不同，位置不同。正是这些不同的曲线形式决定了质量特性的差别。正态偏态形状不同散布不同位置不同返回目录http:/ 概率密度曲线的纵轴在做直方图时，它是“单位长度上的频率”，由于频率的稳定性，于是用概率代替了频率，从而纵轴就演变成为“单位长度上的概率”，这也是为什么把密度曲线称为概率密度曲线的缘由。u 连续型随机变量的密度函数f(x)具有如下性质：1.2.3.其中表示质量特性值在区间(a,b)中的概率。u

32、这里涉及到积分概念，不必感到忧虑，因为积分计算不是重点。0)x(f1dx)x(f)bXa(Pdx)x(fba)bXa(Pf(x)bXa(Pxab返回目录http:/ 随机变量的均值与方差u前面第1章中看到的具体数据可以用均值和方差来分别描述数据的集中趋势和离种趋势，随机变量也有均值和方差的概念，用它们分别表示分布的中心位置和分散程度。u在掷骰子例子中，每次掷下后出现的点数不仅相同，平均出现的点数是多少？在啤酒的装量测定中，每瓶啤酒的装量严格来说都不一样，它们的平均装量是多少？这就是随机变量的均值问题。u相对均值而言，每次掷骰子出现的结果都在它的左右，那么平均的偏差有多大？假如一批瓶装啤酒的平均

33、装量是640ml，各瓶偏离640ml的多少都不一样，它们平均偏离是多少？这就是随机变量的方差及标准差问题。返回目录http:/ 直方图的上下公差限的总宽度是对生产能力的一个设计。在大部分时间里，生产运行的结果就在这一区间上发生。u 譬如，根据啤酒装量的抽检数据建立了如下的直方图T废品废品废品废品期望值期望值640返回目录http:/ 25/300=0.083 合格率是1-0.083=0.917，即合格率为91.7%返回目录http:/ 我们应该意识到，一个生产过程内在的精度不是由设计人员及设计方案所规定的。就像我们扔飞镖每一发都想命中靶心，但往往事与愿违。提高质量的核心就是优化流程，减小变异，

34、提高生产流程内在的精度。这是6管理的精髓。返回目录http:/ T是目标值，期望值，设计值。然而常常在生产实际中，生产实际的中心值会发生变化，偏离目标值。这也说明实际生产结果的中心值是独立于设计值规定的目标值(T)的。6管理的目的就在于优化流程，减小变异，使实际生产结果的中心值尽可能与设计的目标值重合。xLSLUSLT返回目录http:/ 离散型随机变量的数学期望（均值）u 连续型随机变量的数学期望xf(x)dxE(X)iiipxXE)(返回目录http:/ 例31.掷骰子试验中出现的点数用随机变量X表示，随机变量X的均值(数学期望)为即掷骰子出现的结果很不一样，但它们的平均取值是3.5u

35、例32.电子产品首次发生故障（需要维修）的时间通常遵从指数分布。譬如某种品牌的手机首次发生故障的时间T(单位：小时)遵从指数分布问计算这种品牌的手机首次需要维修的平均时间是多少小时。解：即这种品牌的手机首次需要维修的平均时间是10000小时。3 3.5 56 61 16 66 61 15 56 61 14 46 61 13 36 61 12 26 61 11 161iiipxE(X)x(f0001x.00001e.00 x 00 x 1 10 00 00 00 0(0 0.0 00 00 01 1)d dx x0 0.0 00 00 01 1x xe ex xf f(x x)d dx xE

36、 E(T T)1 10 00 0.0 00 00 01 1x x0 0返回目录http:/ 离散型随机变量的方差u 连续型随机变量的方差u 由于方差不能带单位，故用标准差来刻画随机变量相对均值的离散程度niipE(x)xD(X)22f(x)dxE(x)xD(X)22D(X)2返回目录http:/ 例33.掷骰子问题中，出现点数的平均值是3.5，每次取值相对于均值的离散程度是多大？解：即相对均值平均偏离1.71点。u 可以证明，指数分布的均值与标准差相等，即例32中某种品牌的手机首次需要维修的平均时间是10000小时，即标准差也为10000小时。标准差如此之大有点不好理解。然而，凡是遵从指数分

37、布的产品寿命问题就是这样，也即你的期望越高，标准差必然就大。实际中，也确有同一品牌的手机有的刚刚使用就遇到故障，而有的用了好几年也不需修理。6 61 13 3.5 5)(6 66 61 13 3.5 5)(2 26 61 13 3.5 5)(1 1D D(X X)2 22 22 22 22 2.9 92 2)/6 62 2.5 51 1.5 50 0.5 50 0.5 51 1.5 5(2 2.5 52 22 22 22 22 22 21.711.712.922.92 1 1D D(X X)E E(X X)返回目录http:/ 二项分布及其应用u 二项分布的概率计算公式：其中是从n个不同元素

38、中取出x个的组合数，计算公式为：二项分布的概率计算公式中有两个重要的参数，一个是n，一个是p，故通常把二项分布记为B(n,p)n n,0 0,1 1,2 2,x xp p)(1 1p px xn nx x)P P(X Xx xn nx xx)!x)!(n(nx!x!n!n!xn返回目录xnhttp:/ 例34.已知某生产流程生产的产品中有10%是有缺陷的，而该生产流程生产的产品是否有缺陷完全是随机的，现在随机选取5个产品，求其中有2个产品有缺陷的概率是多大？解：这是一个符合二项分布情形的问题。设X为抽取的5个产品中有缺陷的产品的个数，则X是遵从二项分布B(5,0.1)的随机变量。某一产品有缺陷

39、的概率为p=0.1，n=5。择所要求的概率为：类似可以计算出在抽取的5件产品中有0、1、3、4、5个产品有缺陷的概率分别为)2X(Pnxx xn nx xp p)(1 1p p520 0.0 07 72 29 90 00 0.9 90 0.1 12 25 52 232805.0)1X(P,59049.0)0X(P00001.0)5X(P,00045.0)4X(P,0081.0)3X(P返回目录http:/ 可以证明，如果随机变量XB(n,p),它们的均值、方差、标准差分别为：在例34中，二项分布B(5,0.1)的均值、方差与标准差分别为：u 二项分布的计算在n很大时，像上面的那样的运算是很麻烦

40、的，然而，通常可以通过查二项分布表直接解决这一问题，或通过Minitab软件计算。671.045.045.00.1-11.055.01.05)X(E2p)p)np(1np(1 p),p),np(1np(1D(X)D(X)np,np,E(X)E(X)2 2返回目录http:/ 泊松分布及其应用u单位产品缺陷数的概念在任何生产流程中，缺陷的出现难以避免缺陷的出现完全是随机的u如果50件产品发现了50处缺陷，则单位产品的缺陷数为1u生产一件产品无缺陷的最大可能性是多少？u一件产品保证不再返工或修理的最大可能性是多少？返回目录http:/ 假设某种产品由10个零部件组成设零部件有缺陷的概率是0.1

41、0该零部件无缺陷的概率是0.9034867844.090.010重要结论：该种产品无缺陷的最大可能性是34.87%返回目录http:/ 当零件数趋于无限时，我们可以注意到合格品率趋于：u 泊松公式：其中，d/U是单位产品缺陷数，r是缺陷实际发生的数量。因此，当r=0时，就可得到单位产品无缺陷的概率。注意：它不同于传统意义上的产品合格率。例如合格产品的数量比上所有被检验产品的数量。r rP P（r r）0 00.36788 0.36788 1 10.36788 0.36788 2 20.18394 0.18394 3 30.06131 0.06131 4 40.01533 0.01533

42、5 50.00307 0.00307 6 60.00051 0.00051 7 70.00007 0.00007 8 80.00000 0.00000 9 90.00000 0.00000 10100.00000 0.00000 11110.00000 0.00000 12120.00000 0.00000 13130.00000 0.00000 14140.00000 0.00000 1.00000 1.00000 0.367880.36788e e1 1r r!e e(d d/U U)P PU Ud dr rU Ud de eP P返回目录http:/ 2.在某一单位时间内，某种机器发生的

43、故障数 3.一辆汽车的表面上的斑痕数 4.你的手机每天接到的呼唤次数u泊松分布的一般数学形式是：其中为某种特定单位内的平均数。在研究产品缺陷问题中0 0,1 1,2 2,xex!x)P(XxUd返回目录http:/ 例35.某一大型矿山每年发生工伤事故的平均次数为2.7，如果企业的安全条件没有质的改变，则下一年发生的工伤事故小于2的概率是多少？解：设X为下一年发生的工伤事故数，则X遵从为2.7的泊松分布，于是X遵从的分布为于是可算得即下一年发生工伤事故数小于2的概率为24.866%。u 可以证明泊松分布的均值与方差相等，且均为，即!xe7.2)xX(P7.2x,2,1,0 x),1X

44、(P)2X(P24866.0)1X(P ,D D(X X),E E(x x)2 2返回目录http:/ 通常在实际应用中，当时，用泊松分布近似二项分布效果良好。u 例36.已知某种电子元件的次品率为1.5，在一大批元件中随机抽取1000个，问次品数为0，1，2，3的概率是多少？解：把“电子元件的次品数”看成随机变量X，显然X遵从二项分布B(1000,0.0015)。如果直接利用二项分布公式求解，就要计算u 显然，计算量很大！5np,20n,25.0p)0X(P1000010000)9985.0()0015.0(100019991)9985.0()0015.0()1X(P100039973)9

45、985.0()0015.0()3X(P返回目录http:/ 如果用泊松分布去近似计算，则u 泊松分布与二项分布计算结果的比较5.1np 223130.0e!05.1e!x)0X(P5.10 x334695.0e!15.1)1X(P5.11125511.0e!35.1)3X(P5.13P(X=x)二项分布泊松分布绝对差P(X=0)0.222879 0.223130 0.000251 P(X=1)0.334821 0.334695 0.000126 P(X=2)0.251241 0.251021 0.000220 P(X=3)0.125558 0.125511 0.000047 返回目录http:

46、/ 正态分布及其应用随机变量随机变量XN(,2)的正态分布曲线的正态分布曲线:曲线拐点的横曲线拐点的横坐标坐标或或 sP(aXb)=?222)(21)(xexf返回目录http:/ 当不变时，不同的对应的曲线形状不变，仅仅是位置不同。而当不变时，不同的对应的曲线形状不同，大的曲线较矮胖，小的曲线较瘦高。因此反映了曲线的位置，是位置参数，它是正态随机变量的平均值，也称为正态变量的均值(或数学期望)。反映了曲线的形状，即随机变量取值的离散程度，是形状参数(也称尺度参数)，称为正态变量的标准差，2为其方差。常记为 )X(En1iixn1x2()Var X返回目录niixxnS1222)(11http

47、:/ xe蓝色部分的面积：P（-3X3）=0.997303456223456返回目录http:/ ，称随机变量X遵从标准正态分布，记为。如果一个随机变量X遵从标准正态分布，则其取值落在横轴上任意区间的概率可通过标准正态分布表查出。l标准正态分布的分布函数用表示，即l例：l当时，即 221()2xf xe(0,1)XN()x()()xP Xx(0,1)XN864334.01.1)1.1(）（XP()1()P XxP Xx()1()xx (1.5)(1.5)1(1.5)10.933193P X 0.066807返回目录http:/ 时，要通过变换公式把一般正态分布转换为标准正态分布 2.当

48、转换为标准正态分布后，查相应的标准正态分布表3.对于，可由获取4.当时，直接查表即可5.当时，有公式:)1,0(NX),(2NX)1,0(NX),(2NXXZ)(1)(xxx)()()(abbXaP1)(2)(aaXP)()()(abbXaP返回目录http:/ 9.5mm10.5mm之间，这一要求能否得到保证？之间，这一要求能否得到保证？解：已知XN(10,0.22)(1)P(X9.4)=(9.4-10)/0.2)=(-3)=0.00135返回目录http:/ P(9.5X10.5)=?P(-2.5z上下限内上下限内曲线的面积曲线的面积上下限内上下限内曲线的面积曲线的面积上下限内上下

49、限内所容所容个数个数上下限内上下限内所容所容个数个数流程流程 I流程流程IIxLSLUSL流程流程I（样本均值）返回目录http:/ 合格6流程流程合合格格由客户决定由客户决定由客户决定由客户决定废品废品0.001ppm废品废品0.001ppm6流程比流程比3流程好得多！流程好得多！废品废品1350ppm废品废品1350ppm返回目录http:/ 如果你达到了如果你达到了6sigma质量水准，就意味着在有质量水准，就意味着在有100万个出现缺陷万个出现缺陷的机会的流程中，实际出现的缺陷仅为的机会的流程中，实际出现的缺陷仅为3.4个个67.51.56当考虑漂移后当考虑漂移后：6十亿分之

50、二次品率十亿分之二次品率 63.4ppm期望流程期望流程流程平均值的漂移4.5面积约等于百万分之面积约等于百万分之3.4返回目录http:/ 中心极限定理u 中心极限定理：设为n个相互独立且同分布的随机变量，其共同分布未知，但其均值和方差都存在，在n较大时，其样本均值近似遵从正态分布，即u 中心极限定理表明：无论共同分布是什么形式，只要独立同分布随机变量的个数n较大时，的分布总是正态分布，这一结论非常重要。样本均值的均值由样本均值的标准差可以看出，在质量管理中，多次测量的平均值要比单次测量的值更具有稳定性。u 在许多统计推断中，只要即可采用中心极限定理。当n Probabili

51、ty Distributions Binomial.3、选取 Probability.4、在 Number of trials(试验次数)栏中,填入5.在 Probability of success(成功概率)栏中,填入 0.10.5、选取 Input column 并选择数据列.点击 OK.返回目录http:/ Calc Probability Distributions Binomial.返回目录http:/ Number of trials(试验次数试验次数)栏中栏中,填入填入5.在在 Probability of success(成功概率成功概率)栏中栏中,填入填入 0.10.选取选

52、取 Input column 并选择并选择数据列数据列.点击点击 OK计算得计算得5 5个产品中有个产品中有2 2个产个产品有缺陷的概率是品有缺陷的概率是0.07290.0729返回目录http:/ 以例35为例1、在工作表中填入1-2(只需考虑2次事故)2、选取 Calc Probability Distributions Possion.3、选取 Cumulative probability.4、在 Mean(均值)栏中,填入2.7.5、选取 Input column 并选择数据列.点击 OK.用Minitab计算泊松分布概率返回目录http:/ Calc Probability Dist

53、ributions Possion.返回目录http:/ Cumulative probability.在在 Mean(均值均值)栏中栏中,填入填入2.7.选取选取 Input column 并选择数据列并选择数据列.点击点击 OK计算得下一年发生的工伤计算得下一年发生的工伤事故小于事故小于2 2的概率是的概率是0.24870.2487返回目录http:/ 正态分布正态分布l 计算一个服从=28,=1的正态分布随机变量小于等于27的概率。1、选取 Calc Probability Distributions Normal.2、选取 Cumulative probability.3、在 Mean

54、栏中栏中,输入 28.在Standard deviation(标准差)栏中填入 1.4、选取 Input constant 并输入 27.点击 OK.用Minitab计算正态分布概率返回目录http:/ Calc Probability Distributions Normal.返回目录http:/ Cumulative probability，在在 Mean栏中栏中,输入输入 28.在在Standard deviation(标准差标准差)栏中栏中填入填入 1.选取选取 Input constant 并输并输入入 27.点击点击 OK计算得该随机变量小于等计算得该随机变量小于等于于2727的概

55、率是的概率是0.15870.1587返回目录http:/ ，求P(X2)=?o设，求P(2X0，共测试了7台电视机，获得相应的首次故障时间（单位：万小时）为：1.49，3.65，0.26，4.25，5.43，6.97，8.09 求参数的估计值。解：样本x1,x2,xn的联合密度用均值来表示，就有：，将看作常数，看作变量，可得似然函数，进而取对数，求微商，解方程可得：对本例而言，就有：极大似然估计(续3)2326.01.3071xxnnxnnnniixnxnineLe,x,xxPxnxee,x,xxPniii)()(1)()(2111211x返回目录http:/ 是参数的一个估计量，如果

56、，则称是参数的无偏估计。无偏性实际上是指对于一个估计量，屡次变更数据反复求估计值时，估计值的平均与真值相一致，即尽管有时比大，有时比小，总的看来，它的“平均值”就是。可以证明：许多情况下，是的无偏估计，s是的无偏估计。然而，在正态分布中的极大似然估计就不是无偏估计。x)(E返回目录http:/ 都是参数的无偏估计量，如果且至少有一个，严格不等号成立，则称比有效。设、x1都是的无偏估计，但样本均值的方差为2/n，x1的方差为2，只要n1，作为的估计值，比x1就更有效。)()(21DD21、210 xxx返回目录http:/ pn)1(pn返回目录http:/ 样本容量的确定u在

57、研究实际问题时，需要自己动手设计调查方案，这时如何确定样本容量大有学问。如果样本量太大，必然费用增加；如果样本量过小，估计误差又会增大。u这就看你需要什么样的估计精度，即你想构造多宽的估计区间？u对于你所确定的置信区间，你想要多大的置信度？u估计总体均值时，样本容量的确定在总体均值的区间估计里，置信区间是：该区间估计的精度为，是区间估计长度的一半。)/,/(2121nZxnZxnZ/21返回目录http:/ 误差或估计的精度在置信度(1-)下不超过某一数值B(允许误差)，则可从下面的方程确定n。解之得：u只要我们知道了Z1-/2，和允许误差，就可具体算出样本容量n。u如果算出的n不

58、是整数，就去超过该小数的最接近的整数即可。22121)B/(B/ZnnZ返回目录http:/ ，你可发现几个量之间的一些关系：1.总体方差越大，必要的样本容量n越大。2.必要样本容量n反比例于允许误差B。即在给定的置信水平下，允许误差越大，样本容量就可以越小；允许误差越小，样本容量就必须加大。3.必要样本容量n与正态分布Z1-/2分位数(也称可靠性系数)成正比。即：我们要求的可靠程度越高，样本容量就应越大；如果要求的可靠程度越低，样本容量就可以小些。221)B/(Zn返回目录http:/ 所花的广告费平均有多少。经验表明，总体方差约为1800000。如置信度取 95%，并要使估计值处在总体平均

59、值附近500元的范围内，这家广告公司应取多大的样本？解：已知2=1800000，=0.05，Z1-/2=1.96，B=500即这家广告公司应抽取28个商场作样本。2865.27)500()1800000()96.1()B(22221Zn返回目录http:/ 估计值。解：通常在此类问题研究中，无法得到值时,可以用 =0.5计算。已知B=0.05,=0.05，Z1-/2=1.96，=0.5即抽取385户调查，就可以95%的可靠度保证估计误差不超过0.05。2221B)1(ppZn385(0.05)5.01(5.096).(1B)1(222221ppZnp p p p 返回目录http:/ 两

60、个总体均值之差的区间估计u某化工厂需要比较由两个供应商提供的原材料所带来的产量，某企业质量管理部的部长希望了解车间内两条生产线生产的灯泡平均寿命是否存在差异等。这些都是要对两个总体均值之差作区间估计。u两个总体的方差已知情况下，两总体均值差异1-2的区间估计：其中，分别为来自两个总体的样本均值，n1，n2为抽自两总体的样本容量，分别是两总体的方差。u只要样本容量足够大，对于总体分布是否正态都可适用。2221、2221212121Z)(nnxx21xx、2221、返回目录http:/ 。随机从两条生产线生产的灯泡中各抽取20只和25只，测得平均寿命分别为1478小时和1456小时，在=0

61、.05时，求出两条生产线生产的灯泡平均寿命差异的区间估计。解：即1-2的95%的置信区间为(9.8，34.2)。4454202221，)2.8,34.9(Z)(,96.1Z,05.0445,420,1456,1478,25,202221212121212122212121nnxxxxnn的区间估计为：则返回目录http:/ 未知的情况u两个总体均遵从正态分布，且未知时，为了给出1-2的估计我们必须利用两个样本中关于2的信息联合大体估计2，这个联合估计量为：u这时两个总体均值之差1-2的1-置信水平下的置信区间为：22212221，当2221、2)1()1(212222112nnsnsnSp2

62、121212111)2()(nnSnntxxp返回目录http:/ 抽样分布不遵从自由度为(n1+n22)的t分布，而近似遵从自由度为f的t分布。f的计算公式为：这样两个总体均值之差1-2的1-置信水平下的置信区间为：2221)1)(1)()(22222121212222121nnsnnsnsnsf2221212121)()(nsnsftxx的但此时的估计为从而得到和分别估计和22212121212221212)(22212221)()(),(,21nsnsxxnsnsssxx 返回目录http:/ 两个总体比例之差的区间估计u设两个正态总体的比例分别为p1和p2，为了估计 p1p2，分别从两

63、个总体中各随机抽取容量为n1和n2的两个随机样本，并计算两个样本的比例，可以证明，p1p2的置信度为1-的置信区间为：21pp和2221112121)1()1(Z)(nppnpppp返回目录http:/ 正态总体方差的区间估计u设x1,x2,xn来自均值为，方差为2的正态总体，、2均未知，则2的估计量为s2，且u利用2(n1)分布可以得到2的1置信区间为：u其中分别是2(n1)分布的 1/2分位数与/2分位数。)1()1(,)1()1(2222212nsnnsn)1()1(22221nn与)1()1(222nsn返回目录http:/ 两个正态总体方差比的区间估计u实际问题中，我们需要比较两

64、种测量工具的精度；比较两个生产过程的稳定性；比较两个评委评分的变异性等等，这些都可转化为两个总体方差的比较。u可以证明：置信度为1-的的区间估计为：注意：F分布的分位数F(n1,n2)=1/F1-(n2,n1)，查表时有用。2221)1,1(1,)1,1(1212222121212221nnFssnnFss返回目录http:/ 有关区间估计的Minitab软件实现一.点估计的软件实现：1.例4-1的软件实现，输入数据见表：2.点击Stat Basic StatisticsDisplay Descriptive Statistics返回目录http:/ Statistics Store Des

65、criptive Statistics，弹出如下对话框：5.选择变量后，点击Statistics，弹出下面的复选框，可选择你需要估计的参数值，点击OK得到结果：返回目录http:/ =69.7mm，若s2=3.5，试以95%的置信水平估计该批零件长度均值的置信区间。3.某企业的质量部要估计其产品的废品率。这家企业接受的废品率最高为5%。如果希望误差不超过2%和1%，置信度为95%，满足2%和1%的误差分别抽取多少件产品进行检测。试说明两者结果的意义。x返回目录http:/ 假设检验 5.1 广告宣传的虚假性 5.2 假设检验(hypothesis testing)的几个步骤 5.3 单侧检

66、验(one-tailed hypothesis)5.4 双侧检验(two-tailed hypothesis)5.5 两类错误 5.6 检验的应用小组讨论与练习返回目录http:/ 章目标1.了解假设检验的原理2.掌握假设检验的步骤3.了解怎样辨别I类和II类错误4.学会计算单尾和双尾概率返回目录http:/ 广告宣传的虚假性l手机电池的使用寿命不是按年来计算的，而是按电池的充放电次数来计算的。镍氢电池一般可充放电200-300次，锂电池一般可充放电350-700次。某手机电池厂商宣称其一种改良产品能够充放电900次，为了验证厂商的说法，消费者协会对10件该产品进行了充放电试验。得到的次数分别为891，863，903，912，861，885，874，923，841，836。返回目录http:/ 上述数据的均值为878.9，明显少于900。但是，到底均值落在什么范围内我们就认为广告宣传是虚假的呢？900接受广告宣传接受广告宣传现在的问题是如现在的问题是如何确定这两条线何确定这两条线的位置的位置返回目录http:/ 不同有两种（只有两种）可能：（1）分别所代表的总体均值相同，由于抽样

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

六西格玛数据分析技术PPT课件

最新文档

相关资源

相关搜索