试验定积分的近似计算

上传人:彩*** 文档编号:72344196 上传时间:2022-04-08 格式:DOC 页数:15 大小:1.09MB
收藏 版权申诉 举报 下载
试验定积分的近似计算_第1页
第1页 / 共15页
试验定积分的近似计算_第2页
第2页 / 共15页
试验定积分的近似计算_第3页
第3页 / 共15页
资源描述:

《试验定积分的近似计算》由会员分享,可在线阅读,更多相关《试验定积分的近似计算(15页珍藏版)》请在装配图网上搜索。

1、实验五数据的统计分析一、问题背景与实验目的在日常生活中我们会在很多事件中收集到一些数据(比如:考试分数、窗口排队人数、月用电量、灯泡寿命、测量误差、产品质量、月降雨量等数据) ,这些数据的产生一般都是随机的这些随机数据乍看起来并没有什么规律,但通过数理统计的研究发现:这些随机数还是符合着某种分布规律的,这种规律被称为统计规律本实验旨在通过对概率密度函数曲线的直观认识、对数据分布的形态猜测、对某些概率分布的密度函数的参数估计(以正态为例)以及进行简单的正态假设检验,来揭示生活中的随机数据的一些统计规律二、相关函数(命令)及简介1. 概率密度函数 pdf 系列以 normpdf( ) 为例,调用格

2、式:y=normpdf(x, mu,sigma),计算参数为 mu 和 sigma 的样本数据 x 的正态概率密度函数参数sigma 必须为正其中: mu 为均值, sigma 为标准差2. 参数估计 fit 系列以 normfit( ) 为例,调用格式:muhat, sigmahat, muci, sigmaci = normfit(x, alpha),对样本数据 x 进行参数估计,并计算置信度为 100(1alpha)%的置信区间如alpha=0.01时,则给出置信度为 99的置信区间不写明 alpha,即表示 alpha 取0.053 load( )函数调用格式:S = load(数据文

3、件 )将纯数据文件(文本文件)中的数据导入 Matlab,S 是双精度的数组,其行数、列数与数据文件相一致4. hist(x, m)函数:画样本数据 x 的直方图, m 为直方图的条数, 缺省值为 105. tabulate( )函数:绘制频数表返回 table 矩阵,第一列包含 x 的值,第二列包含该值出现次数,最后一列包含每个值的百分比6ttest(x,m,alpha) 函数:假设检验函数此函数对样本数据 x 进行显著性水平为 alpha 的 t 假设检验,以检验正态分布样本 x (标准差未知)的均值是否为m h=1 表示拒绝零假设, h=0 表示不能拒绝零假设7 normplot(x)

4、或 weibplot(x) 函数:统计绘图函数,进行正态分布检验研究表明: 如果数据是来自一个正态分布,则该线为一直线形态;如果它是来自其他分布,则为曲线形态完全类似地可探索以下一系列函数的用法与作用:8累积分布函数cdf 系列,如: normcdf( ) 9逆累积分布函数inv 系列,如: norminv( ) 10随机数发生函数rnd 系列,如: normrnd( )11均值与方差函数stat 系列,如: normstat( )三、实验内容1. 常见的概率分布的密度函数及其图形1)常见概率分布的密度函数(20 个,打 的 10 个将在后面作介绍)序号中文函数名英文函数名英文简写备注1Bet

5、a 分布Betabeta2二项分布Binomialbino3卡方分布Chisquarechi2抽样4指数分布Exponentialexp5F 分布Ff抽样6Gamma 分布Gammagam7几何分布Geometricgeo8超几何分布Hypergeometrichyge9对数正态分布Lognormallogn10负二项式分布Negative Binomialnbin11非中心 F 分布Noncentral Fncf12非中心 t 分布Noncentral tnct13非中心卡方分布Noncentral Chi-squarencx214正态分布Normalnorm15泊松分布Poissonpoi

6、ss16瑞利分布Rayleighrayl17T 分布Tt抽样18均匀分布Uniformunif19离散均匀分布Discrete Uniformunid20Weibull 分布Weibullweib2)常见概率分布的密度函数文字说明与图形演示:( A)常见连续分布的密度函数( 1)正态分布若连续型随机变量X 的密度函数为:1(x)2e22,0f (x),x2则称 X 为服从正态分布的随机变量, 记作 X N ( ,2 ) 特别地, 称0,1时的正态分布 N (0,1) 为标准正态分布,其概率分布的密度函数参见图1一个非标准正态分布的密度函数参见图2 中的虚线部分(1,2 )正态分布是概率论与数理

7、统计中最重要的一个分布,高斯 (Gauss)在研究误差理论时首先用正态分布来刻画误差的分布,所以正态分布又称高斯分布 一个变量如果是由大量微小的、 独立的随机因素的叠加效果, 那么这个变量一定是正态变量比如测量误差、产品质量、月降雨量等都可用正态分布描述x=-8:0.1:8;y=normpdf(x, 0, 1);y1=normpdf(x, 1, 2);plot(x, y, x, y1, : );0.40.40.350.350.30.30.250.250.20.20.150.150.10.10.050.050-2024680-6-4-202468-8-6-4-8图 1标准正态分布图 2标准正态与

8、非标准正态( 2)均匀分布(连续)若随机变量 X 的密度函数为1ax bf (x)b,a0,其他则称 X 服从区间 a,b 上的均匀分布(连续),记作 X U a,b ,其概率分布的密度函数见参见图 3 (a 0,b 2 ) 均匀分布在实际中经常使用,譬如一个半径为r 的汽车轮胎,因为轮胎上的任一点接触地面的可能性是相同的,所以轮胎圆周接触地面的位置X 是服从0, 2r 上的均匀分布,这只要看一看报废轮胎四周磨损程度几乎是相同的就可明白均匀分布的含义了x=-10:0.01:10;r=1;y=unifpdf(x, 0, 2*pi*r);plot(x, y);0.160.250.140.20.12

9、0.10.150.080.10.060.040.050.020-8-6-4-20246810051015202530-100图 3 均匀分布(连续)图 4指数分布( 3)指数分布若连续型随机变量X 的密度函数为:ex , x00 ,f ( x)x其中0,0则称 X 为服从参数为的指数分布的随机变量,记作X Exp( ) 在实际应用问题中,等待某特定事物发生所需要的时间往往服从指数分布如某些元件的寿命; 某人打一个电话持续的时间; 随机服务系统中的服务时间;动物的寿命等都常假定服从指数分布指数分布的重要性还在于它是具有无记忆性的连续型随机变量即:设随机变量 X 服从参数为 的指数分布,则对任意的

10、实数 s 0,t 0 ,有P Xst | XsP Xt,其概率分布的密度函数参见见图4(4)x=0:0.1:30;y=exppdf(x, 4);plot(x, y)( B)常见离散分布的密度函数( 4)几何分布在一个贝努里实验中,每次试验成功的概率为p ,失败的概率为 q1 p(0 p1) ,设试验进行到第次才出现成功,则的分布列为:P(k)pq k 1 , k1,2,容易看到 pqk 1 (k1,2,) 是几何级数pq k 1 的一般项,于是人们称它为几何分k1布,其概率分布的密度函数参见图5( p0.5)x=0:30;y=geopdf(x, 0.5);plot(x, y)0.50.090.

11、450.080.40.070.350.060.30.050.250.040.20.150.030.10.020.050.010005101520253005101520253035404550图 5 几何分布图 6 二项分布( 5)二项分布如果随机变量 X 的分布列为:P( X k )npk (1p) n k ,k0,1, , nk则这个分布称为二项分布, 记为 X b(n, p) 当 n1 时的二项分布又称为0-1 分布,分布律为X01P1pp一般的二项分布的密度函数参见图6 ( n500, p0.05) .x=0:50;y=binopdf(x, 500, 0.05);plot(x, y);

12、( 6)泊松 (Poisson)分布泊松分布是 1837 年由法国数学家泊松 ()首次提出的,其概率分布列是:kP( X k )e , k 0, 1, 2,0k !记为 X P( ) ,其概率分布的密度函数参见图 7(25) 泊松分布是一种常用的离散分布,它与单位时间 (或单位面积、单位产品等)上的计数过程相联系,譬如:单位时间内,电话总机接到用户呼唤次数; 1 平方米内,玻璃上的气泡数;一铸件上的砂眼数;在单位时间内,某种放射性物质分裂到某区域的质点数等等x=0:50;y=poisspdf(x, 25);plot(x, y);注:对比二项分布的概率密度函数图可以发现,当二项分布的n p 与泊

13、松分布充分接近时,两图拟合程度非常高(图6 与图 7 中的 n p20),直观地验证了泊松定理(泊松分布是二项分布的极限分布),请对比图6与图 70.081.50.0710.060.050.50.040.0300.02-0.50.0105101520253035404550-1246810121416182000图 7 泊松分布图 8 均匀分布(离散)( 7)均匀分布(离散)如果随机变量 X 的分布列为:P( Xk )1 ,k 1, 2, nn则这个分布称为离散均匀分布,记为X U ( 1,2, n ) ,其概率分布的密度函数参见图 8 (n20) n=20;x=1:n;y=unidpdf(x

14、, n);plot(x, y, o- );( C)三大抽样分布的密度函数( 8) 2分布设随机变量 X1,X 2 , X n 相互独立,且同服从正态分布N (0,1),则称随机变量2X2X22服从自由度为 n 的2分布,记作22(n) ,亦称随n12X nn机变量n2 为2 变量其概率分布的密度函数参见图9 (n4) 、图 10 (n10), 2分布的密度函数解析式参见本章的附录表格x=0:0.1:20;x=0:0.1:20;y=chi2pdf(x, 4);y=chi2pdf(x, 10);plot(x, y);plot(x, y)0.20.10.180.090.160.080.140.070

15、.120.060.10.050.080.040.060.030.040.020.020.01024681012141618002468101214161820020图 92 分布 (n4)图 102 分布 (n10)(9) F 分布设随机变量 X 2 ( m) , Y 2 ( n) ,且 X 与 Y 相互独立,则称随机变量X / mFY / n服从自由度为 (m, n) 的 F 分布,记作 F F (m, n) ,其概率分布的密度函数参见图11,即 F (4,10) , F 分布的密度函数解析式参见本章的附录表格x=0.01:0.1:8.01;y=fpdf(x, 4, 10);plot(x,

16、y)0.70.40.60.350.30.50.250.40.20.30.150.20.10.10.050123456789002460-6-4-2图 11F 分布图 12t 分布( 10) t 分布设随机变量 X N (0,1),Y 2 ( n) ,且 X 与 Y 相互独立,则称随机变量TXY / n服从于自由度为 n 的 t 分布,记作 T t( n) ,其概率分布的密度函数参见图12,即 t(4) t 分布的密度函数解析式参见本章的附录表格细心的读者可能已经发现,图12 的 t 分布图与图 1、图 2 的正态分布十分相似可以证明:当 n时, t 分布趋于标准正态分布 N (0,1)x=-6

17、:0.01:6;y=tpdf(x, 4);plot(x, y)2对给定数据画频数直方图(Histogram)或频数表 (Frequency Table)假定有若干个给定的数据集,它们满足上述10 种分布之一,我们现在的任务就是利用画频数直方图等手段,确定它们到底服从哪一类分布例 1:某一次书面考试的分数罗列如下,试画频数直方图鉴于数据的数量较大(包含有120 个数据),可以先在一个文本文件中输入,保存为 data1.txt756910080707478597273637969816287806686757085856478656967787260505783777978746783716771

18、7484748375737460916569806386677380746872809561778582718076836987767269668674875981887583717781886767767176797990628085817572579491837866747974827987768168x=load(data1.txt);x=x(:);hist(x)结果参见图 13从图形形态上来看,图13 较为接近图 2 所示的正态分布30161425122010158610452055606570758085909510005560657075808590951005050图 13例 1

19、 的频数直方图图 14例 2 的频数直方图例 2:某一次上机考试的分数罗列如下 (data2.txt,包含有 130 个数据 ),试画频数直方图517095917083839666617979578595836371717291606910067877250606387987174965583679278566277798455596193568261889798957379818756925357938977895692998668579157816580997995798674567061728157759889696171777278707367596286849382809094848

20、980679773809469645151926252866797x=load(data2.txt);x=x(:);hist(x)结果参见图 14图 14 看上去很接近图8 所示的均匀分布(离散) 例 3:以下给出上海1998 年来的月降雨量的数据 (data3.txt,包含有 98 个数据 ):1184.41113.41203.91170.7975.41462.3947.81416.0709.21147.59351016.31031.61105.7849.91233.41008.61063.81004.91086.21022.51330.91439.41236.51088.11288.711

21、15.81217.51320.71078.11203.41480.01269.91049.21318.41192.01016.01508.21159.61021.3986.1794.71318.31171.21161.7791.21143.81602.0951.41003.2840.41061.4958.01025.21265.01196.51120.71659.3942.71123.3910.21398.51208.61305.51242.31572.31416.91256.11285.9984.81390.31062.21287.31477.01011.91217.71197.11143.

22、01018.81243.7909.31030.31124.4811.4820.91184.11107.5991.4901.71176.51113.51272.91200.31508.7772.3813.01392.31006.2x=load(data3.txt);x=x(:);hist(x)结果参见图 15图 15 看上去很接近图10 所示的2 分布201218101614812106864422007008009001000110012001300140015001600170011.522.533.544.555.56图 15例 3 的频数直方图图 16例 4 的频数直方图在重复数据较多的

23、情况下,我们也可以利用Matlab 自带的函数 tabulate( )产生频数表,并以频数表的形式来发掘数据分布的规律例 4:给出以下数据: (data4.txt,含有 46 个数据 )2364151231423133231646465436433334456212345654则:x=load(data4.txt);x=x(:);tabulate(x)hist(x, 6)ValueCountPercent1613.04%2613.04%31226.09%41021.74%5510.87%6715.22%结果参见图 16图 16 看上去好象没有什么规律可循例 5:现累积有 100 次刀具故障记录

24、, 当故障出现时该批刀具完成的零件数如下:(data5.txt)4593626245425095844337488155056124524349826407425657065936809266531644877346084281153593844527552513781474388824538862659775859755496975156289547716094029608856102928374736773586386996345555708441660610624841204476545643392802466875397905816217245315125774964687995446

25、45764558378765666763217715310851x=load(data5.txt);x=x(:);hist(x)%结果参见图 17,很象图 2 所示的正态分布figurehistfit(x)%结果参见图 18,加入了较接近的正态分布的密度曲线25252020151510105502004006008001000120002004006008001000120014000-2000图 17例 5的 hist(x)图 18例 5 的 histfit(x)3. 参数估计当我们可以基本确定数据集 X 符合某种分布时, 下一步我们就该确定这个分布的参数了 由于正态分布情况发生的比较多,

26、故一般我们首先考虑的分布将是正态分布考虑最多的也是正态分布情况对于未知参数的估计,可分两种情况:点估计与区间估计(1)点估计:构造样本 X 与某个统计量有关的一个函数,作为该统计量的一个估计, 称为点估计 Matlab 统计工具箱中, 一般采用最大似然估计法给出参数的点估计可以证明: 正态分布 N (,2 ) 中,最大似然估计是?X ,2 的最大似然估计是?21n;( X i X )2n i 1泊松分布 P() 的最大似然估计是X ;指数分布 Exp( ) 的最大似然估计是1,等等X例 6:已知上述例 1 的数据服从正态分布 N ( ,2 ) ,试求出和2 的值解:x=load(data1.t

27、xt);x=x(:);mu, sigma = normfit(x)mu =75.3417sigma =8.8768因此,=mu=75.3412,222=sigma =8.8768 =78.7982(2)区间估计:构造样本X 与某个统计量有关的两个函数,作为该统计量的下限估计与上限估计, 下限与上限一般能够构成一个区间 这个区间作为该统计量的估计, 称为区间估计 Matlab 统计工具箱中, 一般也采用最大似然估计法给出参数的区间估计例 7:已知上述例 1 的数据集 X 服从正态分布 N (,2 ) ,试求出和的置信度为 95的区间估计解:x=load(data1.txt);x=x(:);mu,

28、 sigma muci, sigmaci = normfit(x)mu =75.3417sigma =8.8768muci =73.737176.9462sigmaci =7.878110.1678因此, 73.737176.9462,7.878110.1678例 8:从自动机床加工的同类零件中抽取16 件,测得长度值为 (data6.txt):12.1512.1212.0112.0812.0912.1612.0612.1312.0712.1112.0812.0112.0312.0112.0312.06已知零件长度服从正态分布N (,2 ) ,求零件长度的均值和标准差的置信度为 99%的置信区

29、间解:x=load(data6.txt); x=x(:);mu, sigma, muci, sigmaci = normfit(x, 0.01) mu =12.0750 sigma =0.0494 muci =12.038612.1114sigmaci = 0.03340.0892其中 muci(1)、muci(2)分别是平均值在 99置信度下的上下限;而sigmaci(1)、sigmaci(2)分别是标准差在 99置信度下的上下限4正态假设检验对总体的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确, 从而决定接受假设或拒绝假设, 这就是假设检验

30、问题这里仅以正态假设检验为例,来说明假设检验的基本过程正态假设检验的一般过程是:(1)对比正态分布的概率密度函数图,判断某统计量的分布可能服从正态分布;(2)利用统计绘图函数normplot( )或 weibplot( ) 进行正态分布检验(3)假设检验:利用 Matlab 统计工具箱给出的常用的假设检验方法的函数ttest(x,m,alpha),进行显著性水平为 alpha 的 t 假设检验,以检验正态分布样本 x (标准差未知)的均值是否为 m运行结果中,当 h=1 时,表示拒绝零假设;当 h=0 时,表示不能拒绝零假设例 9:试说明例 5 所示的刀具的使用寿命服从正态分布,并且说明在方差

31、未知的情况下其均值 m 取为 597 是否合理?解:(1)对比正态分布的概率密度函数图(图 17、图 18)以及对正态分布的描述(一个变量如果是由大量微小的、独立的随机因素的叠加效果,那么这个变量一定是正态变量比如测量误差、产品质量等都可用正态分布描述) ,可得初步结论:该批刀具的使用寿命可能服从正态分布(2)利用统计绘图函数 normplot(x) 进行分布的正态性检验由于:x=load(data5.txt);x=x(:);normplot(x)Normal Probability Plot0.9970.990.980.950.900.75tyiliba0.50borP0.250.100.0

32、50.020.010.00310020030040050060070080090010001100Data图 19刀具寿命分布正态性检验结果如图 19 所示,经观察这 100 个离散点非常靠近倾斜直线段,图形为线性的,因此可得出结论:该批刀具的使用寿命近似服从正态分布(3)利用函数 ttest(x,m,alpha)进行显著性水平为alpha 的 t 假设检验由于:x=load(data5.txt);x=x(:);h=ttest(x,597,0.05)得: h = 0检验结果: h=0,表示不拒绝零假设,说明所提出的假设“寿命均值为 597” 是合理的读者可以验证:当执行 h=ttest(x,5

33、55,0.05),将得到 h = 1,表示拒绝零假设请读者自行解释此结果的含义四、自己动手1了解本实验中虽已提及但没有详细介绍的其余10 种概率分布的密度函数,如 Beta 分布、 Gamma 分布、 Weibull 分布等,写出它们的概率分布的密度函数表达式(本实验的附录中已经列出一部分) ,并画出相应的图形2写出本实验所列出的 10 种概率累积分布函数表达式,并画出相应的概率累积分布函数图形3用 tabulate( )函数将例 1、例 2 的分数数据按频数表的方式进行统计, 每 5 分为一个分数段(可参见例 4),观察数据分布有什么规律4用 weibplot(x) 函数进行例 9 的正态分

34、布检验,比较与例9 的差别5例 3 给出的上海 1998 年来的月降雨量的数据 (data3.txt) 看上去很接近图10 所示的2 分布,但2 分布好象没有直接进行参数估计的函数,试寻求对此数据进行参数估计的可能方法6向例 3 给出的上海 1998 年来的月降雨量的数据 (data3.txt) 中“补充”一些数据,使其看上去很接近正态分布,并求此时的均值和标准差的点估计与置信度为 97%的区间估计7在第 6 题基础上,说明在方差未知的情况下,其均值取为 1150 是否合理?8 ttest( )函数的完整用法是: h,sig,ci = ttest(x,m,alpha,tail)其中 sig 为

35、观察值的概率,当sig 为小概率时则对零假设提出质疑(这里的零假设为: H 0 :m 也可以是其它形式, 例如: H 0 :m 、H 0 :m 等);ci 为真正均值 的 1-alpha 置信区间;不写tail,表示其取值为0说明:若 h=0,表示在显著性水平alpha 下,不能拒绝零假设;若h=1,表示在显著性水平 alpha 下,可以拒绝零假设若 tail=0,表示备择(对立)假设为: H 1 :m(默认,双边检验);若 tail=1,表示备择(对立)假设为:H 1 :m (单边检验);若 tail=-1,表示备择(对立)假设为: H 1 :m (单边检验)试用该函数求解如下问题:某种电子

36、元件的寿命 X(以小时计)服从正态分布, 、 均未知现测得 16 只元件的寿命如下:159280101212224379179264222362168250149260485170问当取 alpha=0.05时:(1)是否有理由认为元件的平均寿命不大于225(小时)?( 2)是否有理由认为元件的平均寿命不大于295(小时)?9查看函数 ttest2( )的用法,并用于处理 Matlab 统计工具中的数据文件gas.mat回答问题:一月份油价 price1 与二月份油价 price2 的均值是否相同?五、附录附录: Matlab 函数名batapdfchi2pdffpdf中的其它部分概率分布函数

37、名及其数学意义列表:对应分布数学意义Beta 分布1xa1(1 x)b 1, 0 x 1y f (x | a, b)B(a, b)卡方分布x(n2) / 2e x/ 2x0y f (x | n),2n/ 2( n / 2)F 分布m nmm 2y2m 2x 2f (x | m, n)nnm nmm2221xngampdfGamma分布x0x1y f (x | a, b)xa 1e b , x 0ba(a)raylpdf瑞利分布tpdft 分布yf ( x |b)yf ( x | n)x 2x2 e 2b2 ,xbn 1x2n 122n1nn2xweibpdfWeibull 分布yf ( x |,)( x)1e ( x) , x0

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!