第一讲whyprobabilityandstatisticssomeexamplesDeptofStat

上传人:痛*** 文档编号:164021902 上传时间:2022-10-24 格式:PPT 页数:47 大小:878.50KB
收藏 版权申诉 举报 下载
第一讲whyprobabilityandstatisticssomeexamplesDeptofStat_第1页
第1页 / 共47页
第一讲whyprobabilityandstatisticssomeexamplesDeptofStat_第2页
第2页 / 共47页
第一讲whyprobabilityandstatisticssomeexamplesDeptofStat_第3页
第3页 / 共47页
资源描述:

《第一讲whyprobabilityandstatisticssomeexamplesDeptofStat》由会员分享,可在线阅读,更多相关《第一讲whyprobabilityandstatisticssomeexamplesDeptofStat(47页珍藏版)》请在装配图网上搜索。

1、Dept of Stat&FinUniversity of Science and Technology of China12010Why Probability and Statistics?-some examples 陈昱 (O)3600565 部分摘录自部分摘录自-A Modern Introduction to Probability and Statistics:Understanding Why and How,Springer,2005Dept of Stat&Fin简介:概率论和数理统计University of Science and Technology of China

2、22010 Diagram showing the difference between statistics and probability.(Image by MIT OpenCourseWare.Based on Gilbert,Norma.Statistics.W.B.Saunders Co.,1976.)Dept of Stat&FinUniversity of Science and Technology of China32010 概率:随机(不确定性,偶然)现象的度量 统计:数据分析,从样本推断总体。总体数据概率分布统计分析关键词:随机,数据上半学期下半学期Dept of St

3、at&FinEx 1 电视收视率n 电视台只访问一部分观众,比如1000户观众,那么在合肥约200万户人口,所以大约平均2000户才有一户被调查到。n 假设200万户中有 a 户收看指定节目,则收视率为a/2000000n 调查机构随机调查2000户,其中若有b户收看指定节目,则由大数律知道 b/2000a/2000000 42007University of Science and Technology of ChinaDept of Stat&FinEx2 重男轻女与人口膨胀n 假设某地重男轻女现象非常严重,所有父母都非要生男孩为止。但政府又怕这样会导致人口膨胀。所以有人提议:“每对夫妇可

4、以生育,直至有一名男孩,之后必须绝育”。n 这个提议引起激烈辩论:52007University of Science and Technology of ChinaDept of Stat&Fin (a)通过该提议会不会导致人口膨胀?i)会导致家庭人口越来越多 ii)有男孩的家庭不再继续增加人口,人口会减少 (b)通过该提议会不会导致男多于女?i)每个家庭都必有男孩,这样会导致男多于女 ii)很多家庭为了生男孩,导致女孩多于男孩我们可以使用概率论方法来回答这些争论:(a)假设每对夫妇都是可以生育的,X表示每个家庭的子女数,p=1/2为生男孩的概率,则University of Science

5、 and Technology of China62007Dept of Stat&FinX服从几何分布。于是每个家庭的平均子女数目为 EX=2,因此不会增加人口。(b)假设女孩子的数目为G,则X=1+G(该提议的结果),所以 EX=1+EG,所以 EG=1,所以该提议不会导致男多于女或者女多于男。University of Science and Technology of China72007Dept of Stat&FinEx3 谁先发球有区别吗?n 在如羽毛球、网球、排球等比赛中,发球方胜了才得1分,否则胜的一方只获得了发球权。这种规则公平吗?n 假设甲乙两人水平相当,甲发第一球,胜了

6、则的1分,输了则乙获得发球权;那方先得N分则取得胜利。假设没有终局前一分的平局规则。82007University of Science and Technology of ChinaDept of Stat&Fin 以N=9为例,经过计算得到甲胜的概率为 0.5348 可以证明,甲胜的概率为 0.5+qN-1/2这里qN-1为甲比乙N-1:N的概率。University of Science and Technology of China92007Dept of Stat&FinEx4:主办国优势19321998年冬奥会主办国奖牌数和上一届奖牌数。102010University of Sc

7、ience and Technology of ChinaDept of Stat&FinUniversity of Science and Technology of China112010 美国在1998年日本冬奥会得13块奖牌,2002年2月冬奥会在美国盐湖城举行,预测其在2002年期望得多少?最终美国2002年作为主办国得到了34块,是个异常现象吗?2006年冬奥会在意大利都灵举行,2002年意大利奖牌数为12,预测其在2006年将获奖牌数目,给出95预测区间。Dept of Stat&FinUniversity of Science and Technology of China12

8、2010 下图是东道主上届奖牌数目vs本届奖牌数目(红点为拟合数目),使用Poisson回归(该模型拟合结果说明有主办国优势存在)。Dept of Stat&FinUniversity of Science and Technology of China132010 美国1998年得到13块,2002年作为东道主期望得到16块(通过Poisson回归模型得到)。实际上美国得到34块,按历史规律此事件发生得概率仅为0.000065,说明2002年美国冬奥会主办国得奖牌数目非常异常,主办国优势体现得尤其明显。Dept of Stat&FinUniversity of Science and Tec

9、hnology of China142010 2002年意大利得到12块,按1998年前的规律,2006年期望个数为14.7个,95%置信区间为8,23 但实际上,意大利2006年冬奥会作为东道主只获得了11块奖牌,甚至少于上一届的12块(注意以前所有东道主的奖牌数目都高于上一届),可能性为20%.而美国2006年作为非东道主得到26块奖牌,说明美国1998年之后实力确实有大幅度提升!Dept of Stat&FinEx5:主办国优势n中国可能的金牌数?152010University of Science and Technology of ChinaDept of Stat&Fin模型:拟

10、合结果所以北京奥运会的金牌数为 49.294,95%置信区间为41.05171,57.50797.University of Science and Technology of China162010ebxayxy344.1286.6Dept of Stat&Fin172010University of Science and Technology of ChinaEx6:Killer footballnCardiovascular(心藏血管)mortality in Dutch men during 1996 European football championship:longitudin

11、al population study,2000,British Medical Journal,321:1552-1554n作者声称6月22号那场足球比赛对全国人口死亡率有着明显的影响!Dept of Stat&FinUniversity of Science and Technology of China182010 他们考虑的死亡包括心肌梗塞、中风、以及归因于过量饮酒和观看6月22日荷兰队和法国队足球赛(荷兰队输了)而产生的紧张压力所导致的死亡。作者主要通过下图来支持他们的结论!Dept of Stat&FinUniversity of Science and Technology of

12、 China192010中间的水平表示6月17到6月27的这段时间的平均死亡个数,上下两条线表示此平均个数的95%置信区间。对置信区间的解释是要特别小心的。95%置信区间Dept of Stat&FinEx7:上帝粒子存在吗n“上帝粒子”即希格斯-玻色子,理 论上认为它应当是构成宇宙的最基本组成部件之一,但是它仍然有待实验观测证实。科学家们提出的物理学标准模型预言了这种粒子的存在,其作用是解释为何其它粒子会拥有质量。如果证实上帝粒子的存在,将有助解释物质为何有质量。202010University of Science and Technology of ChinaDept of Stat&F

13、in2012年7月31日,CERN的CMS小组和ATLAS小组分别提交了新的侦测结果的论文,将这种疑似希格斯波色子的粒子的质量确定为CMS的125.3 GeV/c2(统计误差:0.4、系统误差:0.5、统计显著性:5.8个标准差)2和ATLAS的126.0 GeV/c2(统计误差:0.4、系统误差:0.4、统计显著性:5.9个标准差)即不存在的概率为5.5亿分之一,按顶夸克的前例,这就是【发现粒子】!University of Science and Technology of China212007Dept of Stat&Fin222010University of Science and

14、 Technology of ChinaEx8:身高的遗传 n E.S.Pearson 在 18931898 年间在英国收集了n=1375位65岁以下母亲和18岁以上女儿的身高数据,Pearson and Lee(1903)发表了此数据,我们以此数据来研究母亲身高和女儿身高之间的遗传关系。Dept of Stat&FinUniversity of Science and Technology of China232010详细资料:http:/ of Stat&FinUniversity of Science and Technology of China242010 使用回归得到 Dheigh

15、t=30.4869+0.5326*Mheightn 如果母亲的身高为63.78 inches(162cm),则女儿的身高预测值为(163.7cm)64.45613=30.4869+0.5326*63.78进一步,预测的95%置信区间为152.3cm,175.14cmDept of Stat&Fin252010University of Science and Technology of ChinaEx9:统计与情报机构n二战期间,有关德国战争物资生产能力的情报对盟军的作战计划的制定是非常重要的。n战争早期用来估计德国产能的方法被证实是不适合的n 为得到德国产能的更可靠的估计,来自美国使馆的经济

16、战争部和英国政府经济战争部的专家,对缴获的德军装备上的标记和序列号进行了分析Dept of Stat&FinUniversity of Science and Technology of China262010 每一个德军装备上都有一些印记,包括以下全部或部分信息:标记人的名字和位置生产日期序列号其他方面的各种信息,如商标、模具号、浇铸号等等Dept of Stat&FinUniversity of Science and Technology of China272010 这些标记的目的是为了维持对质量标准检查的高效率以及对备件的控制 这些信息给了盟军情报机构机会来了解德国工业产能 第一个被

17、分析的产品是在英国领空击落的德军飞机上的轮胎,以及在北非战场上缴获的德军供应库里飞机和车辆的轮胎Dept of Stat&FinUniversity of Science and Technology of China282010 每个轮胎上都有标记者的名字、序列号和由两个字母构成的生产日期 这两个字母被推测为一个是代表生产的月份,一个是年份。因此代表月份的字母应该有12中变化,而代表年份的字母有3-6中变化Dept of Stat&FinUniversity of Science and Technology of China292010下表是四个厂家所使用的月份字母编码Dept of St

18、at&FinUniversity of Science and Technology of China302010 接下来对轮胎上的序列号按照每个生产商和生产日期分类记录 具体的,每个月的序列号可以是从1到某个未知的大数N,而观察到的序列号是个子集 问题就是基于收集到的序列号对每个生产商每个月的产量N进行估计Dept of Stat&FinUniversity of Science and Technology of China312010 收集到从1939到1943年中期,来自5个生产厂家的1400个轮胎,从而得到单个月的样本数字 下表表示了1943年第一季度所有厂家的平均月产量的估计值,以

19、及战后来自军备部的统计数字。与来自盟军情报机构的数字比较,估计的精度是值得赞赏的,而情报机构用别的方式估计的月产能是90 0000 到120 0000!Dept of Stat&FinUniversity of Science and Technology of China322010An Empirical Approach to Economic Intelligence in World War II Richard Ruggles,Henry Brodie,JASA,Vol.42,No.237(Mar.,1947),pp.72-91 Dept of Stat&Fin332010Univ

20、ersity of Science and Technology of ChinaEx10:光的速度n1983年“米”的定义被修改为-平面平面电磁波电磁波(光光)在在“1/299792458秒秒”的持的持续时间内在真空中传播行程的长度。续时间内在真空中传播行程的长度。n 这实际上是定义了电磁波(光)的速度!Dept of Stat&FinUniversity of Science and Technology of China342010 关于光的速度的争论是持续了上百年历史的。Albert Michelson 在1879年的6月和7月早期对以前的两个实验进行了重新设定,并做了一系列的测量。D

21、ept of Stat&FinUniversity of Science and Technology of China352010 光速测量的准则很简单,测量距离和时间。为得到准确的结论,距离和时间的测量精度要求很高。考虑到光速的特性,要是测量一个很长的距离,则距离的精度能以保证;要是测量一个很短的时间,则时间很难准确测量。Dept of Stat&FinUniversity of Science and Technology of China362010 在Michelson的时代,光速已经知道大约是300000 km/s,因此他的目标是使此值更准确!下图表示了Michelson的实验装置

22、Dept of Stat&FinUniversity of Science and Technology of China372010Dept of Stat&FinUniversity of Science and Technology of China382010 因此需要测量四个量:Distance Radius Displacement Revolutions per seconds(rps)每个量的测量中都存在误差!单独的误差可能回严重影响最终的结果!Dept of Stat&FinUniversity of Science and Technology of China392010

23、 Michelson实验中distance大约是2000英尺,他用了名义上长度为100英尺的钢制尺子。仔细检查后发现实际长度是100.006英尺(系统误差)。他测量了5次,得到的值在1984.94到1985.17英尺之间,最后他用平均值表示“true distance”值(减少随机误差)!其他的值都类似的确定!最终他的报告值(真空中,需要转换)为299 944+/-51 km/sDept of Stat&FinUniversity of Science and Technology of China402010 尽管Michelson很小心的测量,但是仍忽略了一些误差!现在的测量方法显示光在真

24、空中的速度的95%置信区间为299 944+/-15.5km/s!http:/en.wikipedia.org/wiki/Albert_Abraham_MichelsonDept of Stat&Fin412010University of Science and Technology of ChinaEx11:蒙特卡罗方法如何求不规则区域的面积?Dept of Stat&FinUniversity of Science and Technology of China422010 随机地把 N 个点投入方形区域(面积=1),落入不规则区域的个数为 n,则不规则区域面积 S 可以用比率 n/N

25、逼近(N非常大)n/N S(统计方法)若不规则区域是一个湖。将 n 条鱼放到湖中,假设鱼均匀地游到各处,取面积为 a 的一个方形区域,其中的鱼的个数为 m,则可以用 n/ma 作为S的估计。Dept of Stat&Fin432010University of Science and Technology of ChinaEx12:Benford定律 n随机取一个数,首位数字为1,2,.,9的可能性相同,概率为1/9n但很多生活中的数字,比如帐目数据,报纸上的数据却一般不符合如上规律,而是满足 Benford定律首位数123456789频率0.3010.1760.1250.0970.0790.

26、0670.0580.0510.046Dept of Stat&FinUniversity of Science and Technology of China442010 Benford定律是Newcomb(1881)和Benford(1938)独立发现的统计规律:首位数是k的概率为 P(首位数=k)=log10(1+1/k),k=1,2,.,9 后来有人在一定条件下证明了其正确性。应用:通过检查其首位数的分布判断会计账目数据的真实性。Dept of Stat&FinUniversity of Science and Technology of China452010 例.Standard&P

27、oors(S&P)的500个Index的首位数字的统计频数(1986.1.2 1995.12.29)。该批数据是否满足Benford定律?首位数123456789频数735 432273266200175169148126期望数760 445315245200169146129116-皮尔逊(Pearson)卡方检验。基本符合定律。Dept of Stat&FinHow to study prob&stat?n 做好课堂笔记(打印讲义或者记录)n 注意理解概念、方法n 不清楚的概念或者方法随时和老师讨论n 如果你课堂上有漏过的内容或者不理解的内容,则尽量记录一些东西,甚至是关键词。在笔记上留出空地以随后补上这些内容。n 课后立刻进行总结。462007University of Science and Technology of ChinaDept of Stat&FinUniversity of Science and Technology of China472007 More Amazing Applications of Probability and Statistics,visit http:/ Search Google Read“How to lie with statistics”

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!