科学统计数学教学科研S.pptx
《科学统计数学教学科研S.pptx》由会员分享,可在线阅读,更多相关《科学统计数学教学科研S.pptx(69页珍藏版)》请在装配图网上搜索。
科学,统计,数学,教学和科研,吴喜之2012年5月2日,理科的英文是Science-科学,使用科学的方法是科学的特征对世界的认识源于观测或实验的信息/数据。总结信息时会形成模型(假说/理论)模型会指导进一步的探索,直到遇到这些模型无法解释的现象(证伪,falsifiable)。这就导致对这些模型的更新和替代。上面的反复过程就是科学的方法。用科学方法进行的探索才叫科学。,观测/实验数据,理论/假说/模型,科学在否定中发展,例子地心说日心说现代恒星天文学牛顿爱因斯坦?科学在否定(证伪)中发展基于不能重复观测或重复实验的现象而产生的许多说法,都不是科学,最多是信仰宗教不是科学,而是信仰。,科学是靠证据通过严格的逻辑说话的,理论适用与否靠实验或观测,不能靠辩论古希腊的伟大哲学家亚里士多德用各种理由辩论说男人和女人的牙齿数目不同。基于含糊不清或者不适当的前提的逻辑推理是没有多大意义的。必须依靠证据定义和概念应该绝对准确“真理越辩越明”?,科学研究,必需是毫无偏见:科学的结论应该独立于研究人员的文化背景、社会背景、种族、习惯、宗教和政治信仰等因素。存在制造假的研究结果的现象。但除非造假者的结论没有多大意义,总是会被人发现的。,统计(STATISTICS),收集、分析、展示、解释数据的科学thescienceofcollecting,analyzing,presenting,andinterpretingdata.TheScienceofData统计服务于一切有数据的领域几乎任何领域都有数据但到处都缺乏会处理数据的人任何科学领域的研究结果,如果没有根据数据所作出的量化结论,很难被认可的在美国,统计是最好找工作的专业,统计在中国,在很长一段时期中,我这里所说的统计学在苏联和中国被官方认为是资本主义的,一些与“官方观点”不一致的统计学家受到持续的批判。比如中国人民大学留美教授戴世光(1908-1999)一直被批判到1989年(数理统计称为应用概率而幸免)而当时“正统的统计学”就是目前“国民经济统计学”的前身,是为苏联计划经济服务而产生的列宁主义统计学。这个统计学在俄罗斯已消失目前,“国民经济统计”为政府宏观经济工作服务,带有强烈的计划经济痕迹,可属于中国特色的宏观经济学或中国统计局工作指导的一部分,“中国特色统计”的特点,类似于政治课:拼记忆八股而非能力和真正知识作业和考试要死记硬背(比如:统计有性、性、性、性、性“国民经济”是一个概念,它包括两种什么涵义?国民经济、及的总和国民经济正常运行的基本要求是什么?类似于职业培训和国际不接轨(国外没有对应物)虽然目前也插入一些数理统计内容,但显生硬他们的一些代表人物声称“我们不和国际接轨”,“我们不和数理统计靠拢”。,什么是有用的统计?,在市场经济下在各种部门都能够找得到工作的统计能够处理任何数据,10,11,正态分布,12,13,类似于物理学和其他科学,统计在否定中发展,统计需要的是科学式的怀疑和发展的思维方式而非顺从、盲从和服从也不能用固定的眼光来看自己和世界,我们培养了什么样的思维方式?,如果记住所有你读过、看到过、听到过的,最多只不过像一个图书馆,百科全书或者硬盘,而图书馆,百科全书或硬盘不会产生任何新的知识我们从小被教育要听老师话,听家长话,听,如阿斗一样,领导讲话和社论式的文章充满了命令式我们的头脑中灌满了别人的东西,唯独缺乏创造性和主观能动性,还知道不知道自己能够思考和判断呢?,16,需要什么样的思维方式?,科学不是在承认和同意中发展的科学在怀疑-观测及实验-否定的过程中发展的所有的理论都是假说,都应该在证伪中得到改进或者替换没有任何理论等于真理,只能接近真理,而不能达到真理,17,18,马克思一直把自己的理论看成是科学探索的结果,当他得知有人把他的学说当成教条、标签和信仰时,他说:“所有我所知道的就是:我不是马克思主义者”AllIknowisthatIamnotaMarxist,马克思的座右铭是什么?,DeomnibusdubitandumKarlMarx,怀疑一切-卡尔马克斯,21,统计发展的历程,前计算机的时代,只能在对数据的背景分布做出诸如独立同正态分布之类的一些数学假定后,建立一些假定的数学模型,进行手工计算,并推导出一些根据这些模型所得结果的性质,诸如置信区间,假设检验的p值,无偏性及相合性等等.在数据与数学假定相差较远的情况,人们又利用诸如中心极限定理或大样本定理得到当样本量趋于无穷时的一些类似的性质.统计的这种发展方式,给统计打上了很深的数学烙印.,22,数学式的“模型驱动”研究和学习方式,各统计院系的课程大都以数学模型作为课程的名称和主要内容,一些数理统计杂志也喜欢发表没有数据背景的关于数学模型的文章.学生毕业后只会推导一些课本上的公式,却不会处理真实数据.一些人对于有穷样本,也假装认为是大样本的,并且堂而皇之地用这些大样本性质来描述从有穷样本中得到的结论.至于数据是否满足大样本定理的条件,数据量是否是大样本等等关键问题尽量不谈或少谈.一些学者不从数据出发,而是想象出来一些他们感觉很好的数学模型,然后再在世界上到处寻求适合他们模型的数据来证明他们模型的确有意义.四十多年来,统计丢掉了许多属于数据科学的领域,也失去了许多人才.,23,挑战,在面临大量现成数学模型无法处理的复杂数据的情况下,计算机领域的研究人员和部分概率及统计学家开发了许多计算方法,处理了传统统计无法解决的大量问题.诸如人工神经网络、决策树、boosting、随机森林、支持向量机等大量算法模型的相继出现宣告了传统数学模型主导(如果不是垄断的话)数据分析时代的终结.这些研究最初根本无法刊登在传统统计杂志上,因此大都出现在计算机及各应用领域的杂志中.创造模型的目的是适应现实数据,而不是相反.统计研究应该是数据驱动的而不是模型驱动的.,机器学习的时代,随着时代的前进,各个统计院系现在也出现了诸如数据挖掘、机器学习等课程,统计杂志也开始逐渐重视这些研究.这些算法模型大都不是用封闭的数学公式来描述,而是体现在计算机算法或程序上.对于结果的风险也不是用假定的分布(或渐近分布)所得到的p值来描述,而是用没有参加建模训练的测试集的误差来描述.这些方法发展很快,不仅仅因为它们能够解决问题,而且因为那些不懂统计或概率论的人也能够完全理解结果(这也是许多有知识垄断欲的传统统计学家很难接受的现实).现在,无论承认与否,多数统计学家都明白,如果不会计算机编程或者不与编程人员合作,则不会产生任何有意义的成果.,25,26,统计的根本问题,27,一般来说统计数据分析有两个目的。一个是能够由输入数据x来预测y。而另一个为解释这个联系输入变量和输出变量的“自然”部分,即所谓的“黑匣子”。,记输入的数据为x,而输出为y;那么根据x产生出y的过程则可以用如下图形描述。,28,LeoBreiman(January27,1928July7,2005)wasadistinguishedstatisticianattheUniversityofCalifornia,Berkeley.Hewastherecipientofnumeroushonorsandawards,andwasamemberoftheUnitedStatesNationalAcademyofScience.,29,按照Breiman(2001)1的说法,统计有两个文化。一个是数据建模文化(datamodelingculture,也就是传统统计),它在黑匣子中假定一个随机产生数据的模型(最典型的包括线性回归模型、logistic回归模型和Cox模型等等)。这里对模型是否适当采用诸如拟合优度检验和残差分析等方法来确定。而模型通常为下面的函数形式:响应变量=f(预测变量,参数,随机噪声)或Y=f(X,q,e)其中绝大多数模型是线性的,至少是Y=f(X,q)+e,解决办法大多数是线性的,30,而Breiman所说的另一种为算法建模文化(algorithmicmodelingculture,即机器学习)。它也是找一个函数f(x)来预测y。只不过这里的函数不局限于一些明确表达的数学公式,而是一个算法。这里主要关心的是预测;而黑匣子到底是什么,能够解释就解释,但并不强求。,31,典型的算法包含决策树、关联规则、随机森林、支持向量机等等。这里对模型是否适当,则采用预测精度来衡量(如交叉验证)。Breiman认为,专注于数据模型会产生无关的理论以及有问题的结论,使得统计学家远离适当的算法模型,不去研究崭新的实际问题。,统计和数学,33,第一,统计学的方法都是在应用的推动下产生的,如果没有应用,它们不会出现。其次,如果以应用为目的而产生的统计方法不能满足应用的要求,再漂亮的数学表达也不能保证其存在;第三,统计中的数学本身不能形成一个完整的逻辑体系(纯粹贝叶斯统计可能被认为是例外),其中有大量的人为或主观因素在起作用;这是不符合纯粹数学的本质的。,如果脱离应用背景而把统计作为纯粹数学的一部分,统计学没有存在的必要。,34,由于统计发展历史中的数学背景,上个世纪中期基本定型的数理统计教科书充满了数学味极强的定义、引理、定理、推论,以及贯串其中的纯粹数学推导和证明。数学是一个“是非明确”的理想世界,它自我形成严格的封闭逻辑体系;只要逻辑正确,数学研究最多得不出结果,但不会犯错误。这也是以演绎为主的数学魅力之所在。数学教科书没有负面的内容。数学的逻辑完全是客观的。,35,但以归纳为主要思维方式的统计是描述现实世界的,是为各领域服务的。统计需要建立各种数学模型来近似现实世界;但任何数学模型都不可能精确地描述现实世界或自然;正如没有科学理论能够等于真理一样。数学是不能证伪的;而统计和其他科学的理论一样,必须是可以证伪的。,36,基本上由数学老师教授的数理统计课程多是按照纯粹数学的模式设计的,对于背后的基于数据的统计思想介绍得不很充分,也不强调这些充满假定的数学模型都是对现实世界的不同程度的简化。很少(如果还有的话)教科书指出违背这些假定的后果。几乎没有人告诉学生,所有统计教科书中对数据(或其总体)的数学假定都是无法用数据验证的。数学化的统计教科书极少提到统计应用中一系列决策的主观性和任意性。,37,所有模型都仅仅是对现实世界的某种近似。模型存在的一个必要条件是它们必须能够被人们解出来,无论是近似的,或者是精确的。这里的精确,只是在想象出来的模型的假定下是准精确的(用诸如无偏性,相合性等来度量),但模型本身可能和实际规律差十万八千里.而这些结果到底和现实世界有多么近似,谁也不知道,永远也说不清楚。,传统的数据建模在应用中所遇到的问题,38,衡量模型是否合适或者统计结果是否合理的传统方法包括各种拟合优度检验、准则,以及残差分析等等,当然还采用无偏性等大样本或总体概念。Efron(2001)1说,二十世纪的统计可标以“100年的无偏性”,“大多数我们的统计理论和实践是围着无偏或几乎无偏估计(特别是MLES)和基于这样估计的检验转的。”,39,然而,要使用这些判别方法,必须对模型和产生数据的总体做出一些假定,诸如模型的数学形式、误差的结构和分布的假定。这些假定是基于经验、数据的特征,或数学上的方便。然而,Bickeletal(2001)2表明除非备选假设有明确的方向,拟合优度检验的效率很低。而残差分析也是不可靠的;它在变量数目多的时候无法揭示欠缺的拟合。不同的残差分析方法会导致不同的结论。,40,只欣赏模型本身,而忽略实际应用背景是危险的。当结论仅仅描述模型的机制而不反映模型应该反映的现实世界时,结论必然是错误的。,41,Mostelling如果产生不出来,就说明作者有问题,.精读几篇最好最新的文章,不懂的就查,最终你就步入国际前沿了。大多数统计方向的背景都不深,完全可以跳跃式的前进(和数学不同!)统计各个方向联系甚密,学的越多,举一反三,很容易发展,充分利用国际资源的捷径-R,绝大多数美国统计研究生都会的语言Berkeley统计和应用数学本科都开设R语言课美国应用统计学家大都把自己的方法首先以R来实现,并尽量放到R网站上R网站的软件包数量从2010年初不到1000个到昨天的3839个.大部分都有各种函数、例子和数据,随时都在不断更新(R软件本身也不断更新)所有代码都是公开、可以改变的透明是防止“腐败”的最好方式通过R学习新的应用统计方法是一个很好的捷径3个小时可以学会基本的数学和常用统计运算,如何上课?,引路、强调能力,第一,教师必须要做研究,站得高自己才能明白,才能教别人不要纠缠细节(小家子气中国特色教学名师?)每堂课后要让学生头脑里充满问题(有继续追求知识的欲望)如果学生完全明白,就是失败.不要把科学当成信仰来教,(有什么性,什么性,特点,本质,)以培养能力为主。不授人以鱼,而要授人以渔.每个教师,特别是年轻教师都要成为“多面手”,教得课程多,在科研上就会左右逢源,上课先要做什么?,首先介绍自己当然,一开始你还要告诉学生你可能会讲什么给出教科书或参考书(资料、软件)的名单和哪里去获得(买、借或者下载)告诉学生如何与你联系(电话、电子邮件、办公室时间等等)给出作业和考试有关的要求课堂和其他要求(勿谓言之不预!)绝对不要做无法或不易实现的承诺对所有学生一视同仁,如何对待学生?,我们都当过学生,应该知道学生怎么想的以及学生的好恶,对吗?要守信用、守时间、说到做到严格不等于凶,不能任性、发脾气要以理服人、以身作则对教师来说,课堂中最重要的是学生,没有学生,教师也不存在,上课讲什么?,我们不应该只想着应该(谁规定的“应该”或“不应该”?)教什么而要想到学生能够学会什么,什么有用学生背景不同,要因材施教,发挥各人的特长我们可能帮助学生获得的最有用的东西是能力,上课讲什么?,在权限内,坚决不教、不考死记硬背的八股(其实学生不愿学,教师也不愿意教。如统计学原理)。可能政治课非教不可不要把学生当成存放垃圾的硬盘不要教自己也不相信的东西或者自己也觉得没有用的东西,至少要对自己诚实只教在市场经济的社会上找得到工作的学问没有什么是“应该教”或“必须教”的,市场的需要就是“必须”。,要注意学生课上反映,学生的表情是你讲课状况的一面镜子要让学生感到有兴趣如果自己觉得不对劲,停下来,听听学生怎么说不要讲空洞的“理论”,要有内容,要有例子凡是学生有疑惑的眼光。举例子!没有例子的理论是垃圾,幽默感/尊严,你喜欢你爸爸妈妈板着面孔吗?你喜欢你板着面孔的老师吗?教师的尊严不是靠板着面孔和穿正规西服获得的尊严也绝对不可能靠用给高分讨好学生和放松要求而得到!能从你那里学到真本事,学生必然尊敬你幽默感能够获得朋友,包括学生,路是自己走的,我们要具有在任何国家,任何体制,任何社会环境下都能够生存的知识和能力人人都可能有各种借口做什么或不做什么但每个人都必须自己单独承担其一切作为和不作为的后果享受和随大流是最容易的选择,但只有经过艰苦奋斗的人才能知道快乐的真正含义,谢谢!,- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 科学 统计 数学 教学 科研
装配图网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文