数据处理方法与依据

上传人:无*** 文档编号:180376720 上传时间:2023-01-05 格式:PPT 页数:31 大小:598KB
收藏 版权申诉 举报 下载
数据处理方法与依据_第1页
第1页 / 共31页
数据处理方法与依据_第2页
第2页 / 共31页
数据处理方法与依据_第3页
第3页 / 共31页
资源描述:

《数据处理方法与依据》由会员分享,可在线阅读,更多相关《数据处理方法与依据(31页珍藏版)》请在装配图网上搜索。

1、数据处理的方法与工具吕士钦 太原理工大学太原理工大学LOGO1 概述 近几年,数学建模竞赛的规模越来越大,水平越来越高;赛题难度也越来越大,对学生数据处理能力要求也越来越高,最困难的有两个方面:(1)无数据建模问题;(2)海量数据问题。LOGO无数据建模问题无数据建模问题例如:(1)2010B:2010年上海世博会影响力的定量评估;(2)2008B:高等教育学费标准探讨;往往为综合评价类模型,赛题来自于实际问题,开放程度比较高,需要据相关多因素信息及收集到数据对实际对象进行客观、公正、合理的全面评价。LOGO无数据建模问题无数据建模问题数据收集手段与方法:(1)权威机构或相关部门发布;(2)通

2、过搜索引擎在Internet搜索;(3)通过问卷、实验等自主采集;例如:公交车门的高度是按照成年男子与车门顶部碰头的机率不超过1%设计的,山西省欲采购一批公交车,请问应将车门高度设计成多高比较合适?LOGO无数据建模问题无数据建模问题 问题的关键在于获取山西省成年男子的身高情况,我们优先考虑的方法是(1)(2),在无法通过前两种方法获取的情况下,可以通过(3)获得。显然取样,进而可以获得山西成年男子身高X的样本均值和样本方差,剩下的就是求解一个简单的概率问题而已:P(X=99%LOGO海量数据建模问题海量数据建模问题 202000A00A:DNADNA序列分类;序列分类;202000B00B:

3、钢管订购和运输;:钢管订购和运输;202001A01A:血管的三维重建;:血管的三维重建;202001B01B:公交车调度;:公交车调度;202002B02B:彩票中的数学;:彩票中的数学;202003A03A:SARSSARS的传播;的传播;202004A04A:奥运会临时超市网点设计;:奥运会临时超市网点设计;LOGO海量数据建模问题海量数据建模问题 202004B04B:电力市场的输电阻塞管理;:电力市场的输电阻塞管理;202005A05A:长江水质的评价和预测;:长江水质的评价和预测;202005B05B:DVDDVD在线租赁;在线租赁;202006A06A:出版社的资源配置;:出版社

4、的资源配置;202006B06B:艾滋病疗法的评价及疗效的预测:艾滋病疗法的评价及疗效的预测尤其是:尤其是:2011 2011年夏令营:年夏令营:测井曲线自动分层问题(测井曲线自动分层问题(10M)LOGO海量数据建模问题海量数据建模问题 显然大批量数据是很难手工处理的,需要我显然大批量数据是很难手工处理的,需要我们借助于计算机以及一些数据处理软件来完成,们借助于计算机以及一些数据处理软件来完成,需要掌握基本的计算机使用与编程能力。需要掌握基本的计算机使用与编程能力。实在无法完成大批量数据处理的情况下,实在无法完成大批量数据处理的情况下,随随机截取机截取典型性数据也不失为一种合理的解决办法。典

5、型性数据也不失为一种合理的解决办法。LOGO海量数据建模问题海量数据建模问题数学建模中常用软件:数学建模中常用软件:World MATLAB Mathematica Lindo Execl SPSS C&C+LingoLOGO海量数据建模问题海量数据建模问题软件学习的关键:软件学习的关键:(1 1)数据的读入;)数据的读入;(2 2)异常数据处理;)异常数据处理;(3 3)数据规范化与归一化;)数据规范化与归一化;(4 4)常见问题与软件功能的对应。)常见问题与软件功能的对应。(5 5)绘图与可视化输出。)绘图与可视化输出。LOGO(1 1)数据的读入)数据的读入数据的读入:数据的读入:a)a

6、)复制、粘贴;复制、粘贴;b)b)功能函数。功能函数。MatlabMatlab中中textreadtextread()():a=textread(data.txt,%a=textread(data.txt,%*s%s%*s%f%s%f%*s,headerls,headerlines,3,delimiter,)ines,3,delimiter,)headerlines headerlines是文件头有多少行是文件头有多少行delimiterdelimiter就就是词跟词之间的分隔符。是词跟词之间的分隔符。%s%s是字符串的意思,是字符串的意思,%f%f是浮点数的意思而在它们中间加上是浮点数的意思

7、而在它们中间加上*,表示跳过这,表示跳过这个词。个词。%*s%s%*s s的意思就是跳过前两个词。的意思就是跳过前两个词。LOGO(1 1)数据的读入)数据的读入 MatlabMatlab中中imreadimread()():该函数用于读取图片文件中的数据。该函数用于读取图片文件中的数据。=e.bmp;=e.bmp;imgRgb=imread();%imgRgb=imread();%读入一幅彩色图像读入一幅彩色图像 imshow(imgRgb);%imshow(imgRgb);%显示彩色图像显示彩色图像 MatlabMatlab中中xlsreadxlsread()():该函数用于读取该函数用于

8、读取ExeclExecl文件中的数据。文件中的数据。LOGO(1 1)数据的读入)数据的读入 LingoLingo中中filefile()():该函数用于文本文件的读入。该函数用于文本文件的读入。LingoLingo中中TEXTTEXT():():该该函数输出数据(文本文件)函数输出数据(文本文件)。LingoLingo中中OLEOLE()()该该函数与电子表格软件(如函数与电子表格软件(如EXCELEXCEL)连接)连接;LingoLingo中中ODBCODBC()()该该函数与数据库连接函数与数据库连接。LOGO(1 1)数据的读入)数据的读入:文本文件输入输出:文本文件输入输出MODEL

9、:SETS:MYSET/FILE(my)/:FILE(my);ENDSETSMIN=SUM(MYSET(I):SHIP(I)*COST(I);FOR(MYSET(I):CON1 SHIP(I)NEED(I);CON2 SHIP(I)SUPPLY(I);DATA:COST=FILE(my);NEED=FILE(my);SUPPLY=FILE(my);TEXT(result.txt)=STATUS(),SHIP,DUAL(SHIP),RANGED(SHIP)DUAL(CON1),RANGEU(CON2);ENDDATAENDmy文件的内容、格式:Seattle,Detroit,Chicago,De

10、nverCOST,NEED,SUPPLY,SHIP12,28,15,201600,1800,1200,10001700,1900,1300,1100LOGO(1 1)数据的读入)数据的读入 c)c)计算机语言编程计算机语言编程文本文档中写着:文本文档中写着:1 Intel_Pentium_E_2140 495 01 Intel_Pentium_E_2140 495 02 AMD_Athlon64_X2_3600+465 02 AMD_Athlon64_X2_3600+465 03 Intel_Celeron_420 480 03 Intel_Celeron_420 480 0.要求将这些读入要

11、求将这些读入C C程序中程序中(编号,名称,价格,已售出量组成编号,名称,价格,已售出量组成)#include stdio.hstruct Hardware_database int number;char name40;int price;int sales;CPU50;int main(int argc,char*argv)int i;FILE*CPU_record;PU_record=fopen(c:CPU_Data.txt,r);for(i=1;feof(CPU_record)=0;i+)fscanf(CPU_record,%d%s%d%dn,&CPUi.number,CPUi.nam

12、e,&CPUi.price,&CPUi.sales);printf(%d,%s,%dn,CPUi.number,CPUi.name,CPUi.price);printf(Press AnyKey to Back);getchar();fclose(CPU_record);return 0;LOGO(2 2)异常数据处理)异常数据处理LOGO(2 2)异常数据处理)异常数据处理 a)a)散点图。散点图。MatlabMatlab中可由中可由plot()plot()实现,在实现,在SPSSSPSS中可通中可通过点选菜单的方式实现。画散点图还可以帮助我们找出数过点选菜单的方式实现。画散点图还可以帮助我

13、们找出数据的规律。据的规律。LOGO(2 2)异常数据处理)异常数据处理 b b)3 3检测法检测法LOGO(2 2)异常数据处理)异常数据处理LOGO(2 2)异常数据处理)异常数据处理 C)C)聚类分析法聚类分析法LOGO(2 2)异常数据处理)异常数据处理异常数据处理:异常数据处理:剔除剔除 均值替代均值替代 回归替代回归替代 异常数据的处理由异常数据的处理由SPSSSPSS、SASSAS、mintabmintab实现比实现比其他软件更方便。其他软件更方便。LOGO(3 3)数据规范化)数据规范化在在实实际际中中的的评评价价指指标标12,(1)mx xxm之之间间,往往往往都都存存在在着

14、着各各自自不不同同的的单单位位和和数数量量级级,使使得得这这些些指指标标之之间间存存在在着着不不可可公公度度性性,这这就就为为综综合合评评价价带带来来了了困困难难,尤尤其其是是为为综综合合评评价价指指标标建建立立和和依依据据这这个个指指标标的的大大小小排排序序产产生生不不合合理理性性。如果不对这些指标作相应的无量纲处理,则在综合评如果不对这些指标作相应的无量纲处理,则在综合评价过程中就会出价过程中就会出“大数吃小数大数吃小数”的错误结果,从而导致最的错误结果,从而导致最后得到错误的评价结论。后得到错误的评价结论。无量纲化处理又称为指标数据的无量纲化处理又称为指标数据的标准化标准化,或或规范化规

15、范化处处理。理。常用方法常用方法:标准差法、极值差法和功效系数法等。标准差法、极值差法和功效系数法等。LOGO(3 3)数据规范化)数据规范化假假设设m个个评评价价指指标标12,mx xx,在在此此不不妨妨假假设设已已进进行行了了类类 型型 的的 一一 致致 化化 处处 理理,并并 都都 有有n组组 样样 本本 观观 测测 值值(1,2,;1,2,)ijx in jm,则则将将其其作作无无量量纲纲化化处处理理。(1)标标准准差差方方法法:令令ijjijjxxxs(1,2,;1,2,)in jm,其其中中1221111,()(1,2,)nnjijjijjiixx sxxjmnn。显显然然指指标标

16、(1,2,;1,2,)ijx in jm的的均均值值和和均均方方差差分分别别为为0 0和和1 1,即即0,1ijx 是是无无量量纲纲的的指指标标,称称之之为为ijx的的标标准准观观测测值值。LOGO(3 3)数据规范化)数据规范化(2)极极值值差差方方法法:令令ijjijjjxmxMm(1,2,;1,2,)in jm,其其中中11max,min(1,2,)jijjiji ni nMxmxjm 。则则0,1ijx 是是无无量量纲纲的的指指标标观观测测值值。(3)功功效效系系数数法法:令令ijjijjjxmxcdMm (1,2,;1,2,)in jm,其其中中,c d均均为为确确定定的的常常数数。

17、c表表示示“平平移移量量”,d表表示示“旋旋转转量量”,即即表表示示“放放大大”或或“缩缩小小”倍倍数数,则则,ijxc c d。譬譬如如若若取取60,40cd,则则60,100ijx。LOGO(3 3)数据规范化)数据规范化 极大型指标极大型指标:总是期望指标的取值越大越好;总是期望指标的取值越大越好;极小型指标极小型指标:总是期望指标的取值越小越好;总是期望指标的取值越小越好;中间型指标中间型指标:总是期望指标的取值既不要太大,也不要总是期望指标的取值既不要太大,也不要太小为好,即取适当的中间值为最好太小为好,即取适当的中间值为最好;区间型指标区间型指标:总是期望指标的取值最好是落在某一个

18、确总是期望指标的取值最好是落在某一个确定的区间内为最好。定的区间内为最好。在将数据无量纲化之前,在有些问题下,特别是综合评在将数据无量纲化之前,在有些问题下,特别是综合评价模型中,还需要将数据根据处理目标一致化。一般说来,价模型中,还需要将数据根据处理目标一致化。一般说来,数据指标一般说来,在评价指标中可能包含有数据指标一般说来,在评价指标中可能包含有:LOGO(3 3)数据规范化)数据规范化(1)极小型指标)极小型指标:对于某个极小型指标对于某个极小型指标x,则通过变换,则通过变换1(0)xxx,或变换或变换xMx,其中其中M为指标为指标x的可能的可能取值的最大值,即可将指标取值的最大值,即

19、可将指标x极大化。极大化。(2)中中间间型型指指标标:对对于于某某个个中中间间型型指指标标x,则则通通过过变变换换 2()1,()22()1,()2xmmxMmMmxMxMmxMMm 其其中中M和和m分分别别为为指指标标x的的可可能能取取值值的的最最大大值值和和最最小小值值,即即可可将将中中间间型型指指标标x极极大大化化。LOGO(3)区区间间型型指指标标 对对于于某某个个区区间间型型指指标标x,则则通通过过变变换换 1,1,1,a xxacxaxbx bxbc 其其中中,a b为为指指标标x的的最最佳佳稳稳定定的的区区间间,max,ca m Mb,M和和m分分别别为为指指标标x的的可可能能取

20、取值值的的最最大大值值和和最最小小值值。即即可可将将区区间间型型指指标标x极极大大化化。LOGO(3 3)数据规范化)数据规范化(1)溶溶解解氧氧(DO)的的标标准准化化 注注意意到到溶溶解解氧氧(D DO O)为为极极大大型型指指标标,首首先先将将数数据据指指标标作作极极小小化化处处理理,即即令令倒倒数数变变换换111xx,相相应应的的分分类类标标准准区区间间变变为为 1111 11 11 11(0,(,(,(,(,(,)7.57.5 66 55 33 22,然然后后通通过过极极差差变变换换5.011xx 将将其其数数据据标标准准化化,对对应应的的分分类类区区间间随随之之变变为为 (0,0.

21、2667,(0.2667,0.3333,(0.3333,0.4,(0.4,0.6667,(0.6667,1,(1,)LOGO()高高锰锰酸酸盐盐指指数数(CODMn)的的标标准准化化 高高猛猛酸酸盐盐指指数数本本身身就就是是极极小小型型指指标标,即即由由极极差差变变换换将将其其数数据据标标准准化化,即即令令1522xx,对对应应的的分分类类区区间间随随之之变变为为 (0,0.1333,(0.1333,0.2667,(0.2667,0.4,(0.4,0.6667,(0.6667,1,(1,)()氨氨氮氮(NH3-N)的的标标准准化化 氨氨氮氮也也是是极极小小型型指指标标,对对指指标标数数据据作作极极差差变变换换将将其其数数据据标标准准化化,即即令令233xx,对对应应的的分分类类区区间间随随之之变变为为 (0,0.075,(0.075,0.25,(0.25,0.5,(0.5,0.75,(0.75,1,(1,)LOGO谢谢 谢谢 !QQ:33248688太原理工大学数学学院太原理工大学数学学院

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!