第二章_原始数据的处理方法

上传人:s****a 文档编号:146585456 上传时间:2022-08-31 格式:DOCX 页数:17 大小:151.51KB
收藏 版权申诉 举报 下载
第二章_原始数据的处理方法_第1页
第1页 / 共17页
第二章_原始数据的处理方法_第2页
第2页 / 共17页
第二章_原始数据的处理方法_第3页
第3页 / 共17页
资源描述:

《第二章_原始数据的处理方法》由会员分享,可在线阅读,更多相关《第二章_原始数据的处理方法(17页珍藏版)》请在装配图网上搜索。

1、第二章原始数据的处理方法原始数据的处理是数据分析中极为重要的容。在本节中,我们将介绍原始数 据的来源及其特点,着重阐述原始数据初始变换的几种方法,并利用例子进行演 示。第一节原始数据的来源及其特点原始数据一般包括反映自然资源区域特征,如海况、气象、水文、地形、地 貌、动植物等;反映区域社会经济条件和生产力水平,如人口及其人口密度、捕捞 劳力、海域面积、渔船数量、渔船功率以及渔业总产值、捕捞产值、养殖产值等。 原始数据按其性质大体可分为(1)科学实验和观测数据;(2)社会经济统计 数据;(3)生产经验数据;(4)有关部门的决策和目标数据;(5)定性资料 的量化数据等。不同的数据有不同的来源。但归

2、纳起来,主要的来源有:(1)国家统计 部门和行业部门的历年统计资料,这些多为社会经济指标;(2)有关业务部门的 历年观测数据及其科学实验报告,这些多数为自然因素指标,如东海区渔业资源和 环境观测数据;(3)选择有代表性的单位或年度,进行实地典型调查所得的数据;(4)区域规划部 门通过收集、调查、观察和计算积累的数据;(5)调查访问有实践经验的劳动者、生产技术人员、科研人员以及管理人员所得的数据;(6)国家有关部门制定的发展规划、建设方案等决策数据;(7)其它方面的数 据。我们将以上所获得的各种资料和数据成为原始数据。这些数据来源不同,其类 型也不同。从利用分析的角度来看,这些数据有以下几个主要

3、特点:(1)不同的量纲。如渔业产值为元,渔业产量为公斤,水温 为摄氏度,作业 时间为天,航程为海里,捕捞努力量为吨、千瓦、艘、人数,CPUE为吨/ 天、吨/小时、吨/千瓦等。(2)数量级大小相差悬殊,有的数字仅是小数级,有的数字大到亿万。如渔 业产值以亿万元或万元计算,而劳动生产率只有 几十元到几百元;渔业资源量上千 万吨或几万吨等。(3)大部分数据有一定的随机性,特别是统计或观测的时间序列或偶测值, 不论是自然指标还是经济数据,都有随机变化,均有明显的摆动。(4)大量数据具有一定的灰色度,运用上述方法收集来的数据绝大多数是区 域各样点的平均值或统计值,在时间上或空间上并不是一个确切的白色参数

4、,而是 一个有上限、下限的灰色数。如某调查船进行的渔业资源和环境调查,其所得的数 据只能是某一点某一时刻的数据值,但由于条件和仪器设备的限制会使数值产生 误差,这一误差值的多少无法知道,因而产生了灰区。如某 年某区的降水量,是该 区各次实际观测纪录的平均数,由于测量 方法不同和在时间计算上引起的误差等, 是无法知道的。同样的问题在一些经济统计数字中也存在。因此,严格地说,收集 来的数据绝大多数是灰色参数,都具有不同程度的灰色度。第二节原始数据白化和初始变换的几种方法一、原始数据的取值和白化对于绝大多数灰色参数来说,需要进行白化或淡化处理,以提高白色度,减 少灰色度。也就是说通过信息的不断补充,

5、使灰色参数逐渐成为一个比较接近实际 的数值。数据白化处理的方法主要有:(1)直接采用距样点最近观测站的多年平均值。例如海水温度和盐度等, 可采用多年来的观测平均值或近几天的平均值。(2)根据各个因素指标的等值线图,利用插入法计算其数值。如表层水温、盐度、海底地形等指标,各代表样点不完全有现成的准确观测值,可在“等水 温线图”、“等盐度图”、“地形等高线图”上,利用插值法计算出其白化值。(3)结合实际情况和数据特征,确定合理的数据。如反映海 洋环境质量的 指标有有机质、含氮量、含磷量等。在使用时,我们不可能把所有的因子都输入模 型,为了计算上的方便,可以归结为一个综合指标。即用该区域最新资料,查

6、出各 样点的各项因素指标,然后用“极差变换”的方法求出变换后的数据,相加即可 得到一个综合性数字。这样,可解决各因素间量纲不同和数量级大小相差悬殊的问 题。(4)对经济指标进行预测。海洋经济的分类划区应当有相对的稳定性,同 时应用的综合指标又应反映海洋经济的动态特征,所以,在使用相应的指标数据 时,就需要先对指标数据进行发展 预测,然后根据预测值进行分类划区。预测的方 法很多,常用的是灰色系统GM(1, 1)模型和指数递增率模型。(5)采用具有相同权数的相对数值。根据统计学原理,各个 个体应该是等 权的,但实际上各种统计对象个体不等积,不等形,也即存在着不等权问题。例 如,各样点的海域面积、人

7、口产量、产值等指标,绝对值差别很大,无疑是不等权 的。如果用特定围海域比重、人口密度、单位平均产量、人均产值等相对数来 表示,便可以解决各样点同项因素不等权的问题。二、常用的几种数据变换方法由于原始数据存在着上述特点,进行统计分析建立数学模型有一定的困难和 限制,因此需要根据所建数学模型的类别,对原始数据进行变换。变换的目的主要 是:(1)使指标数据尽可能呈正态分布;(2)统一变量指标间的量纲;(3) 使两变量指标的非线性关系变换为线性关系;(4)用一组新的、指标数量较少 的、相互独立的变量,代替一组有相互联系的原始变量指标。不同的数学模型对指标变量的要求不同。大多数的多元统计分析,要求变量

8、总体上服从多元正态分布,且要求量纲一致。如判别分析要求变量呈正态分布;回 归分析则要求因变量呈正态分布,要求各自变量与因变量之间有密切的相关关系。 而聚类分析则要求各变量量纲一致,变量间互相独立。因此,数据的变换一定要 根据数学模型的要求,有的放矢地进行。常用的变换方法主要有:(一)标准化变换计算公式为:Vxij =sj(i=1,2,N样点数;j=1 , 2,,P变量数)式中:Xj为变换后的数据;Xij为原始数据;X NXj为第j变量的算术平均值,即Xj = K1 i 1j jj jNN (XijXj) 2Sj为变量j的标准差,即罚工厂一变换后的各变量数据平均值为0,方差为1,呈标准正态分布,

9、各变量间有了统一的量纲,而两个变量在变换前后的相关程度不变。从几何意义上 讲,标准化变换相当于座标原点移至重心(即平均值)位置,标准化变换适用于量 纲不同且数量级大小不一的连续性数据。我们现在以新军的博士学位论文渔业资源可持续利用评价实证分析中有关数据进行说明。1978- 1984年东海区渔业资源可持续利用系统的资源环境子系统如下:年份 1978197919801981198219831984Xi竺X32.6463.1943.62.722.7359.1246.4841.156.92.722.642.632.5451.0648.1858.562.238.641.0364.567.7XXX669.

10、7852.6091.17859.4462.2441.0551.04743.15636.68429.15224.8351.5471.4791.4351.2991.0380.9560.9350.8751.2580.891其中:Xi为渔获物的营养级,单位为级;X2为优质鱼类产量占海洋捕捞产量的比 重,单位为; X3为非选择性渔具捕捞产量占海洋捕捞产量的比重,单位为;X4为单位机动渔船的平均捕捞产量,单位为吨/艘;X5为机动渔船每吨位的平均捕捞产量,单位为吨/船吨位;X6为机动和非机动渔船每千瓦的平均捕捞产量,单位为吨/千瓦。在资源环境子系统中,各评价指标的单位不一样,因此需要进行初值化。现分别求出序

11、列为、X2、X3、X4、X5和X6的平均 值及其标准差。X1(X1978X1979X1984)/7(2.642.72 . .254)/72.66X2(XgX1979-XM(631959.12 . .4103)/74967X3(X1978X1979r 7(43641.1 . .67.7)/756.36X4(Xi978 Xi979-人 984)/7 (69.78 59.44 .2482)/744.87X5(Xi978 Xi979-Xi984)/ 72.44 .1.26)/71.7 0X6(Xi978 Xi979“Xi984)/7(门8i.05 .0.89)/70.99SN (Xj*)2 -i iV

12、 N i(2.64 2.68)*!7(2.5412.66)2_ 0.07N (XjXj)2 -S2I iN i(63.i949.67)27(41.03149.67)2_ 8.98S3N(XjXj)2I iN i(43.6 56.36)2.7.(67.7 56.36)21_10.24S4N(XjXj)i iN i(69.7844.87)27(69.78144.87)2_ 16.28N - 92*Xj)2(2&7)2心67)2 0.52I7 1I i1 N 1S3N (XjXj)2(1.18 0.99)2.(0.89 0.99)2T10.11则数据变换为:X11X11X12.64 2.660.07

13、0.29其他数据变换类同。则获得经过变换后的资源环境子系统的各个序列:(二)极差变换计算公式为:XXjXjminXj maxX.Jjmin式中:*为变换后的数据;Xij为原始数据;Xjmax为第j变量原始数据的最大值;Xjmin为第j变量原始数据的最小值。极差变换后的数据有了统一的量纲,其最大值为1最小值为0,所有数据变化在01之间。变换前后两两变量之间的相关程度不变, 其几何意义相当于把座标原点移至最小值位置。极差变换适用于量纲不同、 数量大小不一的连续型的原始数据的变换。同样以上述例子进行分析。先求出各个指标的最大值和最小值。它们分别为:X imax = 273X 2max = 63.19

14、X 3max = 67.70X4max= 69.79X 5max = 2.61X 1min = 2.54X 2min= 38.60X3mi n =4110X4mi n = 24.84X 5min = 126X6max = 1.18X6min = 0.88则其数据变换为:XX1X 1 min1 max1 min其余数据转换类同。2.64 2.542.73 2.540.53(三)均值化变换计算公式为:式Xj为变换后的数据;中:Xjj为原始数据;Xj为第j变量的平均值。变E换后的数据有了统一的量纲,数值均大于0,且集中在1XjXj附近。其数学期望值为1 ,而变量与平均数之差的期望值为0。此变换适用于

15、比例变量,如长度、体积、质量等。我们仍然以上述数据作为例子进行分析,我们已求得各个序列的平均值,则相应的变换值为:XuXn2.642.660.99其余数据类同。(四)初值化变换计算公式为:X =X1式中:Xj为变换后的数据;Xjj为原始数据;Xj,为第i变量的初值(第一个数据)。初值化变换后的数据具有了统一的量纲,各数值均为初值的倍数,便 于分析因素之间序列的关联性,因此适用于处理社会经济方面的统计数据。我们仍以上述数据作为例子进行分析,利用上述公式进行初值化变换:2.64XiiXii 1 2.64Xii其余计算类同。Xi2Xi2Xii2.722.64i.03Xi72.542.640.96i2

16、XiiX5i.000.860.590.570.550.500.48i.000.890.880.8i0.790.740.76(五)模块化变换计算公式为:Xij= X k 1式中:Xj为变换后的数据;Xik为第j个变量的第k个数据。这种变换就是将时间数据列,逐年作一次累加,组成新的数据列,即生成 数时间序列。这种变换可用于时间序列的预测。这就是灰色系统理论建立数学 模型、进行预测、动态分析等的建模机理和方法。我们以上述数据作为例子进行分析,利用上述公式进行模块化处理:iXiiXik Xii 2刷k 12Xi2XikXiiXi22.642.72 5.363Xi3XikXiiXi2Xi32.64 2.

17、722.73 8.09X17XikX11X12. X172.64 2.72 . 254 18.62其余计算类同。则可获得资源环境子系统经过初值化后的序列:(六)滑动平均变换计算公式为:vXi iXiXi ii为避免数字上的循环,也可采用下式计算:Xi%4或XiX 2X*Xi 25这种变换可以弱化时间数据的随机性,不同程度地消除了收集统计数据时 的误差,为作进一步数据处理提高了可靠性和准确性。我们以上述数据作为例子进行分析,利用上述公式进行滑动平均变换处理:Xn 2*。42 2.64 : 2容 2.67x!2%上64管2.732.70X!3X12Xi3Xi42.72 2.73 2.722.72X

18、i6 2X i72.63 22.54x171332.57其余计算类同。则可获得资源环境子系统经过滑动变换后的序列:(七)弱化算子和强化算子变换设X为原始数据序列,D为缓冲算子,当X分别为递增序列、递减序列 或波动序列时:(1)若缓冲序列XD比原始序列X的递增速度(或递减速度)减缓或波动减少,我们称缓冲算子D为弱化算子;(2)若缓冲序列XD比原始序列X的递增速度(或递减 速度)加快或波动增大,则称缓冲算子D为强化算子。1 弱化算子变换设原始数据序列X=(x (1), X(2),,X (n),令 XD= ( x (1) d,x (2) d,,x (n) d)其中:x (k) d=1*)x(k 1)

19、x(n);k=1 , 2,n;则当X为单调递增序列、单调递减序列或波动序列时,D为一阶弱化算子,XD为经过一阶弱化后的缓冲序列。若令 XD2 =XDD= ( x (1) d2, x (2) d2,x ( n) d2),1其中 x (k) d2=x(k)d x(k 1)dx(n)d;n k 1k=1, 2,,n;则D2对于单调递增、单调递减或波动序列,称为二阶弱化算子,XD2为 经过二阶弱化后的缓冲序列。2 强化算子变换设原始序列和其缓冲序列分别为X= (x (1), x (2),x(n) , XD= (x (1) d, x (2) d,,x ( n) d),2k 1其中 x (k) d= x(

20、1)x(2) x(k 1) kx(k);八k=1, 2,,n-1,且 x (n) d=x (n);则当X为单调递增序列、单调递减或波动序列时,D为一阶强化算子,XD为经过一阶强化后的缓冲序列。若令 XD 2=XDD= (x (1) d2, x (2) d2,.,x (n) d2),其中 x (n) d2 =x (n) d=x (n);d2=x(1)dx(2)d x(k 1)d kx(k)d ;2k 1k=1, 2,,n-1 ;则D2对于单调递增序列、单调递减或波动序列,称为二阶强化算子,XD2为 经过二阶强化后的缓冲序列。我们以某市某区的渔业产值数据(1983-1986年)为例进行分析,X=(

21、 10155, 12588, 23480, 35388),单位为百元,其增 长势头 很猛,1983-1986年每年平均递增51.6%,尤其是1984-1986年,平均每年 递增67.7%。但是由于渔业资源的有限性以及受捕捞能力和技术的限制,其 渔业产值不可能无限地增长下去,今后也不可能一直保持这么高的发展速度。 如果用现有数值直接建模预测,其预测结果人们根本无法接受。经过认真分析 和探讨,我们认为增长速度高主要是由于基数低,而基数低的原因则是过去 对渔业资源的利用不足。为此,在今后的渔业产值预测中,要采 取弱化序列增 长趋势,引入二阶弱化算子。其具体计算过程为:x(1)d(1015512588

22、23480 35388) 204034 11x(2)d 42(12588 2348035388) 23819x(3)d丁(2348035388)29434x(4)d35388353884 41则一阶缓冲序列XD= (20403, 23819, 29434, 35388)。xd 24 1 1 (20403 23819 29434 35388) 27260x(2)d2(23819 29434 35388) 29547x(3)dx(4)d 2(29434 35388) 324114 3 1135388 353884 4 1则得到二阶缓冲序列 XD 2= (27260, 29547, 32411, 35388 ) o我们利用二阶缓冲序列XD2建立GM ( 1 , 1 )模型预测得,1986-2000年该市区的渔业产值平均每年递增9.4%,这一结果基本可以接受,与实际情况也较为吻合。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!