数据挖掘论文

上传人:陆** 文档编号:170901707 上传时间:2022-11-23 格式:DOCX 页数:19 大小:162.68KB
收藏 版权申诉 举报 下载
数据挖掘论文_第1页
第1页 / 共19页
数据挖掘论文_第2页
第2页 / 共19页
数据挖掘论文_第3页
第3页 / 共19页
资源描述:

《数据挖掘论文》由会员分享,可在线阅读,更多相关《数据挖掘论文(19页珍藏版)》请在装配图网上搜索。

1、关键词:工程设计中的实验数据挖掘摘要问题重述1.1 问题背景工程设计的水平和能力是一个国家和地区工业创新能力和竞争能力的 决定性因素之一。近些年来,随着我国各项工程的蓬勃发展,使得工程在 立项、可研、方案、施工、调测直至开工这些方面都与实验数据挖掘密不 可分。数据挖掘,在人工智能领域,习惯上又称为数据库中的知识发现,也 有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘是 通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、 规律寻找和规律表示 3 个步骤。数据挖掘的任务有关联分析、聚类分析、 分类分析、异常分析、特异群组分析和演变分析等等。1.2 问题提出在工业设计中

2、,采集到了如附表中的数据,该数据是可能对 19 个因变量有 影响的所有可以自变量的数据,第 19号变量受到了 18 个自变量的影响(有的可 能没有影响)。建立数学模型分析研究下面的问题:要求 1:提出的自变量中有的是互相相关的,过多的自变量个数和小样本数 给数据分析带来了很大的困难,请辨别出因为相关性需要删除的自变量;要求 2:在采集数据的过程中,每一个样本值(每一列)由于人为因素或者 是测量因素导致得到的数据误差很大,是不可信的。请从中挑出一个不可信的样 本值;要求 3:建立一种以上模型,得到因变量与自变量的关系,并统计这些模型 的计算值与理论值的误差平方和;要求 4:从影响因素中找出排在前

3、五位的因素,并分析影响规律基于所做的 以上分析,给出制造单位你的建议。二、 问题的分析本题主要任务是:根据所给自变量之间的相关性,删除一部分自变量,并分 析分析每一组样本值,从中挑选出一组不可信的样本值。通过建立因变量与自变 量的关系模型,统计计算值与理论值的误差平方和,再根据影响因素,找出排在 前五位的因素,进而得到分析结果,提出意见。2.1 问题一分析2.2 问题二分析2.3 问题三分析2.4 问题四分析三、 基本假设1、234、四、 符号说明五、模型的建立与求解5.1 问题一的模型与求解5.1.1 模型的分析在分析自变量与因变量之间的关系时,为了避免遗漏某些重要因素,往往一 开始选取自变

4、量指标时,尽可能多地考虑所有的相关因素。而题意中给出了 18 个自变量,过多的自变量,且变量间的相关度高,这样的数据会给系统分析与建 模带来很大不便。而且高相关度的自变量对因变量的影响具有一致性,因此,我 们可以通过研究变量间的相似关系,按照变量的相似关系把他们聚合成若干类, 选取每类中的一个变量,进而达到删除过多自变量的目的。5.1.2 模型的建立与求解1) 多元分析的方法选用:根据上述模型分析,我们需要将 18 个自变量进行分类,因此,我们选用聚 类分析法1进行定量的数据分析。聚类分析法是对多个样本(或指标)进行定量 分类的一种多元统计分析方法。其主要分为两类:对样本进行分类称为 Q 类聚

5、 类分析,对指标进行分类称为 R 型聚类分析。根据题意得,所分析的数据是以 每项指标为单位进行删除,因此,我们选用 R 型聚类分析法。2) 变量数学化:设第19个因变量为y, 18个自变量为叫(i= 1,2,18)。3) 计算变量相似性度量1: 在对变量进行聚类分析时,首先要确定变量的相似性度量,常用的变量相似 性度量有: 相关系数:记变量号的取值(Xj,X2j,,xnj)T e Rn(j = 12,18, n = 13)。任意的选取两个变量亏与耳,将它们的相关系数Pk作为相似性度量,即 (x -r)(x -x)(1)ij j ik ki=1工(x- r)工(x- 丁)ij jik ki=1i

6、=1丄2夹角余弦:直接利用两个变量号与耳的夹角余弦Pk来定义它们的相似性度量, 即rjk =曰xxij ik其中以上两种相似度量都可以表示:rjk越接近1,号与耳越相关或越相似。rjk越接近0,x.与耳的相似性越弱。本文选取相关系数矩阵计算。通过SPSS 软件计算得出各变量之间的相关系数表如下表1所示。表中为变量耳到耳。的相 关性系数值,其他 8 种见附录一。表 1 各变量之间的相关系数表Xix2无34X6无7%X110.1391X3-0.067-0.802*1X41.000*0.137-0.0651-0.256-0.763*0.895*-0.25510.870*0.292-0.1650.87

7、0*-0.4431X70.3080.362-0.4620.307-0.630*0.4251%80.718*-0.002-0.2140.718*-0.4320.570*0.607*1X9-0.059-0.297-0.077-0.060-0.045-0.3580.2630.563*1X10-0.284-0.613*0.842*-0.2820.897*-0.321-0.704*-0.590*-0.34714) 变量的聚类:在变量聚类的问题中,常用的方法有最长距离法、最短距离法等。本文采用 采用最短距离法计算类间的相似性度量。最短距离法定义两类变量的距离为R(qq)=minjk(3)其中:djk =

8、1-rjk或做=1 一条,这时,R(G,G2)与两类中相似性最大的两 个变量间的相似性度量值有关。运用Matlab软件编程绘制聚类树型下图1所示。根据文献2得知,相关系数可划分为三个级:IpXY 0.4为低度线性相关; 0.4 pxY 0.7为显著性相关;0.7 pxY , x .表示第i指标的第j组样本值,x;in 1 ij i JlJj=1表示x.标准化后处理得到的值。通过Matlab软件编程得到标准化处理后的数据, 见下表 5 所示。表 5 标准化处理后的数据%2%3%7X8%1-0.617-0.061-1.1340.736-0.6461.7781.4440.9450.5240.7970

9、.28720.329-0.391-1.595-1.6570.2151.169-1.088-1.0410.4220.922-0.28631.191-1.351.170.138-0.4310.56-0.2151.314-1.788-0.8350.89340.329-0.391-0.213-0.461.293-0.911-0.04-0.533-1.017-0.3420.82751.191-1.351.170.1380.8620.8211.7931.822-0.395-0.9121.1746-0.5181.5910.248-0.461.077-0.711-0.7390.2980.5431.394-1.

10、1171.191-1.351.17-0.460-0.885-0.128-0.487-0.5341.064-1.2680.921-0.2590.709-0.46-1.0770.908-0.6510.8061.899-0.163-0.0990.329-0.391-0.2131.933-1.508-1.172-0.564-1.641-0.4320.486-0.94910-0.5181.591-1.595-1.6570-1.451-1.612-0.717-0.358-0.565-0.69611-0.190.567-0.2130.138-1.0770.3861.1820.3441.23-1.5351.0

11、6112-1.8190.963-0.6731.335-0.646-0.876-0.390.067-1.0821.225-1.44713-1.8190.8311.170.7361.9390.3861.007-1.1790.989-1.5351.5952) 建立比较平均值的偏离程度模型 为了比较每一组样本值偏离平均值的程度,就需要计算在该组中所有指标与平均值偏差的平方和S,由于对数据进行标准化处理后,使得每一项指标的平均值为0,因此第 j 组样本值的平方和表达式为:i=l其中i = 1,2,11J= 1,2,13。由于定义偏差程度最大的一组样本即是应被挑出的不可信的样本值(即偏差平方和最大的一组)

12、,因此通过计算得到结果见下表 6所示:表 6 13 组样本的偏差平方和第j组样本1234567偏差平方和S8.2168.86411.7816.16813.4088.1109.646第j组样本8910111213偏差平方和S7.11710.30012.6978.31411.92515.456通过上表得出,第 13 组样本的偏差平方和最大,综上所述,我们认为不可 信的样本组即是第 13组样本。5.3 问题三的模型与求解5.4.1 模型的分析根据题意建立模型得到因变量与自变量的关系,实际上是建立模型去寻找因 变量与自变量之间的函数关系。由于因变量是由多个自变量得到的一组数据, 因此该问题可以转化为多

13、元曲线拟合问题。通过建立因变量与自变量之间的回归 模型,进而得到两者关系,并求得计算值与理论值的误差平方和。5.4.2 模型的建立与求解1) 建立多元线性回归模型为了简化模型,我们假设因变量与自变量之间是线性关系。根据题意,因变 量受多个自变量影响,且又由问题一中 11 个自变量之间相关性较弱的结论,可 以初步建立多元线性回归模型。假设仔o,仔昇2,,为与自变量无严2,,无关的未知参数,即称为回归系 数。可得多元线性回归分析的模型为y = Bo + Bixi + B2x2 + Biixii + (8)N(0,2)2 丿假设叫j表示第j组样本的第i自变量值,丹表示第j组样本的因变量值。现有12组

14、独立测量的样本值数据(丹,勺,怜,9口),丿=1,2,12,有得,呂=B。+ 2%2; + + 严 + ;(9)、三N(0,o2),j= 1,2,-,121 丿1x11X=:: 1 x12,1x1,11x 12,1y12(10) = Lfb,B = LBoXBY = Xp + s N (0,02 E)因此可以将(8)式转化为 其中化为邢介单位矩阵。通过 Matlab 统计工具箱用命令 regress 实现多元线性回归,其方法是最小二乘法,得到心昇,网的估计值亦 见下表7所示。且由爲到%的L1.3112, 1.6096L0.0025, 0.0034置信区间分别是:【0、L2.6897, 2.42

15、21、L0.0124, 0.0117、0003, 0.0003、L0.0115, 0.00750.0486,、L0.0053,L0.0021,0.0029、L0.6776,0.0891、0.00340.4134表 7 回归系数的估计值及置信区间系数03估计 值A0-4.3064x1050.02930.66790.0055-0.0002仔6仔7B10估计 值&0.00040.0004-0.00640.0001-0.2554-0.0243L0.0919, 0.0657残差分析:再根据模型求解中所求得的&的置信区间,将其两端区间端点减去&得到残差的置信区间,做出残差图像。见下图3,5-Enp 一 5

16、用Rysidual Cass Order PlotC.OG0.060 04 im-Li. IT:-C.U4-a.06C.08n i46?Case INuiTih-ir10图 3 残差图像根据上图分析,12 组样本值数据的残差离原点均较近,且残差置信区间均包 含零点,因此,我们可以确定线性回归模型y = 4.3064 x 10-5 * 叫 + 0.0293 * 勺 + 0.6679 * 也 + 0.0055 * %4-0.0002 * 无5 + 0.0004 * 无6 + 0.0004 * 9 - 0.0064 * 叫 + 0.0001 * 无9-0.2554*叫0 - 0.0243 * 勺(1

17、2)能够较好的符合原始数据,所建立的模型具有一定的准确性。2)计算理论值与计算值的误差平方和S2,即s2=(%-yz)2(13)i=1经过计算得到,s2 = 2.073 x 10-4。5.4.3 模型的进一步修正1) 建立逐步回归模型本问题在问题一所筛选的自变量基础上进行线性回归,虽然这些自变量之间 不具有高度相关性,但是我们不能保证这些变量之间完全相互独立,或者默写自 变量对因变量的影响不是很大。因此,基于 11个自变量的线性回归模型不是最 优的回归模型。进而,在这种情况下,可用逐步回归分析5, 通过假设检验筛选 出有显著影响的因子作为自变量,并建立更优的回归模型。逐步回归基本思路:先确定一

18、初始子集,然后每次从子集外影响显著的变量 中引入一个对y影响最大的,再对原来子集中的变量进行检验,把变得不显著的 变量中剔除一个影响最小的,直到不能引入和剔除为止。在Matlab统计工具箱中逐步回归命令stepwise进行统计分析,通过选择变量确 定最终模型为y = -0.0014 * %5 0.0012 * %6 + 0.0014 * %8 + 0.0007 * %9 0.1530 * %10-0.0136*叫1 + 21968(13)且R2 = 0.9463,F = 14.6826,p = 0.0049 0.05,可知上述模型(13)成立。2)计算理论值与计算值的误差平方和S2,计算得到S

19、2 = 2.767 x 10-4。5.4问题四的模型与求解5.4.1 模型的分析我们在讨论影响因素的影响力排名时是按聚类分析后所得类指标变量进行 讨论的,因为每个类所包含的不同变量表达的都是同一个指标信息,所以用类指 标变量对因变量的影响力大小程度,来进行排名,认为每类指标变量所包含的不 同变量对因变量的影响程度处于同等水平。5.4.2 从影响因素中找出排在前五位的因素对于第四道题,要求得到影响因素中排在前五位的因素。第三问中我们已经得到,自变量和因变量的多元线性回归方程,但在回归方程中,其自变量因素的系数绝对值的大小,不能表明该因素对因变量的重要程度。在回归分析中,标准 化回归系数恰好具有此

20、项功能,可以反应自变量对因变量的影响力大小。因此, 我们考虑用标准化回归系数来找出影响因素中排名前五的因素。标准化回归系数的意义是,当其他自变量取值保持不变时,自变量每改变一 个标准差,因变量改变 b 个标准差。 标准化回归系数的作用是,比较自变量对 因变量变化的贡献大小,系数的绝对值越大该自变量对因变量的影响力越大,消 除原始变量单位不同的影响。标准化回归系数的求解步骤:(1)首先对变量做标准差标准化量化处理,标准化变量的样本均值为 0,标准 差为 1(2)再对标准化后的样本值做回归分析,求出的回归系数即为标准化回归系数。我们通过SPSS软件,求得的各指标变量的标准化回归系数见下表8所示:表

21、 8 各指标变量的标准化回归系数表自变量1713181632151179(9)14标准化回归 系数-0.986-0.897-0.8660.6140.530-0.3840.331-0.254-0.136-0.017-0.012与因变量的 相关关系-0.144-0.652-0.3680.1220.370-0.098-0.264-0.427-0.0420.081-0.326对表格数据进行说明:(1)“ +”表明指标变量与因变量成正影响关系, “- ”表明各指标变量与因变量 成负影响关系;(2)标准化回归系数绝对值越大表明该指标变量对因变量的影响力越大。因此,由以上表格数据可得出影响因素排名前五的自变

22、量排序是(按影响力 从大到小排序)17,13,18,16,3。5.4.3 分析影响规律由表格中的各指标变量的标准化回归系数与各指标变量与因变量的相关关系进行对比,可以得出:(1)指标变量与因变量的相关关系越大,并不能说明该指标变量对因变量的影响 力越大。由表格中的17和13项指标对比,2和15项指标对比等都可以看出, 17 指标变量对因变量的影响力大于 13;(2)指标变量与因变量成正相关,但该指标变量与因变量不一定成正影响关系, 反之,指标变量与因变量成负相关,该指标变量与因变量不一定成负影响关系。15 号指标变量的标准化回归系数是正值,但其与因变量的相关关系是负 相关;9 号指标变量的标准

23、化回归系数是负值,但其与因变量的相关关系是 负相关;(3)由表格数据可以看出因变量与各类指标变量的相关关系程度,除 13, 11号指 标与因变量是显著相关关系外,其余指标与因变量呈低相关关系;(4)对表格数据分析可以看出,这组 11 类指标变量,大多数对因变量成负影响关 系,只有极少数,即 16, 3, 15 号类指标变量对因变量成正影响关系,而且 这三个指标比变量对因变量的影响力排名都比较靠后。由此可以看出,该组 自变量体系对因变量的整体影响效果成负影响关系;(5) 该组类指标变量与因变量的相关关系,大多数呈负相关关系,只有 16,3,9 号指标变量与因变量呈正相关,且 16,9 指标变量与

24、因变量的相关系数特别 小(小于 0.1)。3 号指标变量与因变量的相关关系程度也是呈低相关的;(6) 如果要提高因变量的值,则增加与因变量成正影响关系的自变量因素;如果 要降低因变量的值,则可通过减少与因变量成负影响关系的自变量因素。六、模型的评价6.1 模型的优缺点1. 模型优点:2. 模型缺点:6.2 模型的应用及推广:七、参考文献1 司守奎,孙玺菁,数学建模算法与应用,北京:国防工业出版社,2012。2 嵇玮玮,刘中,递增式传感器节点定位方法的累积误差分析及其改进,自然 科学版,第 32 卷第4 期:497-498,20083 叶宗裕,关于多指标综合评价中指标正向化和无量纲化方法的选择J.浙 江统计,2003,(4):24-25。4 马立平,统计数据标准化一一无量纲化方法J,北京统计,2000,3:34-35。5 骆福添,胡孟璇,Cox模型标准回归系数的探讨,卫生统计,第9卷第6期, 5-7,1992。八、附录附录一附录二活 .A,3 3即畫Q1自 jSSWJESOffl自娈呈d的正态awo.?i:a#iti期20Ml JI H H43110 1 110 1WttIII40$0勿帀观油偵3 買

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!