数据挖掘实验报告

上传人:shug****ng1 文档编号:137857369 上传时间:2022-08-19 格式:DOCX 页数:18 大小:557.29KB
收藏 版权申诉 举报 下载
数据挖掘实验报告_第1页
第1页 / 共18页
数据挖掘实验报告_第2页
第2页 / 共18页
数据挖掘实验报告_第3页
第3页 / 共18页
资源描述:

《数据挖掘实验报告》由会员分享,可在线阅读,更多相关《数据挖掘实验报告(18页珍藏版)》请在装配图网上搜索。

1、课程名称成绩评定实验项目名称 数据集设计与准备 指导教师实验项目编实验项目类型 设计型 实验地点学生姓名学号学院信息科学与技术学院系计算机科学专业实验时间2012年6月日午_月_日 _午 温度_C湿度.一. 实验要求(1)以前面课程设计为背景,构造挖掘数据集,至少包括 200条记录; (2)符合 SQL 2005数据挖掘格式。二. 实验步骤1, 寻找数据源2, 从数据源中抽取出自己想要的的属性列信息 3,将不同的表的关系建立起来三. 实验结果(规则,图,表等)用来挖掘的有五张表:贷款分析表:?借款凭证编号(PK, char(15), not null)甲客户代码(FK, char(181 nu

2、ll)?盍行管辖机构编码(FK, char(ll). null)?贷款类明细编码(FK, ch町null)?贷款期眼明细代码(FK, char(21 null)J 借款日期(datetime null)J 贷款总额(decimaKig). null)J 正常贷款(decimalflG), null)fl 不良贷款(dxim日ICL72), null)数据如下:借款倖丽编足喜户代码专行管镁机构侍款半耳II借款HHfl侍款灼S5TF岸侍款不点侍款13120040013069975891781-6.13040310105D115132004-11-12 .3205821.00600000.00260

3、5821.0013120030016692360140519-3.13042010108C114112003-12-29.6805821.003000000.003805821.0013119993002047670077081-5.13091511309A101112001-04-09.2510000.000W2510000.0013120040001209374849408.13020810102D115132004-02-18.5305821.002000000.003305821.0013119993005756710777133-1.13010110104A101112000-04-

4、24.358000.000.00358000.0013120040007463060112102-7.13080710309ID115132004-07-28.3205821.00600000.002605821.0013120040014961370095174-7.13010210101ID115132004-12-28.3715821.00940000.002775821.0013119993007000713e001500.13080112103C113112000-04-19.100000.000.00100000.0013120040006780260108550-5.130627

5、10105A101112004-07-13 .6805821.003000000.003805821.0013120040013963770082330-7.13010710201A101112004-11-30.3635821.001330000.002305821.0013120020007715860103938-1.13022610302ID115132002-12-18 .2500821.00130000.002370821.00贷款类别代码表:J 贷款类Sil编码(varchar(255). null)J 贷款类SU名称(varchar(255). null)?贷款类明细编码(PK

6、, ch酊not null)J贷款类别明细名称(nvarchar(255). null)数据如下:I佶就举别编码佶葯爭别窑称触障别明细编码借栽举即明细客椒A潇动资金贷款A101駝业流諏A潇动资金贷款A102证懿司赣A流动资金贷款A103对公活期#ItSlKP透支A流动资金贷款A104有追索权应收账款融资A潇动资金贷款A105无追索权应收账款融资A潇动资金贷款A106票据买入融资A流动资金贷款A107出退税账户托管贷款A潇动资金贷款A108农用主产资料贷款A流动资金贷款A109农副产品收购贷款A潇动资金贷款A110其他谎輙B固是资产贷款Bill项目融资贷款B固定资产贷款B112冥他一般固定资产贷

7、款CC113扶贲贴息縮CC114D票删占现D115银行輙偉贴现法人基本信息表:?客户代码(PK, char(18), not null)J 客户名称(nvarchar(30), null)I领导秦质忙仙null)J 法定地tit (chart&O), null) 圍行业分类 1 (varchar(30), null)J 行业分类2 (varchar(8), null)I 管理特征(chard null)B 经营规模(char(8), null)I 经营状况(char(8), null)数据如下:玄户代码玄户名称魏号秦馬決宇地U卜彳刁|/分孝1彳刊|/分举?管理拓丁绎营抑樟绎营状况6013065

8、5-8 .K655-8公司好某市某区某路558号.雌和零售业物资优良喜户小型盈利60137325-9K325沁司好某市某区某路25泻.零售业农机限制客户小型盈利00022266-6 _K266-6公司中某市某区某路66-6号.农林牧渔其他70076780-0 .K780-址司好某市某区某路80g .批发和零售业粮食一般客户小型盈利00023349-6K3496公司好某市某区某路496号.交通运输、仓储和邮政业冥他一般喜户中型盈利00026046-X .K046X公司中某市某区某路46X号.文化、体育和Jglk其他限制客户小型其他73736340-4K340-4公司好某市某区某路404号.制造业

9、V喜户小型盈利73739535-0K535-Oi司好某市某区某路35吗.制造业优良客户中型盈利60126901-3 -K901-3公司差某市某区某路01-3号.制造业紡织限制客户小型盈利71832858-2尬5弘2公司好某市某区某路58-2号.限制客户小型盈利信贷机构代码表:T 市行名称代码(nvarchartA), null)T 市行名称(char(20)J null)圉盍行名称编码(nvarchar(6), null)T盍行名称(nv日ixh日K25)null)?支行管辖机构编码(PK, char(ll), not null)H盍行管辖机构名称(nvarchar(255), null)数据

10、如下:|市称代码卫迂名称玄左称编码卫壬称古行管犒和构编码克行管禽n构窑椒1301FT15130101F市2技行13010110104F市2技行0104营业所1301FT15130101F市2技行13010110209F市支行盟凹营业所1301FT130101R152技行13010110304陆乔支行壮04营业所1301FT130101R152技行130101104091301FT130101F1152H支行13010110504陆 2 M 支行 05 04Mlkfifr1301FT130101F1152H支行13010110609FT22 支行Q6O9q#fff1301FT130101F115

11、2H支行13010110704F1TO支行M04营业所1301FT130101陆不支行13010170102陆冇支行口宾营业所1301FT130101陆不支行13010170207陆冇支行宾口营业所1301FT130101F7152J支行13010170302陆冇支行壮02营业所1301FT130101F7冇2J支行13010170407陆石支行04 口营业所贷款期限代码表:?贷菊朗限明细代码(PK, char(2), not null)H贷款期限代码(har(255), null)I 贷趣限名称(nvarchar(255). null)H贷款期限明细名称(nvarchar(255). nul

12、l)数据如下:五张表的关系如图:J法人基本信息表码况 pfissi=H= mmmtw经J贷急期限代码表ii号柯细细漏任餐杲融目费贷BC88S正不?肝:v.v.J.v.Jn:-:v.v.J.v.J也J贷隸类别代码表-gjggl踏爵漏码inr,.J信贷机构优码表码 称 闔码构 业编机 SWH snnnnu 支4am支支课程名称成绩评定实验项目名称关联分析指导教师实验项目编号实验项目类型 设计型 实验地点学生姓名学号学院信息科学与技术学院系计算机科学专业实验时间2012年6月日 _午_月_日 _午温度_C湿度一 一实验内容(1)利用SQL 2005提供的功能,选择相关算法,对实验一构建的数据集进行

13、关联分析;( 2)输出结果;(3) 分析比较运行不同算法的实验结果。二实验原理关联规则的基本概念:设I=il,i2,im是项的集合。设任务相关的数据D是数据库事务的集合,其中每 个事务T是项的集合,使得T匸I。每个事物有一个标识符,称作TID。设X是一个项集, 事务T包含X当且仅当XET。关联规则是形如X=Y在事务集D中成立,其中X称为前提或 左部(antecedent),Y称为后续或右部(consequent),具有支持度s,其中s是D中事务包 含XUY(即X和Y二者)的百分比。它的概率为P(XY)。规则XUY在事务集D中具有置信 度c:如果D中包含X的事务同时也包含Y的百分比是c,这便是条

14、件概率P(Y/X),即 support(X=Y)=P(XU Y) ( 1)confidence(X=Y)=P(Y/ X) =support(XUY)/support(X)(2)同时满足最小支持度阈值(minsup)和最小置信度阈值(minconf)的规则称为强规则。 为方便起见,用0%和 100%之间的值表示支持度和置信度。 Agrawal 等设计的 Apriori 算法 是将关联规则挖掘算法分解为两个子问题:1) 找到所有支持度大于最小支持度的项集(itemset),这些项集称为频繁项集(Freqant itemset)2) 使用第 1 步找到的频繁项集产生期望的规则,这些规则必须满足最小支

15、持度和最小 置信度。对于医疗数据挖掘问题,我们可以使用附加的兴趣度度量。三. 实验步骤创建带有挖掘模型的挖掘结构側)何种数据濟技术?Microsoft关联规则、n创建不带挖掘摸型的挖掘结构q说明:Microsoft关联规则算法生成的规则描述明型项最有可能在事务中出现在一 借助逵些规则,可以抿据其他项在事务中的出现情况,来预测某一项的出现情况。可用数据源视图(A:yinhang日表:贷款分析视图 贷款砌代码表 贷款期限代码表信贷机掏代码表(3)设置数据挖掘向导中的指定项。指定事例表为学生信息,嵌套表为选课信息,以及定型数据。4)完成挖掘结构的建立。并部署选修课关联分析项目。四.实验结果(规则,图

16、,表等)项集结果如下:规则分析结果如下:五,实验结果分析结果显示,贷款额度为大于等于3305821及小于2330821这两个范围及容易出现不良贷 款,对于这些这范围的贷款,银行在作出决策时要更为慎重,以尽可能的避免不良贷款的出现。其中“一般扶贫贷款”与“学校房地产贷款”可能存在政府的参与,因此,应予以特殊考虑;“一般企业流动资金贷款”和“信用证项下已承诺汇票贴现”也极可能出现不良贷课程名称成绩评定实验项目名称 分类指导教师实验项目编号实验项目类型设计型 实验地点学生姓名学号学院信息科学与技术学院系计算机科学专业实验时间2012年6月日 _午_月_日 _午温度_C湿度一 一实验内容1)利用 SQ

17、L 2005提供的功能,选择相关算法,对构建的数据集进行分类2)输出结果;3)分析比较运行不同算法的实验结果。二 实验原理(数据格式要求,算法思想等)Microsoft 决策树通过在树中创建一系列拆分(也称为节点)来生成数据挖掘模型。每当发现输 入列与可预测列密切相关时,算法便会向该模型中添加一个节点。该算法确定拆分的方式不同,主要 取决于它预测的是连续列还是离散列。实验步骤1,建立挖掘结构-决策树分类2,选择法人基本信息表为事例表/列键團输入1可-JSA曲信裁MHHMMFH皀管理特征MHM0MPW3经营规模MHM0MPWE1嗣经营状况MFTBHZ同 客户代码HMHMMF客户名称MFTBMPT

18、Z富领导秦质0MPTE1忌行业分类行业密2EIEIEl四. 实验结果(规则,图,表等)1,挖掘模型显示 经营状况与行业、管理特征级领导素质的关系2,最后决策树分析结果如下:淘汰客户F好:日领导素质=*中,教育全部好领导素质中行业分类1不等于教育行业分类1管理特征=限制客户领导索质领导素质管理特征领导素质行业分类=1制造业行业分类1不等于1教育行业分类1W,教育领导素质=好领导素质不等于好管理特征=,-般客户管理特征=优良客户领导素质差行业分类1不等于制造业仃业片芟1:=制造业1Ivwwwwwwwwwwwwwwwwwwwwwwwwwwws业行桝分奥1不站行业咎1 =教育 事例总计:24盈利15其

19、他8 弟1 耐0 舞0行业分类1 =制造业 事例总计:600关停300亏损231其他28盼22盈利19五. 实验结果分析与比较挖掘模型显示,经营状况与行业、管理特征级领导素质有密切关系,与经营 规模无关。从决策树的结果分析来看,管理越是优良,领导素质越好的企业(即 法人)经营状况盈利的就越多,其中以教育行业最为典型,反之,管理越是落后 淘汰,领导素质越差的企业亏损就越多,其中以制造业为代表。课程名称成绩评定实验项目名称 聚类指导教师实验项目编号实验项目类型设计型实验地点学生姓名学号学院信息科学与技术学院系计算机科学专业实验时间2012年6月日 _午_月_日 _午温度_C湿度一一实验内容1)利用

20、 SQL 2005提供的功能,选择聚类分析算法,对构建的数据集进行聚类2)输出结果;3)分析比较运行不同算法的实验结果。二实验原理(数据格式要求,算法思想等)Microsoft 聚类分析算法首先标识数据集中的关系并根据这些关系生成一系列分类。散点图是一种非 常有用的方法,可以直观地表示算法如何对数据进行分组,如下面的关系图所示。散点图可以表示数 据集中的所有事例,在该图中每个事例就是一个点。分类对该图中的点进行分组并阐释该算法所标识 的关系。在最初定义分类后,算法将通过计算确定分类表示点分组情况的适合程度,然后尝试重新定义这些分 组以创建可以更好地表示数据的分类。该算法将循环执行此过程,直到它

21、不能再通过重新定义分类来 改进结果为止。Microsoft聚类分析算法提供下列两种方法来计算点在分类中的适合程度:Expectation Maximization(EM)和K-Means。对于EM聚类分析,该算法使用一种统计方法来确定分类中存在数据点的概率。 对于K-Means,该算法使用距离度量值将数据点分配给其最接近的分类。生成分类时不使用其用法设置为只预测的列。在生成分类后,将计算这些列在分类中的分布。三.实验步骤1,选择挖掘模型的挖掘结构一聚类分析9创建帝有掏離型的園禍枸也磚解何科站髄技术?MicrosoftC)创建不带掏釀型的園禍枸记明:Mimpft巽类分折算法运用迭代技祠髒目数降的

22、记录分成寥个分类.具口每个分类邑含类仏的持征 W 要找数据中的. 1 士算法就彳艮隹用.2,选择法人基本信息表作为被挖掘的对象3, 选择以下属性列作为输入列四. 实验结果(规则,图,表等)1,聚类结果如下表,共分成 10个类别总体分类m町介类品需26%分类所有链接最强链接密度:无状态:明暗度变量:分类1町2,九个分类情况如下表団显示團例直方團条数:I属性分类剖面图变量总体.分类1 大小.大小.分类8分类4分类2分类3分类6分类7分类5大小.大小.大小.大小.大小.大小.大小.管理特征经营规模经营状况领导素质状态3,总体分类特征为:特征总体全部)变量值经营规模小型经营状况盈利领导素质好管理特征般客户领导素质中管理特征淘汰客户经营状况亏损管理特征优良客户领导素质差管理特征限制客户经营规模中型经营状况关停经营规模其他经营状况其他经营规模大型经营状况破产概率以下为分类1和分类2的分类特征:井类:亦1分类:分类2特征分类2变量值经营状况盈利经营规模小型领导素质好管理特征优良客户管理特征淘汰客户管理特征限制客户概率五. 实验结果分析与比较从实验结果来看,我们可以得出这样的结论,领导素质好的小型企业如果想要 盈利则与管理特征有很大的关系,管理越是优良的企业则盈利越有保证。反之,管理受限制 或淘汰的企业则难以盈利。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!