基于数据挖掘的中小企业信用评估研究企业信息管理专业

上传人：文*** 文档编号：53916969 上传时间：2022-02-11 格式：DOCX 页数：38 大小：441.60KB

收藏版权申诉举报下载

第1页 / 共38页

第2页 / 共38页

第3页 / 共38页

下载文档到电脑，查找使用更方便

20 积分

下载资源

资源描述：

《基于数据挖掘的中小企业信用评估研究企业信息管理专业》由会员分享，可在线阅读，更多相关《基于数据挖掘的中小企业信用评估研究企业信息管理专业（38页珍藏版）》请在装配图网上搜索。

1、摘要新世纪初以来，在国家支持民间经济发展，经济进入新的常态的情况下，中小企业的经济主旋律之间的信贷业务越来越频繁。开发受到限制，因此必须建立良好的评级体系作为保证。另外信用评估也可以为中小企业的风险评估，银行信贷提供有价值的参考。本文重点是对CART分类算法的研究，通过对中小板企业财务数据的数据挖掘，得出了10个信用评估的财务指标，然后选取了层次分析法进行信用评估，通过对数据挖掘后指标的权重分析，利用标准普尔公司指数，对某地中型电气A企业进行了信用评估，并分析了结果。关键词：中小企业；信用评估；CART；层次分析法AbstractSince the beginning of the new

2、century, as the state has supported the development of the private economy and the economy has entered a new normal, the credit business between the economic main theme of SMEs has become more frequent. Development is restricted, so a good rating system must be established as a guarantee. In additio

3、n, credit evaluation can also provide a valuable reference for the risk assessment of SMEs and bank credit.This article focuses on the study of the CART classification algorithm. Through data mining on the financial data of small and medium-sized board companies, 10 financial indicators for credit e

4、valuation are obtained, and then the analytic hierarchy process is selected for credit evaluation. The weight of the indicators after data mining is selected. Analysis, using the Standard & Poors index, conducted a credit evaluation of a medium-sized electric company A in a certain place, and analyz

5、ed the results.Keywords: Small and medium-sized enterprises;Credit assessment;The CART;Analytic hierarchy process目录摘要IAbstractII第1章绪论11.1 课题研究的背景和意义11.1.1 研究背景11.1.2 研究意义21.2 信用评级国内外研究现状21.2.1 国内研究现状21.2.2 国外研究现状31.3 论文的研究内容和组织结构3第2章中小企业概念及信用评级方法52.1 中小企业的概念52.2 中小企业信用评级方法62.2.1 指标提取62.2.2 评估方法72.

6、3 本章小节9第3章数据挖掘理论及中小企业信用指标的挖掘103.1 数据挖掘概述103.2 数据挖掘的具体步骤103.3 中小企业信用指标体系建立113.3.1 中小企业指标选取的原则113.3.2 中小企业信用指标数据源选取123.4 CART分类算法133.4.1 CART分类算法原理133.4.2 Matlab对中小企业数据进行分类挖掘提取指标143.5 本章小节17第4章中小企业信用模型评估184.1 层次分析法概述184.1.1 层次分析法简介184.1.2 层次分析法的建模流程184.2 层次分析法进行评估224.2.1 构建层次结构图224.2.2 构建第二层相对于第一层的判断矩

7、阵及权重224.2.3 构造第三层相对于第二层各个指标的判断矩阵及权重234.3 中小企业信用评级实例274.4 本章小节29第5章总结与展望30参考文献31附录：32致谢36IV第1章绪论1.1 课题研究的背景和意义1.1.1 研究背景随着社会和经济发展的必然会产生针对中小企业有各种信贷、入股以及投资，这是现代社会和经济生活不可分割的一部分，为了降低银行或者股东及投资人的风险必须评估中小企业信贷风险，可以降低双方的交易成本。客观科学的能力是指基于共识和广泛分析的评估。经济、证券市场和市场控制在有效保护和保护信用风险方面发挥着积极的作用，促进投资者和整个市场的利益。具体有以下三点：第一：特

8、别是，大多数个人投资者应了解相关发行人，优化投资机会，以保护投资者的利益和资本市场的组织。第二：客户增加对公司投资的兴趣，同时对企业信用的科学分析可以最大限度地发挥信用评级的作用。第三：企业风险评级是确定信用风险和信用管理的基础。信贷公司的生产经营取决于银行信贷的安全与效率、银行的生存与发展、金融机构的稳定以及信贷风险的大小。改革开放以来，中小企业已成为国民经济的重要力量，通过提供就业机会，为我国经济发展作出了重大贡献。在中国工商注册的1000万中小企业中。当工业总产值转化为销售额时，实现的利润、税收和出口总额分别占全国总产值的67%、44%和64%，创造了75%以上的城市就业机会。然而，中小

9、企业生存发展环境不理想，融资渠道不畅，中小企业融资难已成为制约中小企业发展的主要障碍。中小企业如何融资成为我国金融业的一个重要课题。中小企业融资困难的主要原因有以下两个方面：第一：我国中小企业基础设施薄弱，规模小，储蓄低，个别企业有逃税漏税事件发生，导致中小企业信贷总量减少。第二，社会信用体系不完善，贷款渠道单一。从理论上讲，SME的资金筹措方法应该包括所有企业的资金筹措方法，除了内部的资金筹措方法以外，外部的资金筹措方法也可以使用。外部融资方式包括资本融资、股票资本融资、债券融资和商业期票。融资、商业信用融资等直接融资，以及银行融资和租赁融资等间接融资。由于中国社会信用体系不完善，中小企业除

10、了内部融资外，还可以使用外部融资。外部融资包括投资资本、股票融资、债券发行等直接融资、商业债务证券发行、商业信用融资、银行贷款和租赁融资等间接融资。但是，对于中国的中小企业来说，直接融资是非常困难的。1.1.2 研究意义进入新世纪以来，我国中小企业发展迅速，为经济发展和就业增长做出了重大贡献，与大企业相比，中小企业更容易受到冲击，在历次金融危机期间，中小企业抵御外部风险的能力较弱，因此，对我国中小企业信用评估进行研究，可以有效识别信用风险，对于避免美国次贷危机等金融危机的不利影响，具有重要的理论和现实意义，保持我国金融信贷市场正常运行，保持经济持续稳定增长。1.2 国内外研究现状1.2.1 国

11、内研究现状近年来，关于中小企业信用等级的研究十分活跃，主要集中在中小企业信用等级体系和指标体系的建立上。中小企业的情况,建模所需的数据非常不足,因此,中小企业的信用评价被模型化方法主要数学分析,回归分析,职业比特分析法、多重辨别分析,主要是上市企业或大企业的信用等级被使用。近年来，关于中小企业信用等级的研究比较活跃，主要集中在中小企业信用等级体系和指数体系的建立。SME评级建模的主要方法有专家评级法、层次分析法、模糊数学法、Logitic回归分析法、Probit回归分析法，多元判别分析和BP神经网络。西安交通大学研究生提出了公司贷款指标的选择，并完成了财务指标确定因素的分析。为了考察信贷额度，

12、内蒙古大学的牛曹林对中小企业评估体系进行了评审，建立了适应于中小企业的信用指标体系。广西大学的研究设计了中小企业财务分析系统，涵盖中小企业的资本结构、偿付能力、盈利能力、可行性、成长性、流动性和财务整合。1.2.2 国外研究现状约翰穆迪于1900年在美国成立了穆迪独立服务公司。1909年他第一次分析了各种各样的美国铁路公司和他们发行的债券的风险，记录了美国证券评级事业的诞生。关于海外企业信用等级的研究的序章。国外对企业信用评价的研究起步较早，已有100多年的历史，评价体系和测定模型的开发比较成熟。作为现有评价模型的基础的统计判别法，是菲舍尔在1936年进行启蒙研究后提出的。SME模型、VAR模

13、型和信用风险模型主要用于计算财务活动中的企业违约概率，或者基于每个企业的已知信用等级计算财务风险。这些模型从不同的角度提出了信用风险管理的要点。虽然焦点、目的、适用方向和时期不同，但这些都是高度发达的管理概念，基本上涵盖了整个信用风险管理过程。但是，这些模型在实际应用中还存在一些问题，因为这些模型主要由模型建立的数学条件和假设难以确定。信用评估机构，即模型是离散的，假设相同信用等级的债务人的汇款是完全相同的，违反实际违约率的概率等于过去统计的平均违约率。由于现实并非完全正确，这些模型的使用受到限制。1.3 论文的研究内容和组织结构本论文的研究工作重点是研究关联分析算法在中医古籍数据挖掘上的应用

14、。本文主要由以下几个章节组成：第1章是引论，介绍这篇论文研究的重要性和相关背景，以及与这篇论文相关的国内外研究开发现状。最后，展示论文的整体组织结构。第2章第二章中小企业概念及信用评级方法，主要论述了中小企业的概念、中小企业信用评级方法、指标提取和评估方法。第三章主要论述了数据挖掘理论及中小企业信用指标的挖掘。论述了使用CART算法对中小板上中小企业569条数据挖掘的具体实现流程，并得出了10个评价信用的重要指标。第四章基于层次分析法对中小企业数据进行评估。详细介绍了层次分析法的原理，并对10个指标进行权重求解，最后对某中型电气企业进行信用评估。第五章的摘要和展望。总结了论文的工作，

15、并展望了将来的研究开发。第2章中小企业概念及信用评级方法2.1 中小企业的概念中小企业的国际分类通常基于三个标准，第一是员工人数，第二是实际资本，第三是一定期间的销售额。中小企业的领域，有地域的，现代的，和产业的特征。为了洗练中小企业的定义，中小企业评级系统的建立必须满足中小企业的需求，评估标准和行业评级系统也需要根据企业的特定特性进行调整。2003年原国家经贸委，原国家计委，财政部，国家统计局等部门联合制定发布了中小企业标准暂行规定1。如表2-1 表2-1 中小企业标准行业中小企业标准工业中小企业需要满足以下条件。员工人数不超过2000人，营业额不超过3亿元，或者总资产不超过4000万元。

16、其中，骨干企业必须满足员工300人以上，销售3000万元以上，总资产4000万元以上。建筑业中小企业必须满足以下条件。员工人数不足3,000人或销售不足3亿元，或者总资产不足4000万元。其中，中型企业需要同时见面，员工超过600人，营业额超过3000万元，总资产超过4000万元。批发和零售业零售业的中小企业必须满足以下条件。员工人数不超过500人，或者营业额不超过1.5亿元，其中中型企业也需要满足100人以上的员工人数，营业额在1000万以上。批发的中小企业必须满足以下条件。在200人以下或3亿元以下的销售额中，中坚企业必须满足100人以上，同时满足3000万元以上的员工人数。交通和邮政业运

17、输行业的中小企业必须满足以下条件。员工人数不超过3000人，或者营业额不超过3亿元，其中中型企业也需要满足500人以上的员工人数，营业额在3000万以上。邮政行业的中小企业需要满足以下条件。职工人数不足1000人，或者销售金额不足3亿元，其中，骨干企业需要满足400人以上的职工人数，销售金额在3000万元以上。住宿和餐饮业中小企业需要满足以下条件。员工人数不超过800人，或者营业额不超过1.5亿元，其中中型企业也需要满足400人以上的员工人数，营业额在3000万元以上。2.2 中小企业信用评级方法从指标提取和评估方法两大角度入手：2.2.1 指标提取指标提取的方法主要分为统计分析和数据挖掘两种

18、方法：统计分析：包括层次分析法、逻辑回归分析法、主成分分析法和因子分析法。首先，层次分析法采用了灵活实用的多准则决策方法，特别适用于难以定量分析的问题，需要层次结构模型和判断矩阵，主观性强，使用方便，结果形状直观用指标权重表示。Logistic回归分析是广义线性回归分析，从现有指标体系中剔除关联性较低的指标，建立新的指标体系，结合后续的评价得出企业信用评价结果。与主成分分析和因子分析算法一样，Logistic回归分析模型是由数据指标本身建立的，其结果更加客观3。数据挖掘：主要有粗糙集和wrapper算法，在原始的索引系统中，具有冗余信息的冗余属性被减少，最优功能的子集被提取，后续的评估模型的训

19、练时间被缩短。前者通常与其他方法(主要是数据挖掘算法)组合以建立后续评估模型;后者的提取标准实际上与后续的评估模型(通常是数据挖掘算法)相关联(即，根据评估模型)来确定最优的功能子集的分类性能。2.2.2 评估方法目前国内研究的评估方法主要有以下三种(1) 数理统计模型判别分析和逻辑回归分析具有最广泛的统计模型，前者是基于线性判别的。前者的应用中，Altman最具代表性。基于多变量线性判别分析,5个指标被筛选,公司是否设定担保贷款违约预测模型,即5因子z分数模型,以此为基础确立被改善,5 7因子扩张因子,并确立了zeta模型。这两个模型有广泛的影响，对逻辑回归分析有普遍的使用价值。在这个研究中

20、，发现预测精度比线性判别分析要高。张佳敏(2014)使用了150家昆明高新科技微型贷款企业作为调查样本。分为默认和非默认，构建逻辑回归模型和代理回归模型，发现前者的假阳性率比后者低4。(2) 专家分析法（Expert analysis）。20世纪50年代以前，外国的信用评价技术主要依赖于专家的经验和判断，即综合研究企业主的基本个人信息、与事业运营相关的财务信息、事业竞争力、经济环境、开发等方面的专家分析。评估企业主的个人资质和公司资产评估等的前景及其他因素，以决定是否投资该项目。其中,5 c法(品质、能力、资本、抵押贷款,条件),5 p法(个人因素,资金使用的因素,前因素、债券偿还保证因素,企

21、业前景的因素),5 w法(借入人,偿还贷款的目的、偿还期限、担保、方法),lapp法(流动性、收益性,活动,可能性)等企业的信用评价历史上重要的创意是英里,斯通作为其内核此前广为流通,但那是个人的判断,专家的资质,依赖于专家的道德修养太过分了。之后，逐渐进行定性分析，定量信息被添加到结果中，如分析分级过程和模糊综合评价方法等，更加直观。比如，Zhang Chao et al。(2014)从中小企业的财务状况、信用状况、发展状况以及互联网财务状况出发，选择了12个指标，将其细分为17个二级指标。信贷索引系统根据所获取的索引加权结果，使用Q品牌网上旗舰店2013年的营业数据，验证模型的有效性6 。

22、(3) 数据挖掘算法。很多因素在不同程度上影响着中小企业的信用等级计算。特征选择和属性相关计算等数据挖掘方法有助于确定与重要要素无关的要素。例如，与支付偿还风险相关的因素有支付率、资金筹措期限、负债比率、偿还收入比率、信用记录等。根据Saed Sayad博士的理论，数据挖掘算法分为两个类别。一是说明过去的数据探索，二是预测将来的建模。中小企业的信用评价的分类算法,算法包括回归,回归算法及算法,决定树,及人工神经网络被广泛使用。图2-1 数据挖掘算法2.3 本章小节本章主要介绍了中小企业信用评级领域的相关知识，具体算法见第三章。分别叙述了中小企业的概念，技术流程和中小企业信用评级的概念流程。重

23、点介绍了指标提取和评估方法。第3章数据挖掘理论及中小企业信用指标的挖掘3.1 数据挖掘概述“数据中发现有用的模式”,是数据挖掘(数据挖掘),发现知识提取(知识提取)、信息(情报)发现,收集情报(信息)收集数据,考古学考古学(数据)等,经常经常被称为了。3.数据图形处理。数据挖掘(kdd),也被称为机器学习、统计及其他科技基于学生数据的高度自动化的实施进行分析,可以信赖的推论和新颖有效的处理完成。或者，从数据库中提取有趣且能理解的知识。这里面包含着事先隐藏的不明确的有用信息。获取的知识以概念、规则、标准、规则等形式存在，以便管理者做出正确的决策7。数据挖掘,机器学习,模式识别,智能数据库,统计

24、知识的获取、数据可视化、高性能计算机、专家系统及信息管理、过程控制、科学研究等其它领域横向合并的东西。侧面。数据挖掘技术的应用开发在海外发展迅速，已经开发了DBMiner、Quest、EXPLORA等几种产品和原型。在中国，这个领域的研究起步较晚。初期的研究主要着眼于相关规则的分解。Web数据挖掘越来越受到关注，受到研究支持。成功开发了原型系统和数据挖掘工具，然后，继续改善。3.2 数据挖掘的具体步骤数据挖掘的整个过程是从数据中找到所需的数据，使用合适的算法根据需求进行建模，最后根据预测和模型测试模型的稳定性。1.数据挖掘的目的是从数据中找出有用的数据。为了建立一个有导向的数据挖掘模型，我们首

25、先需要理解并定义模型要估计的几个目标变量。找到解释一组输入变量和目标变量之间关系的模型。这在很多情况下是数据挖掘的中心，如果目标变量没有被适当地定义，并且适当的输入变量没有被确定。2.选择合适的数据寻找企业信用数据的第一个地方是企业的数据仓库。问题是，在许多企业组织中，这样的数据保护系统实际上是不公开的。在此阶段,几乎所有的sme金融机构和商业系统提供的数据是比较容易掌握,但数据的质量和整合性仍然是问题,数据挖掘需要更有效的数据之前,有必要慎重筛选。3.识别数据在数据建模之前，人们经常会忽略数据研究时间的重要性。实际上，数据挖掘工程师非常依赖直觉。使用直觉可以缩小数据集的范围。4.建立模型集模

26、型集包含建模过程中使用的所有数据。模特局的数据,根据适当的比率,例如,训练、测试套装,有必要分类验证局。模特局制定,复数的密集型数据从源数据,并分析用数据有必要准备8。3.3 中小企业信用指标体系建立3.3.1 选择分类模型原则指标的选择也需要遵循特定的规则。这篇文章的主要选择是中小企业的财务数据指标。财务数据指标的建立主要遵循以下相关规则。(1)概括性。财务指标的设计应全面反映上市公司的盈利能力、增长水平、支付能力、现金流和其他条件，并对企业的各个方面进行分析，尽可能全面地揭示企业的财务状况。(2)重要性。因为财务指标很多，所以不可能把所有的指标添加到模型中，相反，如果指标过多，可能会对模型

27、的有效性和实用性产生负面影响。选择主要的指标，反映它们的重要性。(3)灵敏度。被选择的指标，对公司变化的敏感度良好。更改后会马上反映出来。(4)科学。公司财务索引系统的建立需要根据公司的财务状况科学地设计，索引系统可以科学地解释原因9。3.3.2 中小企业信用指标数据源选取本文主要选取了wind金融库和choice金融终端，共采集了569条来自中小板的企业数据记录，每一条记录由32个字段组成，30个信用评级指标以及数据来自wind金融库还是choice金融终端，使用Matlab2018b将数据库30个企业指标保存为.mat格式图3-1 部分企业数据3.4 CART分类算法3.4.1 CART分

28、类算法原理CART算法是生成一颗决策树，输入X（各种特征条件）输出Y（该样本分类结果）图3-2 CART原理图决策树算法采用从上到下的递归方式，树上分叉节点为对一个属性取值的测试，叶子节点代表结果，按照验证集的属性集确定对应的分支，在CART算法中，基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。当一个节点中所有样本都是一个类时，基尼不纯度为零假设存在y的K的可能值，作为样本值的概率，我们可以用下式10来计算基尼索10。Ginip=i=1Kpi1-pi=1-i=1Kpi2公式(3- 1)在选择根节点属性时，计算每一种属性分类后的基尼指数Gini，选择Gini最小的那种属性作为该节点的分

29、类依据。训练时会尽可能多得生成枝子，往往对训练集分类效果很好，但在验证集分类误差大。为防止过拟合，提高决策树的泛化性，需要修剪一些分支。剪枝过程：首先将样本分为训练集和验证集。1）预剪枝预剪枝要对划分前后，验证集精度进行估计，如精度提高则进行划分。2）后剪枝后剪枝先从训练集生成一棵完整决策树，再依次对每个叶枝剪除前后，验证集精度进行评估，如精度提高则剪枝。3.4.2 Matlab对中小企业数据进行分类挖掘提取指标使用数据挖掘的实现工具选择了适合于高效自主算法开发的Matlab2018b，可以用来完成一些数据挖掘任务，例如决策树、朴素贝叶斯、逻辑回归、支持向量机(SVM)等。使用Matlab进行

30、科学计算的流程应该是获取数据，数据探索和建模，分析结果。首先在Matlab2018b中导入数据文件，数据文件就会到入进matlab的工作区(当前内存中的变量)，并且以列向量的形式显示，cd查看当前目录，userpath()修改目录，savepath保存修改，如图3-3图3-3 导入数据数据探索和建模目的是评估企业中指标，除了使用分类树数据挖掘算法，尝试用图的形式呈现数据信息。以下为部分代码，完整代码在附录。%. 创建决策树分类器 ctree = ClassificationTree.fit(P_train,T_train); % 查看决策树视图 view(ctree); view(ctree,

31、mode,graph); % IV. 仿真测试 T_sim = predict(ctree,P_test); leafs = logspace(1,2,10); N = numel(leafs); err = zeros(N,1); for n = 1:N t = ClassificationTree.fit(P_train,T_train,crossval,on,minleaf,leafs(n); err(n) = kfoldLoss(t); end % 设置minleaf为13，产生优化决策树 OptimalTree = ClassificationTree.fit(P_train,T_t

32、rain,minleaf,13); view(OptimalTree,mode,graph) % % 计算优化后决策树的重采样误差和交叉验证误差 resubOpt = resubLoss(OptimalTree) lossOpt = kfoldLoss(crossval(OptimalTree) % 计算优化前决策树的重采样误差和交叉验证误差 resubDefault = resubLoss(ctree) lossDefault = kfoldLoss(crossval(ctree) % 剪枝 ,bestlevel = cvLoss(ctree,subtrees,all,treesize,mi

33、n) cptree = prune(ctree,Level,bestlevel); view(cptree,mode,graph) % 计算剪枝后决策树的重采样误差和交叉验证误差 resubPrune = resubLoss(cptree) lossPrune = kfoldLoss(crossval(cptree) 运行结果：图3-4 分类树截图图3-5 部分运行截图统计所有根节点处评价企业信用的指标，可以得到如下重要指标，如表3-1：表3-1重要性代号X1X2X6X11X14X15X21X22X24X28指标资产负债率C1利息支付倍数C2流动比率C3现金流与流动负债率C4应收款账周转率C5

34、存货周转率C6现金流与流动负债比率C7主营业务增长率C8净利润增长率C9净资产增长率C103.5 本章小节本章首先介绍了数据挖掘算法的具体实现流程和中小企业指标的选取，然后设计了CART算法，介绍了使用Matlab2018b对企业财务数据进行数据挖掘的过程，并得出了重要的10个信用指标。第4章中小企业信用模型评估4.1 层次分析法概述4.1.1 层次分析法简介AHP也被称为AHP，是20世纪70年代匹兹堡大学教授萨蒂提出的系统分析方法。人的思考过程的模拟，是定性分析和定量分析相结合的总括性的方法。ahp使用解决问题的想法是,问题应该实现的种类和目标分割问题,并根据复数的不同要素,解决问题,

35、根据它们之间的相互作用问题是易于被分离,人们对客观现实的判断,根据模型的各因素的相对重要度系数分量被定量描述,使用被区分,最终形成模式。 4.1.2层次分析法的建模流程在对社会、经济、科学管理问题的系统分析中，人们面临着相互关联、相互制约的复杂系统，在许多情况下，缺乏定量数据。ahp,这种问题的决策和等级的新提供简洁实用的建模方法。图4-1示出AHP建模过程。图4-1 层次分析法流程图要构建层级结构，首先要把问题结构化、层级化，构建层级结构模型。把复杂的问题分解成组件。这些要素根据属性和关系形成若干等级。前一级的要素，作为基准支配下一级的相关要素。这些等级可以分为三个类别。如表4-1表4-1

36、层次分析法分层上层这个水平只有一个要素。这一般是分析问题的预定目标或理想结果，因此也称为目标水平。中层这个级别包括与目标达成相关的中间链路。这也被称为基准层，因为基准层可以包括所考虑的基准和子基准。低层这个水平，包含为了达成目标可以选择的各种专业和决策选项，所以也被称为专业水平或计划水平。层次结构的层数与问题的复杂性和分析所需的详细度有关，一般层数没有限制。各等级的各要素支配的要素，通常不超过9要素。因为支配要素过多的话，就很难判断彼此。(2)在层次上最难确定的是各基准索引的值。确定基准指标的比率时，对于决策者来说最大的困难是，这些指标的比率常常难以量化，很多因素会影响特定的指标。直接考虑特定

37、因素的影响程度的话，决策者经常会提供错误的数据。将单位重量为1的对象分割成n个，设定为这个。如果你不知道每个小片的重量，那么很难给你提供n个小片的总重量的正确比例，这可能会相互冲突。因此，为了比较n个因子对特定因子Z的影响，美国的操作研究专家Saaty等采用因子的配对比较方法，建立了配对比较矩阵。也就是说，每次取两个因子的总和，表示Z的总和的冲击大小之比，所有比较结果都用矩阵A =表示，其中A被称为ZX之间的比较确定矩阵(被称为确定矩阵)11。如果对Z的影响的比率是Z，那么很容易理解对Z的影响的比率是适当的aij0, aji=1aij公式(4- 1)则称之为正互反矩阵。aij标度值：表4-1

38、判断矩阵标度值标度含义1两个因素是同等重要的。3前者比后者更重要。5前者比后者明显重要7前者较后者强烈重要9前者比后者极端重要2,4,6,8中间值倒数因子i的重要度和因子j的比率是因子j的重要度和因子i的比率的情况从心理观点来看，如果评分过多，就会超出人们的判断能力，不仅难以判断，而且容易提供错误的数据。Saaty et al。另外，为了比较在各种各样的尺度下人们的判断结果的正确性，使用了实验方法。实验结果表明，1 9标度是最合适的。(3)阶层顺序和整合性检查与判定矩阵A的最大固有值对应的固有向量W被正规化，以使相同级别的对应因子相对于前一级的特定因子的相对重要度的排序权重。这个过程被称为等级

39、单排。上述的比较判断矩阵的制作方法，虽然可以减少其他要素的干扰，但客观上反映了一对要素影响的不同。但是，在合成所有的比较结果的情况下，不可避免地会包含某种程度的矛盾。如果比较结果在前后完全一致，矩阵A的要素也需要满足以下条件。aij*aji=aik，i,j,k=1,2,n公式(4- 2)满足方程2-2的正逆矩阵被称为匹配矩阵。决策者为了决定是否接受，也有必要进行判断矩阵的整合性检查。一致性检查程序1. 计算一致性指标（CI）CI=MAX-nn-1公式(4- 3)2. 查找相应的平均随机一致性指标（RI）CR=CIRI当CR0.10时，认为判断矩阵的一致性是可以接受的。公式(4- 4)（4）层次

40、总排序及一致性检验上述得到的是相对于上面层的要素的要素组的权重向量。最后，为了选择方案，需要获取要素，尤其是最下层方案的排序权重。综合排名的权重对于在单一标准下从上到下组合权重是很重要的。假设前面的等级(等级A)包含合计m个因子，它们的合计排列权重分别为。假设下一级(层B)包含n个因子，一级的单一阶数的权重(无关的情况，= 0)。这里，我们找到了层B的每个因子在总体目标中的权重。也就是说，找到层B的各因子的排列权重的总和。4.2 层次分析法进行评估4.2.1 构建层次结构图图4-2 层次结构图4.2.2 构建第二层相对于第一层的判断矩阵及权重建立准则层中的偿贷能力、营运能力、成长能力相对子目标

41、层的判断矩阵，如表13-6所示。求解判断矩阵的最大特征值和特征向量，得到各指标层的权重，并对判断矩阵的一致性进行检验。表4-2 A-B层判断矩阵A偿还能力B1营运能力B2成长能力B3偿还能力B1124营运能力B21/213成长能力B31/41/31利用特征根法的MATLAB程序如下：clear;A=1 2 4;1/2 1 3;1/4 1/3 1; RI=0 0 0.52 0.89 1.12 1.26 1.36 1.41 1.46 1.49 1.52 1.54 1.56 1.58 1.59;m,n =size(A); V,D =eig(A) %显示特征值D和特征向量V的矩阵形式B= max (m

42、ax(D) %最大特征值r,s =find(D=B); %最大特征值所在位置C=V(:,s); %对应特征向量Q=zeros(m,1);for i=1: m Q(i,1) =C(i,1)/sum(C(:,1);%特征向量标准化 endQ %所求的权重CI=(B-m)/(m-1) %计算一致性检验指标CR=CI/RI(1,n) %计算一致性比率指标，CR0.1符合运行结果如下：图4-3 运行截图1特征值=3.0183，CR=0.01760.1，通过一致性检验。目标层对第二层B的权重为W=(0.5584，0.3196，0.1220)公式(4- 5)4.2.3 构造第三层相对于第二层各个指标的判断矩

43、阵及权重准则层偿还能力B1对子准则层C的前四个指标C1，C2，C3，C4的判断矩阵如下表4-3所示，表4-3 B1-C层判断矩阵B1C1C2C3C4C11123C21123C31/21/211C41/31/311利用特征根法Matlab程序如下：clear;A=1123 1 1 2 31/2 1/2111/3 1/311; RI=0 0 0.52 0.89 1.12 1.26 1.36 1.41 1.46 1.49 1.52 1.54 1.56 1.58 1.59;m,n =size(A); V,D =eig(A) %显示特征值D和特征向量V的矩阵形式B= max (max(D) %最大特征值

44、r,s =find(D=B); %最大特征值所在位置C=V(:,s); %对应特征向量Q=zeros(m,1);for i=1: m Q(i,1) =C(i,1)/sum(C(:,1);%特征向量标准化 endQ %所求的权重CI=(B-m)/(m-1) %计算一致性检验指标CR=CI/RI(1,n) %计算一致性比率指标，CR0.1符合运行结果：图4-4 运行截图2max=4.0206，CR=-0.00770.1，通过一致性检验，准则层B1对第三层子准则层C1，C2，C3，C4的权重为：W1=(0.3540，0.3540，0.1607，0.1313)公式(4- 6)准则层营运能力B2对子准则

45、层C的三个指标C5，C6，C7的判断矩阵如表4-4表4-4 B2-C层判断矩阵B2C5C6C7C511/21/4C6211/3C7431利用特征根法的程序如下：clear;A=11/21/41 11/2431; RI=0 0 0.52 0.89 1.12 1.26 1.36 1.41 1.46 1.49 1.52 1.54 1.56 1.58 1.59;m,n =size(A); V,D =eig(A) %显示特征值D和特征向量V的矩阵形式B= max (max(D) %最大特征值r,s =find(D=B); %最大特征值所在位置C=V(:,s); %对应特征向量Q=zeros(m,1);f

46、or i=1: m Q(i,1) =C(i,1)/sum(C(:,1);%特征向量标准化 endQ %所求的权重CI=(B-m)/(m-1) %计算一致性检验指标CR=CI/RI(1,n) %计算一致性比率指标，CR0.1符合运行结果为：图4-5 运行截图3max=2.9717，CR=-0.02720.1，通过一致性检验，准则层B2对第三层子准则层C4，C5，C6W2=(0.1384，0.2303，0.6313)公式(4- 7)准则层营运能力B3对子准则层C的三个指标C8，C9，C10的判断矩阵如表4-5表4-5 B3-C层判断矩阵B3C8C9C10C8111/4C921/41/2C1031/

47、21替换判断矩阵A的值，得到：max=2.7393，CR=-0.25070.1，通过一致性检验，准则层B3对第三层子准则层C7，C8，C9W3=(0.2328，0.2841，0.4832)公式(4- 8)4.3 中小企业信用评级实例根据标准普尔公司的分级标准，对层次的每一项打分分数的范围是0.1 10，单位是0.1。得分结束后，计算各项目的加权得分，即得分和加权的乘积，最后取得各项目的加权得分的合计。与最终得分对应的评价结果评级分为十级，详细的评级表12如下表4-6所示。表4-6 评级表总分信用等级0.9-1.0AAA0.8-0.9AA0.7-0.8A0.6-0.7BBB0.5-0.6BB0.

48、4-0.5B0.3-0.4CCC0.2-0.3CC0.1-0.2C小于0.1D以下是某地中型电气公司A的运营情况：公司成立于1999年，注册资本金1000万元，是一家有限责任公司。主要从事输电及变压工程建设。该公司已被中国建设部调查并确认。具有财团及基本项目专业合同一级资格，省建设部门也有相关建设资格。以下是从偿还能力、运用能力、成长能力三个方面的具体数据。表4-7 偿还能力项目201720182019资产负债率22.323.522.5利息支付倍数2.31.41.5流动比率3.54.13.7现金流与流动负债比率12.616.314.2表4-8 营运能力项目201720182019应收款账周转率

49、12.310.211.8存货周转率7.29.28.9总资产周转率1.31.51.2表4-9 成长能力项目201720182019主营业务增长率11.310.212.5净利润增长率1.31.72.4净资产增长率1.42.31.2根据标准普尔的SME信用评级模型，公司的信用评分如下计算。表4-10：表4-10 信用得分表指标权重分值（对应表4-1）加权后分值资产负债率0.35400.90.3186利息支付倍数0.35400.80.2832流动比率0.16070.80.1286现金流与流动负债比率0.13130.40.0525总计0.7829指标权重分值加权后分值应收款账周转率0.55840.70.

50、3909存货周转率0.31960.80.2557总资产周转率0.12200.50.061总计0.7076指标权重分值加权后分值主营业务增长率0.23280.80.1862净利润增长率0.28410.70.1989净资产增长率0.48320.70.3382总计0.7233加权后分数分别为0.7829，0.7076，0.7233 均大于0.7，根据表4-1 A企业的信用评级为A。4.4 本章小节本章介绍了层次分析法的具体流程，通过对数据挖掘后指标的权重分析，利用标准普尔公司指数，对某地中型电气A企业进行了信用评估，并分析了结果。第5章总结与展望随着社会主义市场经济的发展，中国的中小企业一直在发展

51、和成长。中小企业仍然面临很多问题，因为中小企业的信用评价不完善。融资一直是制约中小企业发展的主要因素，有必要建立中小企业信用评价办法。通过研究了中小型企业的发展现状，以及现存的国内外的企业信用的评估方法，针对企业众多的财务指标，采用数据挖掘方式提取了10个重要指标，运用容易理解，操作简便的层次分析法进行信用评估，可以较为真实的反映中小型企业的信用状况。本文不可避免地存在一些不完善的地方，通过查阅资料了解当前对中小企业信用评估主要在评估方法层面。评估方法的算法有很多种，未来研究可以使用logistic回归分析算法进行评估研究，同时可以设法在CART算法加以改进，或者采用更随机的随机森林算法提高的

52、运算效率。参考文献1 Asymptotic traveling wave solution for a credit rating migration problem. Liang J,Wu Y,Hu B. Journal of Differential Equations . 20162 Corporate credit ratings:Selection on size or productivity?. Bakhtiari S. International Review of Economics&Finance . 20173 Numerical modeling of depende

53、nt credit rating transitions with asynchronously moving industries. Boreiko D V,Kaniovski Y M,Pflug G C. Computational Economics . 20174 袁莉,李宏男,姜韶华. 企业信用评价方法概述J. 建筑经济;2007年S2期5 李炳南. 基于大数据的中小企业信用评估和风险控制的问题研究D. 天津大学,2018.6 邱梅,王哲元. 基于数据挖掘的信用评估研究J. 计算机技术与发展,2017,27(08):47-51.7 中小企业信用指标体系构建及评估模型的最优化D. 奚梦

54、缘.南京大学 . 20188施晨曦. 基于数据挖掘的企业信用评价研究D. 南京大学,2011.9陈琳,季凌.基于数据挖掘的中小企业客户信用评级模型的设计与实现J.海峡科技与产业,2019(01):176-178.10陈华.基于数据挖掘技术的企业信用评估研究J.科学学与科学技术管理,2007(07):192-194.11邓晓衡,曾德天.基于AHP和混合Apriori-Genetic算法的交通事故成因分析模型J.计算机应用研究,2019,36(06):1633-1637+1678.12崔金红,陈进.我国企业信用评估体系的发展J.国际商务.对外经济贸易大学学报,2004(04):59-62.附录：%

55、 I. 清空环境变量clear allclcwarning off% II. 导入数据第一列是中小企业股票序号第二列是来自创业板还是沪深股市后面是特征属性30个load data.mat% 1. 随机产生训练集/测试集a = randperm(569);Train = data(a(1:500),:); %产生500个训练集Test = data(a(501:end),:); %剩下的是测试集 69个% 2. 训练数据P_train = Train(:,3:end);T_train = Train(:,2);% 3. 测试数据P_test = Test(:,3:end);T_test =

56、 Test(:,2);% III. 创建决策树分类器ctree = ClassificationTree.fit(P_train,T_train);% 1. 查看决策树视图view(ctree);view(ctree,mode,graph);% IV. 仿真测试T_sim = predict(ctree,P_test);% V. 结果分析count_B = length(find(T_train = 1);count_M = length(find(T_train = 2);rate_B = count_B / 500;rate_M = count_M / 500;total_B = leng

57、th(find(data(:,2) = 1);total_M = length(find(data(:,2) = 2);number_B = length(find(T_test = 1);number_M = length(find(T_test = 2);number_B_sim = length(find(T_sim = 1 & T_test = 1);number_M_sim = length(find(T_sim = 2 & T_test = 2);disp(中小企业总数： num2str(569). wind数据库： num2str(total_B). choice金融终端： nu

58、m2str(total_M);disp(训练集例总数： num2str(500). wind数据库： num2str(count_B). choice金融终端： num2str(count_M);disp(测试集例总数： num2str(69). wind数据库： num2str(number_B). choice金融终端： num2str(number_M); % VI. 叶子节点含有的最小样本数对决策树性能的影响leafs = logspace(1,2,10);N = numel(leafs);err = zeros(N,1);for n = 1:N t = ClassificationT

59、ree.fit(P_train,T_train,crossval,on,minleaf,leafs(n); err(n) = kfoldLoss(t);endplot(leafs,err);xlabel(叶子节点含有的最小样本数);ylabel(交叉验证误差);title(叶子节点含有的最小样本数对决策树性能的影响)% VII. 设置minleaf为13，产生优化决策树OptimalTree = ClassificationTree.fit(P_train,T_train,minleaf,13);view(OptimalTree,mode,graph)% 1. 计算优化后决策树的重采样误差和交

60、叉验证误差resubOpt = resubLoss(OptimalTree)lossOpt = kfoldLoss(crossval(OptimalTree)% 2. 计算优化前决策树的重采样误差和交叉验证误差resubDefault = resubLoss(ctree)lossDefault = kfoldLoss(crossval(ctree)% VIII. 剪枝,bestlevel = cvLoss(ctree,subtrees,all,treesize,min)cptree = prune(ctree,Level,bestlevel);view(cptree,mode,graph)% 1. 计

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

基于数据挖掘的中小企业信用评估研究企业信息管理专业

最新文档

相关资源

相关搜索